Giter Club home page Giter Club logo

go-sastrawi's Introduction

Go-Sastrawi

GoDoc Build Status

Go-Sastrawi is a Go package for doing stemming in Indonesian language. It is based from Sastrawi for PHP by Andy Librian. For more information in English, see readme.

Go-Sastrawi adalah package Go untuk melakukan stemming pada bahasa Indonesia. Dikembangkan dari Sastrawi untuk PHP yang dibuat oleh Andy Librian.

Stemming

Dari Wikipedia, stemming adalah proses untuk mengubah kata berimbuhan menjadi kata dasar. Contohnya :

  • menahan => tahan
  • pewarna => warna

Contoh Penggunaan

Package ini memiliki dua komponen utama. Yang pertama adalah Tokenizer untuk memecah kalimat menjadi kata-kata sekaligus menghapus simbol-simbol dan URL dalam kalimat tersebut. Yang kedua adalah Stemmer untuk mengubah kata berimbuhan menjadi kata dasar.

import (
	"fmt"
	"github.com/RadhiFadlillah/go-sastrawi"
)

func main() {
	// Kalimat asal
	sentence := "Rakyat memenuhi halaman gedung untuk menyuarakan isi hatinya. Baca berita selengkapnya di http://www.kompas.com."

	// Pecah kalimat menjadi kata-kata menggunakan tokenizer
	tokenizer := sastrawi.NewTokenizer()
	words := tokenizer.Tokenize(sentence)

	// Ubah kata berimbuhan menjadi kata dasar
	stemmer := sastrawi.NewStemmer(sastrawi.DefaultDictionary)
	for _, word := range words {
		fmt.Printf("%s => %s\n", word, stemmer.Stem(word))
	}
}

Selain menggunakan kamus kata dasar default, user juga dapat membuat kamus kata dasar sendiri.

import (
	"fmt"
	"github.com/RadhiFadlillah/go-sastrawi"
)

func main() {
	// Buat kamus baru
	dictionary := sastrawi.NewDictionary("lapar")
	dictionary.Print("")

	// Tambah kata dasar ke kamus
	dictionary.Add("ingin", "makan", "gizi", "enak", "lezat")
	dictionary.Print("")

	// Hapus kata dasar dari kamus
	dictionary.Remove("enak", "lezat")
	dictionary.Print("")

	// Gunakan kamus yang telah dibuat untuk stemming
	sentence := "Aku kelaparan dan menginginkan makanan yang bergizi."
	words := sastrawi.NewTokenizer().Tokenize(sentence)

	stemmer := sastrawi.NewStemmer(dictionary)
	for _, word := range words {
		fmt.Printf("%s => %s\n", word, stemmer.Stem(word))
	}
}

Pustaka

Algoritma

  1. Algoritma Nazief dan Adriani
  2. Asian J. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. (PDF dan Amazon)
  3. Arifin, A.Z., I.P.A.K. Mahendra dan H.T. Ciptaningtyas. 2009. Enhanced Confix Stripping Stemmer and Ants Algorithm for Classifying News Document in Indonesian Language, Proceeding of International Conference on Information & Communication Technology and Systems (ICTS). (PDF)
  4. A. D. Tahitoe, D. Purwitasari. 2010. Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based Stemming, Institut Teknologi Sepuluh Nopember (ITS) โ€“ Surabaya, 60111, Indonesia. (PDF)
  5. Tambahan aturan stemming dari kontributor Sastrawi.

Kamus Kata Dasar

Proses stemming oleh Sastrawi sangat bergantung pada kamus kata dasar. Sastrawi menggunakan kamus kata dasar dari kateglo.com dengan sedikit perubahan.

Lisensi

Sebagaimana Sastrawi untuk PHP, Go-Sastrawi juga disebarkan dengan lisensi MIT. Untuk lisensi kamus kata dasar dari Kateglo adalah CC-BY-NC-SA 3.0.

Di Bahasa Pemrograman Lain

go-sastrawi's People

Contributors

radhifadlillah avatar codenoid avatar prasastoadi avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    ๐Ÿ–– Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. ๐Ÿ“Š๐Ÿ“ˆ๐ŸŽ‰

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google โค๏ธ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.