PENENTUAN MAKNA KATA DARI FRASE DALAM KALIMAT BAHASA INGGRIS

Jeany Harmoejanto

Abstract

Tokenisasi merupakan proses memecah kalimat menjadi kata, frase atau bentuk lain yang memiliki arti, hasil tokenisasi disebut sebagai token. Tokenisasi adalah langkah prapemrosesan Word Sense Disambiguation (WSD), proses penentuan makna suatu kata. Istilah ”word” dalam WSD, dapat diartikan sebagai kata tunggal maupun rangkaian lebih dari satu kata yang disebut frase. Kategori frase sendiri dapat dibedakan berdasarkan maknanya, yakni frase yang memiliki makna baru, terlepas dari kata-kata penyusunnya (contoh: take off) dan yang tidak memiliki makna baru (contoh: this morning). Saat sebuah frase diartikan secara terpisah berdasarkan unsur kata yang membentuknya, makna yang dihasilkan menjadi kurang tepat dibandingkan jika frase tersebut diartikan secara satu kesatuan. Dalam penelitian ini, akan dilakukan penentuan frase pada kalimat berbahasa inggris, di mana frase tersebut memiliki makna baru. Masukan sistem adalah sebuah kalimat, dan keluaran yang dihasilkan adalah daftar frase yang terdapat dalam kalimat tersebut. Langkah yang dilakukan adalah melakukan tagging pada kalimat dengan Stanford PoSTagger, kemudian tokenisasi untuk menghasilkan kumpulan kata. Langkah utama penentuan frase adalah melakukan kombinasi kata, hasil dari tokenisasi, untuk menemukan frase dengan bantuan kamus wordnet. Kombinasi kata dilakukan dengan kombinasi bubble dan insertion. Uji coba dilakukan dengan membandingkan hasil dari penentuan frase yang dihasilkan oleh aplikasi yang dibuat, dibandingkan dengan validasi yang dilakukan oleh beberapa ahli tata Bahasa Inggris, terhadap 65 kalimat berbahasa Inggris. Hasil uji coba menunjukkan aplikasi mampu menentukan frase dalam kalimat dengan precision dan recall mencapai 85.14% dan 96,92%.

 

Kata kunci: word sense disambiguation, frase, insertion, bubble, wordnet.

 

Abstract

Tokenization is a process to get list of words, pharses or other forms needed from a sentence. The result of tokenization process usually called token. Tokenization is one of preprocessing method in Word Sense Disambiguation (WSD), process to determine meaning or sense of a word. Term ”word” in WSD, can be described as single word or multiple word called phrase. Phrase can be determined by its meaning, which are a phrase that can create a new meaning from different from each word’s meaning (eg: take off) and a phrase that still have the same meaning with each words (eg: this morning). When sense of a phrase is determine by senseof each words that construct that phrase, it will less accurate than if it is determined as a phrase. This research will try to find the phrase, that has new meaning, in an english sentence. Input of system is a sentence and it will generate list of phrases. The first step to find those phrases is sentence tagging using Stanford PoSTagger, followed by tokenization process to generate words, the last step is to combine each words using Bubble combination or Insertion combination to find phrase based on wordnet. The experiment will compare between result generated by application validation that being done by few english lecturers, to 65 sentences. The results show that application able to generate phrase up to 85.14% precision dan 96,92% recall.

 

Key words: word sense disambiguation, frase, insertion, bubble, wordnet

Full Text:

PDF

References

Agirre, E dan Stevenson, M., 2006, “Knowledge sources for WSD. In Word Sense Disambiguation: Algorithms and Applications”, Eds. Springer, New York, NY, 217–251.

Allsop, J., 1990, Test Your Phrasal Verbs, Gelatik.

Cutting, J. Kupiec, Pedersen, J. dan Sibun, P. 1992. “A practical Part-of-Speech Tagger”. Proceedings of the Third Conference on Applied Natural Language Processing. ANLP-92.

Mihalcea, R., 2005, “Unsupervised Large- Vocabulary Word Sense Disambiguation with Graph-based Algorithms for Sequence Data Labeling”, Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), hal. 411–418.

Toutanova K. dan Manning, D.C., 2000, “Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger” In Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP/ VLC-2000). hal. 63–70.

DOI

https://doi.org/10.21107/rekayasa.v4i2.2331

Metrics

Refbacks

  • There are currently no refbacks.


Copyright (c) 2016 Jeany Harmoejanto

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.