Membantu Mengerjakan Tesis dan Disertasi S3 - hubungi Meruya Statistik 0812 1944 9060

RINGKASAN MULTI DOKUMEN BERBASIS ISI DENGAN

PENGKLASTER SEKUENSIAL DAN ALGORITMA GENETIKA

*Dewi Yanti Liliana, **Tiara Arinta Dewi

Program Studi llmu Komputer, Program Teknologi Informasi dan llmu Komputer, Universitas

Brawijaya, J1. Veteran Malang, Jawa Timur, 65141

E-mail: *dewi.liliana@ub.ac.id

Abstrak

Peringkasan dokumen diperlukan untuk mengekstrak intisari atau bagian penting dari keseluruhan dokumen untuk mempermudah menangkap informasi yang disampaikan pada suatu dokumen tunggal. Permasalahan yang dihadapi adalah bagaimana jika pengguna menginginkan ringkasan informasi dari berbagai dokumen (ringkasan multi dokumen). Berbagai macam dokumen tidal( dapat diringkas menjadi satu, hanya dokumen-dokumen yang memiliki kesamaan isi yang dapat menghasilkan satu ringkasan. Untuk itu sebelum diringkas, dokumen-dokumen tersebut dikelompokkan terlebih dahulu menggunakan algoritma pengklaster sekuensial. Selanjutnya peringkasan dokumen dilakukan dengan ekstraksi kalimat dan perangkingan berbasis algoritma genetika. Ekstraksi kalimat berfungsi untuk mengidentifikasi kalimat¬kalimat penting berdasarkan fitur-fitur yang ditentukan, dan dari nilai fitur tersebut kalimat akan dirangking secara optimal dengan algoritma genetika. Hasil dari ringkasan tiap dokumen dalam satu klaster digabung menjadi satu ringkasan. Penelitian ini diujikan pada beberapa klaster dokumen dengan ukuran ringkasan 25%, 50%, dan 75%. Berdasarkan pengujian yang dilakukan dihasilkan rata-rata precision 0.710491, rata-rata recall 0.70388, dan rata-rata F-measure yang merepresentasikan akurasi sistem 0.7069. Dengan akurasi yang dihasilkan maka metode yang diusulkan dapat membantu memperoleh ringkasan infomasi secara efektif.

Kata kunci: algoritma genetika, ekstraksi fitur, pengklaster sekuensial, peringkasan multi dokumen

Abstract

Document summarization is required to extract the essential part of the whole document to facilitate the capture of information presented in a single document. The problem faced is what if the user wants to summarize from the various documents (multi-document summarization). Various kinds of documents cannot be condensed into one, only documents that have similar content can generate a summary. For that reason before summarized, these documents are grouped first using sequential clustering algorithms. Furthermore document summarization is done by sentence extraction and ranked-based genetic algorithms. Sentence extraction serves to identib, important sentences based on determined features, and the value of those features will rank sentences optimally with genetic algorithms. The result of a summary of each document in the cluster is combined into a single summary. This study tested on several clustering documents with a summary measure of 25%, 50%, and 75%. Based on tests performed its yield 0.710491 average precision, average recall 0.70388, and the average F-measure system accuracy representing 0.7069. With the resulting accuracy of the proposed method can help to obtain an information summary effectively.

Key words: genetic algorithms, feature extraction, sequential clustering, multi documents summarization

PENDAHULUAN

Perkembangan informasi online menjadi media yang semakin penting untuk menemukan dan merepresentasikan informasi tekstual. Mengingat dokumen teks sekarang ini begitu banyak, maka diperlukan suatu cara yang mudah untuk mendapatkan informasi yang dibutuhkan. Salah satu cara yang dapat ditempuh adalah dengan meringkas dokumen [1].

Tersedianya sumber informasi yang tidak terbatas mengakibatkan perolehan sumber informasi dan pertukaran data berupa teks melibatkan banyak sumber informasi sehingga memicu penelitian mengenai metode peringkasan dokumen yang semula ditujukan untuk membuat sebuah ringkasan dari dokumen tunggal menjadi metode peringkasan multi dokumen [2].

Dokumen-dokumen yang akan diringkas menjadi satu hams memiliki keterkaitan topik atau isi [3, 4]. Untuk itu, sebelum diringkas dokumen-dokumen tersebut dikelompokkan terlebih dahulu sesuai kesamaan konten, dalam penelitian ini menggunakan Pengklaster sekuensial. Kemudian, dokumen diekstrak menggunakan enam fitur [3]. Hasil dari ekstraksi kalimat akan dirangking untuk

menentukan kalimat-kalimat penting.

Perangkingan kalimat dilakukan dengan pendekatan algoritma genetika. Algoritma genetika dapat bekerja secara optimal untuk mengolah keenam nilai tersebut agar menjadi satu nilai tunggal dimana semua nilai fitur dapat terpenuhi bersamaan. Dengan nilai tunggal yang dihasilkan, kalimat dapat diurutkan dari yang paling besar nilainya. Nilai mengindikasikan tingkat kepentingan kalimat. Dengan adanya ringkasan, diharapkan pengguna dapat dengan mudah memahami makna sebuah teks tanpa hams membaca keseluruhan teks.

DESAIN SISTEM

Sistem akan menerima input beberapa dokumen berbahasa Inggris dari user kemudian dokumen-dokumen tersebut akan diproses melalui beberapa tahapan untuk menghasilkan ringkasan yang merupakan intisari dari dokumen-dokumen masukan.

Pertama, sistem akan melakukan preprocessing terhadap dokumen-dokumen masukan. Sebelum diringkas dokumen¬dokumen masukan tersebut akan

dikelompokkan terlebih dahulu.

Pengelompokkan dokumen dilakukan berdasarkan kesamaan konten yang dimiliki karena hanya dokumen yang memiliki banyak kesamaan konten yang dapat diringkas menjadi satu [2]. Pengelompokkan dilakukan menggunakan metode pengklaster sekuensial.

Selanjutnya, peringkasan untuk masing-masing dokumen dilakukan dalam dua bagian yaitu ekstraksi kalimat dan perangkingan kalimat berbasis algoritma genetika. Hasil dari ringkasan tiap dokumen akan digabung. Proses penggabungan dilakukan terhadap ringkasan suatu dokumen dengan ringkasan dokumen lain dalam satu klaster, sehingga dihasilkan teks ringkasan gabungan untuk multi dokumen. Dokumen-dokumen yang berada dalam satu klaster akan menghasilkan sebuah ringkasan, jadi jumlah ringkasan sama dengan jumlah klaster. Hasil ringkasan multi dokumen akan dievaluasi menggunakan tiga parameter yaitu precision, recall, dan F-measure [6].

A. Pengklaster sekuensial

Perhitungan pengklaster sekuensial menggunakan nilai TF.1DF yang telah dinormalisasi dan cosine similarity. TF.1DF adalah perkalian antara term frequency dengan inverse document frequency. Variabel TF merupakan jumlah suatu term/kata dalam suatu dokumen, sedangkan 1DF merupakan invers document frequency dari sebuah term/kata. Dengan menggunakan bobot TF-1DF, sebuah dokumen dapat dimodelkan

sebagai sebuah vektor. Dokumen dapat dimodelkan atas komponen Ti sehingga jika seluruh dokumen dikumpulkan maka akan terbentuk matriks term-dokumen dengan bobot term/TF-IDF sebagai nilainya.

Tahapan proses pengklaster sebagai betikut :

1. Masukan dari proses ini adalah

kumpulan dokumen hasil praproses.

2. Inisialisasi nilai threshold kemiripan = 0.085 (pengesetan awal berasal dari ujicoba) dan Smax = 0.

3. Untuk setiap dokumen dilakukan perhitungan kemitipan dengan dokumen yang telah terklaster.

4. Sebelum dilakukan perhitungan kemitipan, dilakukan pengecekan pada klaster ke-1. Jika klaster ke-1 kosong maka dokumen ke-i langsung dimasukkan pada klaster 1 .

5. Nilai Smax dihitung dari maksimum nilai kemiripan dokumen ke-i dengan dokumen lain yang sudah terklaster.

6. Jika nilai Smax lebih besar daripada nilai threshold maka dokumen ke-i dimasukkan pada klaster yang bersesuaian.

7. Jika nilai Smax lebih besar daripada nilai threshold maka dokumen ke-i dimasukkan pada klaster yang bersesuain.

8. Jika nilai Smax kurang dan threshold maka dokumen dimasukkan pada klaster ban'.

9. Dilakukan sampai semua dokumen terklaster

B. Ekstraksi Kalimat

Sebelum melakukan ekstraksi kalimat, dokumen dipecah menjadi tiap kalimat. Setiap kalimat dan dokumen tersebut akan diekstraksi sehingga memiliki nilai yang mewakili kalimat tersebut. Ada enam fitur untuk setiap kalimat. Setiap fitur diberi nilai antara '0 'dan '1'. Enam fitur tersebut sebagai berikut:

1. Fitur Panjang Kalimat (F1)

Fitur ini berfungsi untuk menyaring kalimat pendek seperti nama pengarang dan datelines seperti pada artikel berita. Kalimat pendek tidak dipakai untuk ringkasan dokumen. Perhitungan fitur ini ditunjukkan dengan persamaan 1:

jumlah kata pada suatu kalimat

(1)

Fl = jumlah kata pada kalimat terpanjang

2. Fitur Pembobotan Kata/Term Weight (F2) Nilai suatu kalimat dapat dihitung sebagai jumlah nilai bobot kata dalam kalimat tersebut. Di sini akan dilakukan penghitungan menggunakan persamaan TF.IFS dan kata ke¬k sampai ke-n untuk kalimat(S) dan x sampai y. TS.ISF adalah perkalian antara term frequency dengan inverse sentence frequency. Ide dasar dan penilaian TF.ISF adalah mengevaluasi setiap kata dalam distribusinya pada seluruh kalimat di dokumen. Jadi nilai TF.ISF ditentukan untuk mengevaluasi pentingnya sebuah kata dalam dokumen bedasarkan frekuensinya dalam sebuah kalimat dan distribusinya di seluruh kalimat dalam dokumen.

Perhitungan fitur ini ditunjukkan dengan persamaan berikut:

o (s)

F2 = k (2)

Max (Elk'=1 ok (sr))

3. Fitur Kemiripan Kalimat (F3)

Fitur ini merupakan kesamaan antar kalimat. Untuk tiap kalimat S, kemitipan antara S dan tiap kalimat lain dihitung menggunakan cosine similarity Bobot kata TS.ISF; dan TS.ISFj dari kata t sampai n pada kalimat Si dan Si direpresentasikan oleh vektor. Kemiripan tiap kalimat ditunjukkan oleh persamaan berikut :

4. Fitur Proper noun (F4)

Kalimat yang mengandung proper noun termasuk kalimat penting yang biasanya masuk dalam ringkasan. Proper noun adalah kata yang menunjukkan nama sesuatu, seperti nama orang, nama tempat, nama bulan, dan sebagainya. Berikut ini persamaan untuk menghitung nilai proper noun :

F4jumlah proper noun pada kalimat S 14) = panjang kalimat/jumlah kata S

5. Fitur Thematic word (F5)

Thematic word yang dimaksud adalah kata yang frekuensinya tinggi pada suatu dokumen. Fitur ini penting karena berhubungan dengan topik. Pada penelitian ini diasumsikan Thematic word atau kata tematik adalah kata yang frekuensinya lebih dari satu, untuk

mengantisipasi dokumen pendek.

Persamaannya ditunjukkan oleh persamaan berikut :

F5 =

jumlah thematic word pada kalimat S

Max jumlah thematic word pada suatu kalimat

(5)

6. Fitur Numerical data (F6)

Kalimat yang mengandung data numerik dianggap kalimat penting dan biasanya masuk dalam ringkasan. Nilai dari fitur ini dihitung dengan persamaan berikut :

jumlah data numerik pada kalimat S

F6 = (6)

panjang kalimat S

C. Perangkingan Berbasis Algoritma

Genetika

Berikut ini penjelasan langkah-langkah perangkingan berbasis Algoritma Genetika (AG):

1. Pembangkitan Populasi Awal dan Representasi Kromosom

Pada penelitian ini kromosom

merepresentasikan fitur-fitur yang ada. Satu individu terdiri dari enam kromosom sesuai dengan jumlah fitur. Tiap kromosom terdiri dari sejumlah gen sesuai dengan persamaan berikut [5] :

Li= [ 2log[(b — a)102 + 1]1 (7)

dengan b = batas atas interval dan a = batas bawah interval.

Maka jumlah gen untuk tiap kromosom sebagai berikut:

Li= [ 2log[(1 — 0)102 + 1]1

(8)

= [ 21og[101]= 7

Dengan demikian ukuran gen untuk tiap individu dengan enam kromosom (enam fitur) =7 x 6 = 42.

2. Crossover Satu Titik

Proses crossover tergantung pada suatu parameter yaitu probabilitas crossover (Pc). Misalkan probabilitas crossover adalah 0.8, artinya diharapkan 80% individu yang akan mengalami crossover.

3. Mutasi Biner

Sama dengan pengkodeannya, mutasi yang digunakan adalah mutasi biner. Mutasi biner yaitu mengubah nilai 1 menjadi 0 dan sebaliknya, 0 jadi 1. Proses mutasi tergantung pada probabilitas mutasi (Pm). Misalkan probabilitas mutasi 0.01, artinya diharapkan 1% dari total gen mengalami mutasi.

4. Perhitungan Nilai Fitness dan Seleksi

Seleksi yang digunakan pada penelitian ini adalah seleksi Rank-Based fitness. Seleksi dilakukan dengan mengurutkan individu sesuai nilai fitnessnya kemudian mengambil individu-individu teratas. Seluruh individu, yaitu individu awal, anakan hasil crossover, dan anakan hasil mutasi dihitung nilai fitnessnya kemudian diurutkan mulai dari yang

terbesar sesuai nilai fitness dan diambil yang tertinggi sebanyak ukuran populasi / jumlah individu awal. Fungsi fitness didapatkan dari persamaan objektif Fan. Persamaan objektif Fan merupakan persamaan minimum sehingga fungsi fitness dihitung dari invers persamaan objektif Fan. Persamaan fungsi fitness ditunjukkan pada persamaan berikut:

Fitness = (9)

m ,

ETi( 1 2 max bj —by) n

Nilai w? dihitung dari nilai wi yang telah didapat pada tahap sebelumnya. Nilai max br merupakan nilai maksimum fitur ke-j pada semua kalimat.

Untuk menghitung nilai W digunakan persamaan berikut :

= . (10)

x total

Dimana j = 1,2,...,n (n adalah jumlah kromosom tiap individu). Untuk menghitung nilai x yang merupakan variabel temporer dengan persamaan berikut:

xi = a+ Rb —a)1(214 — 1)] x vi

(11)

dengan a = batas bawah interval data, pada kasus ini adalah 0; b = batas atas interval data, pada kasus ini adalah 1; Lj = panjang gen ke-j Kemudian dihitung x total untuk tiap individu (pada kasus ini sepanjang 6 kromosom).

5. Merangking kalimat

Setelah diketahui individu mana yang memiliki nilai fitness tertinggi, individu tersebut dij adikan sebagai solusi terbaik. Untuk mendapatkan urutan rangking, nilai bobot dari individu yang tepilih sebagai solusi terbaik, digunakan untuk menghitung nilai altematif ke-i sebagai nilai kalimat ke-i dengan persamaan berikut [5]:

gt= E7=1Wi it

(12)

D. Penggabungan Ringkasan tiap Master

Penggabungan merupakan proses untuk menggabungkan hasil ringkasan masing-masing dokumen yang ada dalam satu klaster. Hasil ringkasan digabungkan menggunakan perhitungan cosine similarity dengan TF (Term Frequency). TF adalah frekuensi kata pada suatu kalimat. Perhitungan cosine

similarity dengan TF seperti ditunjukkan pada persamaan berikut:

~ ~

,∑k=1 7&k × ,∑ 7)

~~~

dengan 7&k jumlah kata k pada kalimat I; 7)k jumlah kata k pada kalimat j.

METODE EVALUASI

Proses evaluasi hasil text summarization dilakukan menggunakan tiga parameter yaitu precision, recall, dan F-measure [6]. Sebuah sistem informasi dikatakan baik jika tingkat precision, recall, dan F-measurenya tinggi. Cara mengevaluasinya yaitu membandingkan ringkasan otomatis hasil sistem dengan ringkasan manual.

1. Precision

Precision merupakan perbandingan jumlah informasi relevan yang didapatkan sistem dengan jumlah seluruh informasi yang terambil oleh sistem baik yang relevan maupun tidak. Persamaan precision ditunjukkan pada persamaan berikut :

P = ;4335;7 (14)

(;4335;7R<34n8)

2. Recall

Recall merupakan perbandingan jumlah informasi relevan yang didapatkan sistem dengan jumlah seluruh informasi relevan yang ada dalam koleksi informasi (baik yang terambil atau tidak terambil oleh sistem). Persamaan recall ditunjukkan pada persamaan berikut:

Keterangan:

correct : jumlah kalimat yang diekstrak oleh sistem dan manusia.

wrong : jumlah kalimat yang diekstrak oleh sistem tetapi tidak diekstrak oleh manusia. missed : jumlah kalimat yang diekstrak oleh manusia tetapi tidak diekstrak oleh sistem.

3. F-Measure

F-Measure merupakan hubungan antara recall dan precision yang merepresentasikan akurasi sistem. Persamaan F-Measure seperti pada persamaan berikut:

F = ~∗T∗U (TRU) (16)

HASIL UJI COBA

Pengujian dilakukan untuk mengetahui seberapa dekat hasil ringkasan sistem dengan hasil ringkasan manual. Perhitungan terhadap tiga parameter yang berbeda yaitu precision, recall, dan F-measure dilakukan untuk ukuran ringkasan dokumen yang berbeda, yaitu 25%, 50%, dan 75%. Setelah dilakukan pengujian akan diketahui kemampuan sistem dalam menghasilkan informasi yang relevan yang diinginkan user.

Dari 9 dokumen yang dimasukkan terbagi menjadi 4 klaster. Hasil percobaan untuk semua ukuran ringkasan dengan parameter algoritma genetika jumlah individu = 20, maksimum generasi = 50, probabilitas crossover = 0.8, dan probabilitas mutasi 0.01 ditunjukkan pada gambar 1, 2, dan 3.

Gambar 1. Grafik Nilai Precision

Pada Gambar 1 nilai precision terendah dihasilkan oleh klaster 1 dengan ukuran ringkasan 25%. Nilai precision tertinggi dihasilkan klaster 2 dengan ukuran ringkasan 75%.

Gambar 2. Grafik Nilai Recall

Pada gambar 2 nilai recall terendah dihasilkan oleh klaster 1 dengan ukuran ringkasan 25% sedangkan nilai recall tertinggi dihasilkan oleh klaster 2 dengan ukuran ringkasan 75%.

Gambar 3. Grafik Nilai F-measure

Pada gambar 3 nilai F-measure terendah dihasilkan oleh klaster 1 dengan ukuran ringkasan 25%, sedangkan nilai tertinggi dihasilkan oleh klaster 2 dengan ukuran ringkasan 75%. Untuk ukuran ringkasan 25% didapatkan rata-rata nilai F-measure 0.5878, ukuran ringkasan 50% didapatkan rata-rata nilai F-measure 0.6891, dan untuk ukuran ringkasan 75% rata-rata nilai F-measure sebesar 0.8438.

Di sini terlihat nilai F-measure semakin naik untuk ukuran ringkasan yang semakin besar

pula. Rata-rata nilai F-measure

merepresentasikan akurasi sistem ini, yaitu 0.7069.

KESIMPULAN

Penelitian ini telah menghasilkan sistem peringkasan multi dokumen berbahasa Inggris berbasis isi menggunakan pengklaster sekuensial dan perangkingan berbasis algoritma genetika. Berdasarkan evaluasi

sistem yang dilakukan dengan

membandingkan hasil ringkasan sistem dan

ringkasan manual diperoleh nilai F-measure tertinggi untuk ukuran ringkasan 75% yaitu sebesar 0.8438, sedangkan nilai F-measure untuk ukuran ringkasan 25% dan 50% yaitu sebesar 0.5878 dan 0.6891. Jadi semakin besar ukuran ringkasan semakin tinggi nilai F-measure atau akurasinya. Rata-rata nilai F-measure untuk semua ukuran ringkasan yang merepresentasikan akurasi sistem yaitu sebesar 0.7069.

PUSTAKA

[1] Fattah, M. A. dan Ren, Fuji. Automatic Text Summarization. World Academy of Science, Engineering and Technology. Singapore. 2008

[2] Hariharan, S. Extraction Based Multi Document Summarization using Single Document Summary Cluster. B.S. Abdur Rahman University. Vandalur. 2010

[3] Kogilavani, A., dan Balasubramani, P. Clustering Feature Specific Sentence Extraction Based Summarization of Multiple Documents. Kongu Engineering College. Erode. 2010

[4] Kuo, J. dan Chen, H. Cross-document Event Clustering Using Knowledge Mining From Co-reference Chains. National Taiwan University. Taipei. 2006.

[5] Kusumadewi, Sri. Pencarian Bobot Atribut Pada Multiple Attribute Decision Making (MADM) dengan Pendekatan Obyektif Menggunakan Algoritma Genetika. Gematika Jurnal Manajemen Informatika. Jakarta. 2005

[6] Nedunchelian, R., Muthucumarasamy, R., dan Saranathan, E. Comparison Of Multi Document Summarization Techniques. IJCSNS (International Journal of Computer Science and Network Security). 2011

Membantu Mengerjakan Tesis dan Disertasi S3 - hubungi Meruya Statistik 0812 1944 9060

Sabtu, 19 Juli 2014

Tidak ada komentar:

Posting Komentar