Pencarian dengan Metode Vektor Space Model (VSM)


Pencarian dalam sistem temu balik merupakan hal yang dibutuhkan, hal ini dikarenakan ketepatan pencarian sesuai keyword yang dimasukkan user dengan dokumen yang jumlahnya banyak. Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Selanjutnya akan dihitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci. 

 

Vector space model solusi atas permasalah yang dihadapi jika menggunakan algoritma TF/IDF.Karena pada algoritma TF/IDF terdapat kemungkinan antar dokumen memiliki bobot yang sama, sehingga ambigu untuk diurutkan. Adapun Flowchart dari pencarian menggunakan algortima Vector space model sebagai berikut:

 

 

Perhatikan contoh berikut, misalnya:

Keyword: kpk dan icw

Dokumen 5 (D5): “ aktivis icw dianiaya aktivis icw, tama satya langkun, dianiaya oleh segerombolan orang yang tak dikenal di kawasan duren tiga, jakarta selatan, kamis dini hari.”

Dokumen 6 (D6) : “ cici tegal dipanggil kpk kpk akan memeriksa pelawak cici tegal dan pesinetron meidiana hutomo terkait dugaan korupsi pengadaan alat rontgen portable di kementerian kesehatan pada 2007.”

Dua dokumen berita tersebut akan melalui proses token untuk menghilangkan tanda baca, angka, dan lainnya. Kemudian dilakukan pembuangan kata-kata yang termasuk stoplist. Tabel 1. adalah hasil stoplist dari contoh dua dokumen berita untuk proses pencarian.

Tabel 1. Kata Stoplist Untuk Pencarian Pada D5 Dan D6

No.

Stoplist

Frekuensi

1

oleh

1

2

orang

1

3

tak

1

4

di

2

5

tiga

1

6

selatan

1

7

kamis

1

8

hari

1

9

akan

1

10

dan

1

11

terkait

1

Tabel 2. Kemunculan Kata Pada Dokumen Pencarian Pada D5 Dan D6

Token

Keyword(kk)

D5

D6

icw

1

2

0

kpk

1

0

2

aktivis

0

2

0

aniaya

0

2

0

tama

0

1

0

satya

0

1

0

langkun

0

1

0

gerombol

0

1

0

kenal

0

1

0

kawasan

0

1

0

duren

0

1

0

jakarta

0

1

0

dini

0

1

0

cici

0

0

2

tegal

0

0

2

panggil

0

0

1

memeriksa

0

0

1

lawak

0

0

1

sinetron

0

0

1

meidiana

0

0

1

hutomo

0

0

1

duga

0

0

1

korupsi

0

0

1

ada

0

0

1

alat

0

0

1

rontgen

0

0

1

portable

0

0

1

menteri

0

0

1

sehat

0

0

1

|q| dan |d|

1.4142

4.58

5.09

q * d

4

2

|q| * |d|

6.4806

7.211

q * d/|q| * |d|

0.6172

0.2774

tetha

51.888

73.8949

Keterangan Tabel 2. adalah sebagai berikut:

  1. q = jumlah term keyword
  2. d = jumlah term dokumen
  3. |q| = akar dari keyword
  4. |d| = akar dari dokumen
  5. tetha = sudut tetha

Maka dari perhitungan VSM, cosine D5 adalah 0.6172 sedangkan cosine D6 adalah 0.2774. Dari hasil akhir cosine tersebut maka dapat diketahui bahwa D5 memiliki tingkat similiritas lebih tinggi dibandingkan D6. Sehingga apabila diurut berdasarkan kemunculannya maka D5 kemudian disusul D6. Hasilnya akan terlihat pada Gambar 1.

 

 Gambar 1. Implementasi Pencarian Berita

Hal yang penting diperhatikan untuk mencapai pencarian yang maksimal adalah sebelum proses pencarian dimulai, aplikasi telah melakukan proses pada dokumen:

  1. Tokenizing
  2. Pembuangan stoplist
  3. Proses stemming
  4. Pembobotan kata pada masingmasing dokumen.

Sehingga ketika pencarian dilakukan, aplikasi hanya melakukan proses pengurutan dari hasil bobot masing-masing dokumen dengan algoritma VSM. Keyword yang dimasukkan user juga lakukan proses Tokenizing, Pembuangan Stoplist, dan proses stemming untuk memperkuat pencarian. Agar aplikasi berjalan dengan optimal maka juga dapat ditambahkan cache untuk menyimpan hasil pencarian yang dilakukan sebelumnya dan strem untuk menampung persamaan atau singkata kata.

Sumber: Harjono, K. D. Perluasan Vektor Pada Metode Search Vector Space. Integral Vol. 10 No.2, Juli 2005 Jurusan Ilmu Komputer, Universitas Katolik Parahyangan, Bandung.<URL: http://home.unpar.ac.id/~integral/Volume%2010/Integral%2010%20No.%202/Perluasan%20Vektor.pdf&gt; Diakses 15 Juli 2010.

Posted on Juni 28, 2011, in Artikel and tagged , , , , . Bookmark the permalink. 14 Komentar.

  1. Nice artikel…
    Ini yang saya cari-cari…
    ngmong2 da source code-nya tidak? buat referensi..

  2. mas , mau tanya ..
    klo yg ini:

    |q| dan |d|
    q * d
    |q| * |d|
    q * d/|q| * |d|
    tetha

    itu hasil nya di dapat darimana yah ??
    trus kalkulasi nya bagaimana ???

    “jauh lebih baik menjadi orang bodoh yang giat belajar, daripada orang pintar yang tidak pernah mengimplementasikan ilmu nya”

  3. itu perhitungan VSM….coba googling aja…masalhnya q lupa bawa contoh filey

  4. Coba akses sumber dibawah artikel

  5. mas ??
    gambar flowchart nya ada yg lebih jelas ga ???
    yang di posting, tidak begitu jelas …

  6. coy izin copas buat tugas

  7. Bukan hal yang dibutuhkan tapi hal yang wajib😀

  8. mas admin boleh minta jurnal’y gak…link’y mati tuh…

  9. ada sich

  10. Rahayu Dwi Permatasari

    boleh minta source code nya?
    butuh bgt segera buat tugas kuliah, besok presentasi tp belum dpt contoh programnya😦 need help please
    email ke heyrahoy@gmail.com ya kl bisa huhuhu

  11. selamat malam mas, saya boleh minta source code nya buat bahan referensi tugas akhir mas,,,kalo boleh,…
    kirim mas ke dennyemail1992@gmail.com

  12. Siang mas boleh tanya ga ? kalo VSM ini bisa di aplikasi kan untuk pencarian perangkat android ga ? khususnya pencarian terjemahan. terima kasih

  13. siang juga..seharusnya bisa aja..

  1. Ping-balik: Model Vector Space | commanderx78

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: