Matching Similarity for Keyword-Based Clustering
(Pencocokan Kesamaan untuk Pengelompokan
Berbasis Kata Kunci)
Mohammad Rezaei dan Pasi Fränti
Universitas Finlandia Timur
{rezaei, franti} @ cs.uef.fi
Abstrak :
Pengelompokan objek
semantik seperti dokumen, situs web dan
film berdasarkan kata
kunci mereka adalah masalah yang menantang. Ini membutuhkan kesamaan
antara dua set kata kunci. Kami menyajikan ukuran baru yang berdasarkan pada
pencocokan kata-kata dua kelompok dengan asumsi bahwa ukuran kesamaan antara dua
kata individual yang tersedia.
Kesamaan pencocokan yang
diusulkan untuk mengukur menghindari masalah tindakan tradisional termasuk
minimum, maksimum, dan kesamaan rata-rata. Kami menunjukkan bahwa ini
memberikan pengelompokan yang lebih baik daripada langkah-langkah lain dalam
aplikasi layanan berbasis lokasi.
Untuk menyelesaikan
pengelompokan, kita perlu mendefinisikan kesamaan (atau jarak) antara objek. Dalam
metode aglomerasi seperti tautan
tunggal dan tautan
lengkap, kesamaan antara objek individual sudah cukup, tetapi dalam
pengelompokan parsial seperti k-means dan
perwakilan cluster k-medoid juga
diperlukan untuk mengukur objek-to-cluster yang serupa.
Inti Isi dari Jurnal :
Pengelompokan
berbasis kata kunci bertujuan
untuk mengelompokkan objek yang dijelaskan oleh satu set kata kunci atau tag. Ini termasuk film, layanan,
situs web, dan dokumen teks di umum.
Kami berasumsi di sini
bahwa satu-satunya informasi yang tersedia tentang setiap objek data adalah
kata kuncinya. Kata kunci dapat diberikan secara manual atau diekstraksi secara
otomatis.
Dalam tulisan ini, kami
menyajikan ukuran kesamaan novel antara dua set kata,
disebut kesamaan pencocokan. Kami
menerapkannya pada pengelompokan layanan berbasis kata kunci di aplikasi
berbasis lokasi. Dengan asumsi bahwa kita memiliki ukuran untuk
membandingkan semantic antara kesamaan dua kata, masalahnya adalah menemukan
ukuran yang baik untuk membandingkan set dari kata-kata.
Kesamaan pencocokan yang
diusulkan memecahkan masalah sebagai berikut. Itu berulang kali memasangkan
dua kata yang paling mirip antara objek dan kemudian mengulangi proses untuk sisa
objek hingga salah satu objek kehabisan kata-kata. Kata-kata yang tersisa
adalah kemudian dicocokkan hanya dengan rekan mereka yang paling mirip di objek
lain.
Kesamaan Semantik Antara Kelompok Kata ada 3 yaitu :
a. Kemiripan Kata-Kata
Ukuran
untuk kemiripan semantik kata-kata dapat dikategorikan pada berbasis corpus, pencarian berbasis berbasis mesin, berbasis
pengetahuan dan hibrida.
Langkah-langkah berbasis pengetahuan menggunakan database leksikal seperti WordNet.
WordNet adalah taksonomi yang membutuhkan prosedur
untuk memperoleh skor kesamaan antara kata-kata. Terlepas dari
keterbatasannya, ini telah digunakan secara berurutan untuk pengelompokan
b. Kesamaan Kelompok Kata
Diberi
ukuran untuk membandingkan dua kata, tugas kami adalah mengukur kesamaan antara
dua set kata. Ukuran yang ada untuk menghitung minimum, maksimum, atau
kesamaan rata-rata.
Ukuran
minimum dan maksimum menemukan pasangan kata (masing-masing dari satu objek)
yang paling tidak (minimum) dan paling mirip (maksimal). Kesamaan
rata-rata mempertimbangkan semua pasangan kata dan menghitung nilai rata-rata
mereka.
c. Kesamaan Pencocokan
Ukuran kesamaan pencocokan yang diusulkan didasarkan
pada algoritma paling serakah, yang pertama menemukan dua kata yang paling
mirip di set, dan kemudian iteratif cocok kata-kata serupa berikutnya.
Akhirnya,
kata kunci yang tidak dipasangkan tersisa (dari objek dengan lebih banyak kata
kunci) hanya cocok dengan kata-kata yang paling mirip di objek lain.
Efektivitas
metode yang diusulkan untuk menampilkan data dengan jumlah terbatas
cluster masih
ada. Jumlah cluster terlalu besar untuk penggunaan praktis dan kami
perlu meningkatkan
indeks validitas pengelompokan untuk menemukan kelompok yang lebih besar tetapi
tanpa membuat kelompok yang tidak berarti.
Kami
juga mengamati beberapa masalah dalam pengelompokan yang berasal dari ukuran
kesamaan dua kata, yang menyiratkan bahwa pengukuran kesamaan yang lebih baik
akan bermanfaat.
Kelebihan :
1.
Lebih cepat jika memakai kata kunci untuk pencarian kata.
2.
Efisien Waktu
3.
Lebih memudahkan pembaca
Kekurangan :
1.
Banyak yang belum menggunakan pencarian berdasarkan kata kunci.
2.
Dari segi Bahasa masih ada yang kurang.
KESIMPULAN
Ukuran
baru yang disebut kesamaan pencocokan diusulkan untuk membandingkan dua
kelompok kata-kata. Ini memiliki logika yang intuitif sederhana dan itu menghindari
masalah dari minimum, maksimum dan kesamaan rata-rata, yang mana gagal untuk memberikan
hasil yang tepat dengan kasus yang lebih sederhana.
Evaluasi
komparatif pada data nyata dengan kriteria SC menunjukkan bahwa metode ini
mengungguli metode yang ada dengan marginal yang jelas. Sebagai pekerja masa
depan, kami berencana untuk menggeneralisasi kesamaan pencocokan dengan
algoritma pengelompokan lainnya seperti k-means dan k-medoid.