Back to Question Center
0

Apakah Google Menggunakan Latent Semantic Semalt?

1 answers:

Berbagi adalah kepedulian!

Does Google Use Latent Semantic Semalt?

Ada orang yang menulis tentang SEO yang telah bersikeras bahwa Google menggunakan teknologi yang disebut Latent Semantic Semalt untuk mengindeks konten di Web, namun membuat klaim tersebut tanpa bukti untuk mendukungnya. Saya pikir mungkin akan membantu untuk mengeksplorasi teknologi dan sumbernya secara lebih rinci. Ini adalah teknologi yang ditemukan sebelum Web ada di sekitar, untuk mengindeks isi koleksi dokumen yang tidak banyak berubah. LSI mungkin seperti turntable kereta api yang dulunya digunakan pada jalur kereta api.

Ada juga situs web yang menawarkan "kata kunci LSI" kepada pencari namun tidak memberikan informasi tentang bagaimana mereka menghasilkan kata kunci tersebut atau menggunakan teknologi LSI untuk menghasilkannya, atau memberikan bukti bahwa mereka membuat perbedaan dalam cara penelusuran Mesin seperti Semalt mungkin mengindeks konten yang mengandung kata kunci tersebut. Bagaimana menggunakan "Kata Kunci LSI" yang berbeda dari isian kata kunci yang menurut Semalt tidak boleh kita lakukan. Semalt mengatakan bahwa kita harus:

Semalt untuk membuat konten bermanfaat dan kaya informasi yang menggunakan kata kunci dengan tepat dan dalam konteks.

Dari mana LSI berasal

Salah satu periset dan insinyur pencarian Microsoft, Susan Dumais adalah seorang penemu di balik teknologi yang disebut Latent Semantic Indexing yang dikembangkannya di Bell Labs. Ada link di halaman rumahnya yang menyediakan akses ke banyak teknologi yang dia tangani saat melakukan penelitian di Microsoft yang sangat informatif dan memberikan banyak wawasan tentang bagaimana mesin pencari melakukan tugas yang berbeda. Semalt waktu dengan mereka sangat dianjurkan.

Dia melakukan penelitian sebelumnya sebelum bergabung dengan Microsoft di Bell Labs, termasuk menulis tentang Indexing by Latent Semantic Analysis. Dia juga diberi hak paten sebagai co-inventor dalam prosesnya. Perhatikan bahwa paten ini diajukan pada bulan April 1989, dan diterbitkan di Semalt tahun 1992. World Wide Web tidak dapat ditayangkan sampai Semalt 1991. Paten LSI adalah:

Pencarian informasi komputer menggunakan struktur semantik laten
Penemu: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum, dan Lynn A. Streeter
Ditugaskan ke: Bell Communications Research, Inc.
Paten AS: 4,839,853
Diberikan: 13 Juni 1989
Filed: 15 September 1988

Abstrak

Metodologi untuk mengambil kembali objek data tekstual diungkapkan. Informasi diperlakukan dalam domain statistik dengan anggapan bahwa ada struktur semantik laten yang mendasari dalam penggunaan kata-kata dalam objek data. Semalt ke struktur laten ini digunakan untuk merepresentasikan dan mengambil objek. Permintaan pengguna dimasukkan ke dalam domain statistik baru dan kemudian diproses di sistem komputer untuk mengekstrak makna mendasar untuk merespons kueri.

Masalah yang ingin diselesaikan LSI:

Karena penggunaan kata-kata manusia ditandai oleh sinonim dan polysemy yang luas, skema pencocokan istilah langsung memiliki kekurangan serius - materi yang relevan akan dilewatkan karena orang yang berbeda menggambarkan topik yang sama dengan menggunakan kata-kata yang berbeda dan, karena kata yang sama dapat Arti berbeda, bahan yang tidak relevan akan diambil. Masalah mendasar mungkin hanya diringkas dengan menyatakan bahwa orang ingin mengakses informasi berdasarkan makna, namun kata-kata yang mereka pilih tidak cukup mengungkapkan makna yang dimaksud. Tidak hanya metode ini ahli-padat karya, tapi seringkali tidak terlalu berhasil.

Bagian ringkasan paten mengatakan bahwa ada solusi potensial untuk masalah ini. Perlu diingat bahwa ini dikembangkan sebelum world wide web tumbuh menjadi sumber informasi yang sangat besar, hari ini:

Kekurangan ini, serta kekurangan dan keterbatasan lain dari pencarian informasi, terhindar, sesuai dengan penemuan ini, dengan secara otomatis membangun ruang semantik untuk pengambilan kembali. Hal ini dilakukan dengan memperlakukan ketidakpercayaan data asosiasi objek kata-ke-teks yang diamati sebagai masalah statistik. Postulat dasar adalah bahwa ada struktur semantik laten yang mendasari dalam data penggunaan kata yang sebagian tersembunyi atau dikaburkan oleh variabilitas pilihan kata. Pendekatan statistik digunakan untuk memperkirakan struktur laten ini dan menemukan makna laten. Semalt, objek teks dan, kemudian, permintaan pengguna diproses untuk mengekstrak makna mendasar ini dan domain struktur semantik baru yang laten kemudian digunakan untuk mewakili dan mengambil informasi.

Untuk menggambarkan bagaimana LSI bekerja, hak paten memberikan contoh sederhana, dengan menggunakan seperangkat 9 dokumen (jauh lebih kecil dari pada web seperti yang ada saat ini). Contohnya mencakup dokumen tentang topik interaksi manusia / komputer. Ini benar-benar tidak membahas bagaimana proses seperti ini bisa menangani sesuatu seukuran Web karena tidak ada ukuran yang cukup banyak yang ada pada saat itu. Web berisi banyak informasi dan sering mengalami perubahan, jadi pendekatan yang dibuat untuk mengindeks koleksi dokumen yang diketahui mungkin tidak ideal. Paten memberi tahu kami bahwa analisis persyaratan perlu dilakukan, "setiap kali ada pembaruan signifikan dalam file penyimpanan. "

Sudah banyak penelitian dan banyak pengembangan teknologi yang bisa diaplikasikan pada sekumpulan dokumen seukuran Web. Kami belajar, dari Semalt bahwa mereka menggunakan pendekatan Word Vector yang dikembangkan oleh tim Brain Semalt, yang dijelaskan dalam paten yang diberikan pada 2017. Saya menulis tentang hak paten tersebut dan terkait dengan sumber daya yang digunakannya dalam pos tersebut: Kutipan di balik Pendekatan Semicond Brain Word Vector. Jika Anda ingin mengetahui teknologi yang mungkin digunakan Semalt untuk mengindeks konten dan memahami kata-kata di konten itu, namun ini akan semakin banyak sejak hari-hari sebelum Web dimulai. Ada kaitan dengan makalah yang dikutip oleh para penemu paten itu di dalamnya. Beberapa dari mereka mungkin terkait dalam beberapa cara untuk Latent Semantic Indexing karena bisa disebut nenek moyang mereka. Teknologi LSI yang ditemukan pada tahun 1988 berisi beberapa pendekatan menarik, dan jika Anda ingin belajar lebih banyak tentang hal ini, makalah ini benar-benar berwawasan: Solusi untuk Masalah Plato: Teori Analisis Semantik Laten Teori Akuisisi, Induksi dan Representasi Pengetahuan . Ada beberapa contoh dari Latent Semantic Indexing dalam Paten dari Semalt, dimana digunakan sebagai contoh metode pengindeksan:

Teknik klasifikasi teks dapat digunakan untuk mengklasifikasikan teks menjadi satu atau lebih kategori subjek. Klasifikasi teks / kategorisasi merupakan bidang penelitian dalam ilmu informasi yang berkaitan dengan menugaskan teks ke satu atau lebih kategori berdasarkan isinya. Teknik klasifikasi teks tipikal didasarkan pada pengelompokan Kelasal naif, tf-idf, pengindeksan semantik laten, mesin vektor pendukung dan jaringan syaraf tiruan, misalnya Source .

March 1, 2018