Anatomi Perayap Mesin Pencari

 Ketika Anda pergi ke mesin pencari dan melakukan pencarian banyak orang tidak mengerti bagaimana hasil itu berakhir di sana.  Beberapa orang mungkin berpikir bahwa situs dikirimkan sementara yang lain tahu bahwa perangkat lunak menemukan halaman.  Artikel ini menjelaskan satu bagian dari teka-teki itu: Perayap mesin pencari. 

Mesin pencari Todays mengandalkan paket perangkat lunak yang disebut laba-laba atau robot.  Alat otomatis ini digunakan untuk mencari web untuk menemukan halaman baru. 

Riwayat singkat perayap pencarian 

Perayap pertama adalah World Wide Web Wander dan muncul pada tahun 1993.  Ini dikembangkan oleh MIT dan tujuan awalnya adalah untuk mengukur pertumbuhan web.  Segera setelah itu, indeks dihasilkan dari hasil & # 150; efektif mesin pencari "pertama." 

Sejak itu, perayap telah berevolusi dan berkembang.  Awalnya perayap adalah makhluk sederhana, hanya mampu mengindeks bit spesifik data halaman web seperti tag meta.  Namun, segera, mesin pencari menyadari bahwa perayap yang benar-benar efektif harus dapat mengindeks informasi lain, termasuk teks yang terlihat, tag alt, gambar dan bahkan konten non-HTML lainnya seperti dokumen pengolah kata PDF dan banyak lagi. 

Bagaimana perayap bekerja 

Secara umum, perayap mendapat daftar URL untuk dikunjungi dan disimpan.  Perayap tidak memberi peringkat halaman, hanya keluar dan mendapatkan salinan yang disimpan, atau meneruskan ke mesin pencari untuk kemudian indeks dan peringkat sesuai dengan berbagai aspek. 

Perayap pencarian juga cukup pintar untuk mengikuti tautan yang mereka temukan di halaman.  Mereka dapat mengikuti tautan ini ketika mereka menemukannya, atau mereka akan menyimpannya dan mengunjungi mereka nanti. 

Sampai saat ini ada puluhan perayap keluar secara teratur mengindeks web.  Beberapa adalah perayap khusus & # 150; seperti pengindeks gambar, sementara yang lain lebih umum dan karenanya lebih terkenal. 

Beberapa perayap paling terkenal termasuk Googlebot (dari Google) MSNBot (dari MSN) dan Slurp (dari Yahoo!).  Ada juga crawler Teoma (dari Ask Jeeves), serta bermacam-macam crawler dari mesin lain, seperti mesin belanja, mesin pencari blog dan banyak lagi. 

Secara umum, ketika perayap datang untuk mengunjungi situs, mereka meminta file yang disebut "robots.txt."file ini memberi tahu perayap pencarian file mana yang dapat diminta, dan file atau direktori mana yang tidak diizinkan untuk dikunjungi. 

File ini juga dapat digunakan untuk membatasi akses laba-laba tertentu ke salah satu atau semua situs, dan juga dapat digunakan untuk mengontrol berapa kali perayap mengunjungi situs, dengan membatasi kecepatannya atau saat perayap dapat mengunjungi.  (Yahoo!Slurp dan MSNBot keduanya mendukung arahan "Crawl Delay" yang memberitahu perayap untuk memperlambat perayapan mereka). 

Tidak penting bahwa situs memiliki file robots.txt namun sebagai perayap akan menganggap itu OK untuk mengindeks situs jika tidak ada file seperti itu. 

Secara umum, perayap hari ini dilucuti versi browser web.  Beberapa, seperti Googlebot, dibangun di atas browser web berbasis teks yang disebut Lynx.  Oleh karena itu salah satu alat yang dapat digunakan untuk memverifikasi situs adalah browser Lynx.  dengan memuat situs di browser Anda dapat melihat pada dasarnya apa yang dilihat perayap."Anda kemudian dapat mencari kesalahan di halaman serta masalah navigasi yang mungkin dihadapi perayap. 

Satu hal lain yang mungkin Anda perhatikan, ketika Anda melihat laporan log server web Anda, adalah bahwa beberapa browser datang berkali-kali dan dengan banyak konfigurasi berbeda. 

Yahoo!s Slurp, misalnya mengemulasi banyak platform perangkat keras yang berbeda & # 150; dari Windows 98 ke Windows XP, dan banyak browser yang berbeda, dari Internet Explorer ke Mozilla. MSNbot juga berfungsi seperti ini & # 150; meniru berbagai sistem operasi dan browser. 

Mereka melakukan ini untuk memastikan kompatibilitas & # 150; setelah semua, mesin pencari ingin memastikan bahwa mayoritas pengguna mereka menemukan situs yang dapat mereka gunakan.  Karena itu, sebagai tip desain, Anda harus menguji situs Anda terhadap berbagai platform perangkat keras dan browser juga.  Anda tidak harus menggunakan varietas yang digunakan mesin pencari, tetapi Anda harus menguji terhadap Internet Explorer, Netscape dan Firefox.  Anda juga harus mencoba situs Anda di platform lain seperti Mac atau Linux hanya untuk memastikan kompatibilitas. 

Anda juga dapat melihat, setelah meninjau laporan Anda, bahwa perayap seperti Googlebot akan mengunjungi berulang kali dan meminta halaman yang sama berulang kali.  Ini umum karena perayap juga ingin memastikan situs stabil dan juga untuk mengukur frekuensi perubahan halaman. 

Jika situs Anda turun sementara ketika perayap mengunjungi berulang kali seperti ini, jangan khawatir.  Perayap cukup pintar untuk pergi dan kembali lagi nanti dan coba lagi.  Namun, jika terus menemukan situs turun, atau lambat merespons, mereka dapat memilih untuk menjauh untuk periode yang lebih lama, atau mengindeks situs lebih lambat.  Ini dapat berdampak negatif terhadap kinerja situs Anda di mesin pencari. 

Ketika Anda pergi ke mesin pencari dan melakukan pencarian banyak orang tidak mengerti bagaimana hasil itu berakhir di sana.  Beberapa orang mungkin berpikir bahwa situs dikirimkan sementara yang lain tahu bahwa perangkat lunak menemukan halaman.  Artikel ini menjelaskan satu bagian dari teka-teki itu: Perayap mesin pencari. 

Mesin pencari Todays mengandalkan paket perangkat lunak yang disebut laba-laba atau robot.  Alat otomatis ini digunakan untuk mencari web untuk menemukan halaman baru. 

Riwayat singkat perayap pencarian