Web Crawler

Mei 10, 2021

Web Crawler

Web crawler bertanggung jawab untuk membuat mesin pencari bisa berfungsi dengan baik dan benar. Keberadaannya memang tak banyak diketahui oleh banyak orang, tapi fungsinya tak bisa dipandang sebelah mata.

Pengertian web crawler–atau sering juga disebut spiders— adalah sebuah tool untuk mengindeks dan mengunduh konten dari internet, lalu disimpan ke dalam database mesin pencari. Sehingga saat ada orang yang mencari suatu informasi, mesin pencari akan langsung menampilkan hasil yang relevan dari database tersebut.

Web crawler mengumpulkan/mengindeks informasi apa saja yang sekiranya berguna di internet. Dari konten artikel, gambar, video, suara hingga alamat email dan RSS Feed.

Beberapa contoh web crawler selain Googlebot adalah sebagai berikut:

• Bingbot dari Bing

• SlurpBot dari Yahoo

• DuckDuckBot dari DuckDuckGO

• Baiduspider dari Baidu (mesin pencari dari China)

• Yandex Bot dari Yandex (mesin pencari dari Rusia)

• Sogou Spider dari Sogou (mesin pencari dari China)

• Exabot dari Exalead

• Alexa Crawler dari Amazon

Bagaimana cara kerja web crawler?

Web crawler ini memulai pekerjaannya berdasarkan daftar link halaman yang sudah ia kenal sebelumnya dari sitemap suatu website.

Nah, dari daftar link sitemap tersebut, ia akan menemukan link-link lain yang tersebar di dalamnya. Setelah itu, ia akan melakukan crawling ke link-link yang baru saja ditemukan itu. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti.

Namun, web crawler ini tak sembarangan melakukan crawling. Ada beberapa aturan yang tetap harus mereka patuhi, sehingga mereka bisa lebih selektif dalam crawling. Biasanya dalam melakukan crawling, ia mempertimbangkan tiga hal:

1. Seberapa penting dan relevan suatu halaman

2. Kunjungan rutin

3. Menuruti keinginan Robots.txt

--Robots.txt ini merupakan file di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh.

Fungsi Web Crawler

Fungsi utama dari web crawler memang mengindeks konten di internet. Namun di samping itu, ada beberapa fungsi lain yang juga tak kalah penting:

1. Membandingkan harga

2.Data untuk tools analisis, tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.

3. Data untuk statistik

Memblokir web crawler?

Anda bisa memblokir atau melarang web crawler untuk melakukan crawling menggunakan robots.txt.

Kenapa diblokir? Sebab, pada kondisi tertentu, ada konten yang tak perlu masuk indeks. Misalnya adalah konten duplikat.

Konten duplikat ini justru bisa membuat website Anda dihapus dari indeks. Maka dari itu, sebaiknya konten duplikat ini tak diindeks oleh web crawler.

Selain itu, melarang web crawler melakukan crawling pada halaman yang tak penting bisa mengurangi beban website Anda dan mempercepat proses indexing.

Referensi

https://www.google.com/amp/s/www.niagahoster.co.id/blog/apa-itu-web-crawler/

Cari Blog Ini

Muthiablog

Web Crawler

Komentar

Posting Komentar

Postingan Populer

SISTEM INFORMASI J.CO Donuts & Coffee

Web Archiving