Halo para pengunjung blog, selamat datang kembali di blog saya. Pada kesempatan kali ini saya hanya ingin sharing sedikit tentang Web Crawler dan jenis-jenis routing protocol serta masing-masing performa dan kehandalannya. Tujuan dilakukan sesi sharing ini untuk memenuhi tugas mata kuliah Pengantar Web Science.
-
Web Crawler
Web crawler adalah suatu program atau script otomatis yang relatif simple, dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman internetuntuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan website yang relevan.
- Bagaimana Cara Kerja Web Crawler?
Internet selalu berubah dan berkembang setiap waktunya. Karena tak memungkinkan untuk mengetahui jumlah pasti berapa banyak halaman yang ada di internet, web crawler ini memulai pekerjaannya berdasarkan daftar link halaman yang sudah ia kenal sebelumnya dari sitemap suatu website.
Dari daftar link sitemap tersebut, ia akan menemukan link-link lain yang tersebar di dalamnya. Setelah itu, ia akan melakukan crawling ke link-link yang baru saja ditemukan itu. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti. Namun, web crawler ini tak sembarangan melakukan crawling. Ada beberapa aturan yang tetap harus mereka patuhi, sehingga mereka bisa lebih selektif dalam crawling. Biasanya dalam melakukan crawling, ia mempertimbangkan tiga hal :
- Seberapa Penting dan Relevan Suatu Halaman, Menentukan halaman mana yang perlu crawling, berdasarkan jumlah halaman lain yang menaruh link ke halaman tersebut dan jumlah pengunjung ke sana.
-
Kunjungan Rutin, Web crawler perlu untuk mengunjungi berbagai halaman website secara rutin agar memastikan versi terakhir halaman tersebut yang ada di indeks.
- Menuruti Keinginan Robots.txt, Web crawler juga menentukan halaman mana yang perlu crawling berdasarkan keinginan robots.txt. Jadi sebelum crawling ke suatu website, ia akan mengecek robots.txt dari website itu terlebih dahulu. Robots.txt merupakan file di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh.
- Fungsi Web Crawler
Fungsi utama dari web crawler memang mengindeks konten di internet. Tetapi Web Crawler juga mempunyai fungsi-fungsi yang lain, yaitu :
1. Membandingkan harga
Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat.
2. Data untuk tool analisis
Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing.
3. Data untuk statistik
Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik.
4. Proses pemeliharaan
Proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web.
- Crawling Policies
Beberapa karakteristik web yang membuat crawling menjadi sangat sulit diantaranya yaitu memiliki kapasitas yang besar , dan kecepatan perubahan dan pembuatan page dinamis yang cepat. Oleh karena itu memerlukan kebijakan(policies) tertentu untuk mempermudah pekerjaan mereka :
- Kebijakan pemilihan yang menyatakan halaman mana yang akan diunduh,
- Kebijakan kunjungan Kembali yang menyatakan pengecekan pada perubahan halaman,
- Kebijakan duplikasi,
- Kebijakan kesopanan yang menyatakan bagaimana menghindari overloading situs web,
- Kebijakan paralelisasi yang menyatakan cara mengoordinasi web crawler yang terdistribusi.
- Contoh Penggunaan Web Crawler
1. Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.
2. HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com.
3. Googlebot
Merupakan web crawler untuk membangun indeks pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot.
4. YaCy
YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central.
Kunjungan Rutin, Web crawler perlu untuk mengunjungi berbagai halaman website secara rutin agar memastikan versi terakhir halaman tersebut yang ada di indeks.
- Fungsi Web Crawler
1. Membandingkan harga
Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat.
2. Data untuk tool analisis
Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing.
3. Data untuk statistik
Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik.
4. Proses pemeliharaan
Proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web.
- Crawling Policies
Beberapa karakteristik web yang membuat crawling menjadi sangat sulit diantaranya yaitu memiliki kapasitas yang besar , dan kecepatan perubahan dan pembuatan page dinamis yang cepat. Oleh karena itu memerlukan kebijakan(policies) tertentu untuk mempermudah pekerjaan mereka :
- Kebijakan pemilihan yang menyatakan halaman mana yang akan diunduh,
- Kebijakan kunjungan Kembali yang menyatakan pengecekan pada perubahan halaman,
- Kebijakan duplikasi,
- Kebijakan kesopanan yang menyatakan bagaimana menghindari overloading situs web,
- Kebijakan paralelisasi yang menyatakan cara mengoordinasi web crawler yang terdistribusi.
- Contoh Penggunaan Web Crawler
1. Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.
2. HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com.
3. Googlebot
Merupakan web crawler untuk membangun indeks pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot.
- Kebijakan pemilihan yang menyatakan halaman mana yang akan diunduh,
- Kebijakan kunjungan Kembali yang menyatakan pengecekan pada perubahan halaman,
- Kebijakan duplikasi,
- Kebijakan kesopanan yang menyatakan bagaimana menghindari overloading situs web,
- Kebijakan paralelisasi yang menyatakan cara mengoordinasi web crawler yang terdistribusi.
4. YaCy



Tidak ada komentar:
Komentar baru tidak diizinkan.