Indonesian Information: April 2020

Jumat, 10 April 2020

Web Crawler dan Routing Protocol

Halo para pengunjung blog, selamat datang kembali di blog saya. Pada kesempatan kali ini saya hanya ingin sharing sedikit tentang Web Crawler dan jenis-jenis routing protocol serta masing-masing performa dan kehandalannya. Tujuan dilakukan sesi sharing ini untuk memenuhi tugas mata kuliah Pengantar Web Science.

Web Crawler

   Web crawler adalah suatu program atau script otomatis yang relatif simple, dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman internetuntuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan website yang relevan.

Bagaimana Cara Kerja Web Crawler?

Internet selalu berubah dan berkembang setiap waktunya. Karena tak memungkinkan untuk mengetahui jumlah pasti berapa banyak halaman yang ada di internet, web crawler ini memulai pekerjaannya berdasarkan daftar link halaman yang sudah ia kenal sebelumnya dari sitemap suatu website.

  Dari daftar link sitemap tersebut, ia akan menemukan link-link lain yang tersebar di dalamnya. Setelah itu, ia akan melakukan crawling ke link-link yang baru saja ditemukan itu. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti. Namun, web crawler ini tak sembarangan melakukan crawling. Ada beberapa aturan yang tetap harus mereka patuhi, sehingga mereka bisa lebih selektif dalam crawling. Biasanya dalam melakukan crawling, ia mempertimbangkan tiga hal :

Seberapa Penting dan Relevan Suatu Halaman, Menentukan halaman mana yang perlu crawling, berdasarkan jumlah halaman lain yang menaruh link ke halaman tersebut dan jumlah pengunjung ke sana.

Kunjungan Rutin, Web crawler perlu untuk mengunjungi berbagai halaman website secara rutin agar memastikan versi terakhir halaman tersebut yang ada di indeks.

Menuruti Keinginan Robots.txt, Web crawler juga menentukan halaman mana yang perlu crawling berdasarkan keinginan robots.txt. Jadi sebelum crawling ke suatu website, ia akan mengecek robots.txt dari website itu terlebih dahulu. Robots.txt merupakan file di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh.

Fungsi Web Crawler

  Fungsi utama dari web crawler memang mengindeks konten di internet. Tetapi Web Crawler juga mempunyai fungsi-fungsi yang lain, yaitu :

1. Membandingkan harga
Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat.

  2.  Data untuk tool analisis
Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing.

3. Data untuk statistik
  Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik.

4.  Proses pemeliharaan
  Proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web.

Crawling Policies

  Beberapa karakteristik web yang membuat crawling menjadi sangat sulit diantaranya yaitu memiliki kapasitas yang besar , dan kecepatan perubahan dan pembuatan page dinamis yang cepat. Oleh karena itu memerlukan kebijakan(policies) tertentu untuk mempermudah pekerjaan mereka :

Kebijakan pemilihan yang menyatakan halaman mana yang akan diunduh,

Kebijakan kunjungan Kembali yang menyatakan pengecekan pada perubahan halaman,

Kebijakan duplikasi,

Kebijakan kesopanan yang menyatakan bagaimana menghindari overloading situs web,

Kebijakan paralelisasi yang menyatakan cara mengoordinasi web crawler yang terdistribusi.

Contoh Penggunaan Web Crawler

1.  Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

2. HTTrack

  Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com.

  3. Googlebot

     Merupakan web crawler untuk membangun indeks pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot.

4. YaCy

   YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central.

2. Routing Protocol

Routing protokol adalah komunikasi antara router. Routing protokol mengijinkan router untuk sharing informasi tentang jaringan dan koneksi antar router. Router menggunakan informasi ini untuk membangun dan memperbaiki tabel routingnya. Protokol routing mengatasi situasi routing yang kompleks secara cepat dan akurat.

Protokol routing didesain untuk mendistribusikan informasi yang secara dinamis mengikuti perubahan kondisi jaringan. Protokol routing juga didesain untuk menentukan rute mana yang terbaik untuk mencapai tujuan tersebut. Pemeliharaan jalur dilakukan oleh Routing Dynamic. Routing Protocol terdiri dari berbagai jenis yaitu Routing Information Protocol (RIP), Open Short Path First (OSPF), Interior Gateway Routing Protocol (IGRP), Echanted Interior Gateway Routing Protocol (EIGRP), dan Border Gateway Protocol (BGP).

Dari kelima jenis routing tersebut tentu saja memiliki kelebihan juga kekurangan dalam aspek Performa maupun kehandalan, berikut perbandingan antara lima jenis routing tersebut :

Dapat dilihat dari gambar diatas mengenai perbandingan jenis routing dari Routing Information Protocol (RIP) sampai Border Gateway Protocol (BGP) dari aspek Performa dan Kehandalan. Mungkin hanya itu saja informasi yang dapat saya sampaikan mengenai Web Crawler dan Routing Protocol, terima kasih kepada para pembaca yang telah menyempatkan waktunya mampir untuk membaca di blog saya.

Daftar Pustaka :

Rosmala, Dewi & Rizki Rivani, Syafei. (2011). IMPLEMENTASI WEBCRAWLER PADA SOCIAL MEDIA MONITORING. Jurnal Informatika. 2(2) : 1-9.

Langganan: Komentar (Atom)