Rainz: April 2013

Mungkin sebagian pengguna internet belum mengenal Web Crawler, apa sih itu Web Crawler ?? disini akan saya jelaskan.

Web Crawler biasa juga disebut sebagai bot pencarian atau spider. Ialah program yang berfungsi menelusuri web yang ada didunia maya dan berkunjung ke web-web tersebut atas nama search engine, dan hasil dari spider ini untuk menemukan link baru dan halaman baru atau website baru. Biasanya pekerjaan bot adalah mengindex dan menyimpan data di database para pemilik botnya.

Ada 2 fungsi utama Web Crawler :

Mengidentifikasikan Hyperlink => Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.
Melakukan proses kunjungan or visit secara rekursif => Dari setiap Hyperlink, web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaika dengan keperluan aplikasinya.

Cara Kerja Web Crawler

Crawler yang diawali dengan adanya daftar URL yang akan dikunjungi (Seeds). Setelah crawler mengunjungi URL tersebut, kemudian mengidentifikasi semua hyperlink dari halaman itu san menambahkan kembali ke dalam seeds (Crawl Frontier).

Setelah web crawler mengunjungi halaman-halaman web yang ditentukan didalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpannya ke sebuah storage. Web crawler dapat dibuat untuk mencari informasi yang berhubungan dengan topik tertentu saja. Web crawler yang hanya mengumpulkan topik tertentu disebut topical web crawler . Web crawler dimulai dengan sekumpulan URL, kemudian di download setiap halamannya, mendapatkan link dari setiap page yang dikunjungi kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut.

Beberapa contoh dari Web Crawler :

Teleport Pro, salah satu software web crawler untuk keperluan offline browsing, software ini cukup popular terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di Tenmax .
HTTrack, Ditulis dengan menggunakan C, merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk, agar dapat dilihat secara offline. Yang menarik dari software ini free dan dapat didownload pada website resminya di HTTrack .
Googlebot, web crawler untuk membangun index pencarian yang digunakan oleh search engine google. Bila website Anda ditemukan oleh orang lain melalui Google, bisa jadi itu dari Googlebot.
Yahoo!Slurp, merupakan search engine Yahoo, teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.
YaCy, berbeda dengan yang lain, YaCy dibangun atas prinsip P2p (peer-to-peer), di develop dengan java, dan didistribusikan pada beberapa ratus mesin komputer (YaCy peers). Tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy ialah Sciencenet, untuk pencarian dokumen di bidang sains.

Sumber :

http://www.bum1.info/2012/03/web-crawler.html

http://glosarium.yn.lt/arti/?k=web%20crawler

http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/

Rainz

ZINAINAINIANIA

Wednesday 24 April 2013

Web Crawler [Softskill]

Cara Kerja Web Crawler

Beberapa contoh dari Web Crawler :

Pages

Friend's