ZINAINAINIANIA

  • Replace This Text With Your Featured Post 1 Description.
  • Replace This Text With Your Featured Post 2 Description.
  • Replace This Text With Your Featured Post 3 Description.
  • Replace This Text With Your Featured Post 4 Description.

Wednesday 24 April 2013

Web Crawler [Softskill]

Mungkin sebagian pengguna internet belum mengenal Web Crawler, apa sih itu Web Crawler ?? disini akan saya jelaskan.
     Web Crawler biasa juga disebut sebagai bot pencarian atau spider. Ialah program yang berfungsi menelusuri web yang ada didunia maya dan berkunjung ke web-web tersebut atas nama search engine, dan hasil dari spider ini untuk menemukan link baru dan halaman baru atau website baru. Biasanya pekerjaan bot adalah mengindex dan menyimpan data di database para pemilik botnya.

Ada 2 fungsi utama Web Crawler :
  1. Mengidentifikasikan Hyperlink => Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.
  2. Melakukan proses kunjungan or visit secara rekursif => Dari setiap Hyperlink, web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaika dengan keperluan aplikasinya.

Cara Kerja Web Crawler

     Crawler yang diawali dengan adanya daftar URL yang akan dikunjungi (Seeds). Setelah crawler mengunjungi URL tersebut, kemudian mengidentifikasi semua hyperlink dari halaman itu san menambahkan kembali ke dalam seeds (Crawl Frontier).
     Setelah web crawler mengunjungi halaman-halaman web yang ditentukan didalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpannya ke sebuah storage. Web crawler dapat dibuat untuk mencari informasi yang berhubungan dengan topik tertentu saja. Web crawler yang hanya mengumpulkan topik tertentu disebut topical web crawler . Web crawler dimulai dengan sekumpulan URL, kemudian di download setiap halamannya, mendapatkan link dari setiap page yang dikunjungi kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut.

Beberapa contoh dari Web Crawler :

  1. Teleport Pro, salah satu software web crawler untuk keperluan offline browsing, software ini cukup popular terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di Tenmax .
  2. HTTrack, Ditulis dengan menggunakan C, merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk, agar dapat dilihat secara offline. Yang menarik dari software ini free dan dapat didownload pada website resminya di HTTrack .
  3. Googlebot, web crawler untuk membangun index pencarian yang digunakan oleh search engine google. Bila website Anda ditemukan oleh orang lain melalui Google, bisa jadi itu dari Googlebot.
  4. Yahoo!Slurp, merupakan search engine Yahoo, teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.
  5. YaCy, berbeda dengan yang lain, YaCy dibangun atas prinsip P2p (peer-to-peer), di develop dengan java, dan didistribusikan pada beberapa ratus mesin komputer (YaCy peers). Tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy ialah Sciencenet, untuk pencarian dokumen di bidang sains.





Sumber :

Saturday 30 March 2013

# Web Science (Lanjutan) [Softskill]

     Di pertemuan sebelumnya, kami sudah menjelaskan tentang Sejarah Web. Pada kali ini kami akan menjelaskan Arsitektur Web & Aplikasi Utama.

Arsitektur Web & Aplikasi Utama

     Arsitektur Website adalah suatu pendekatan pendekatan terhadap desain dan perencanaan situs yang, seperti arsitektur itu sendiri, melibatkan teknis, kriteria estetis dan fungsional. Seperti dalam arsitektur tradisional, fokusnya adalah benar pada pengguna dan kebutuhan pengguna. Hal ini memerlukan perhatian khusus pada konten web, rencana bisnis, kegunaan, desain interaksi, informasi dan desain arsitektur web. Untuk optimasi mesin pencari yang efektif perlu memiliki apresiasi tentang bagaimana sebuah situs Web terkait dengan World Wide Web.
     Sejak web perencanaan isi, desain dan manajemen datang dalam lingkup metode desain, Vitruvian tradisional tujuan komoditas, keteguhan dan kesenangan dapat memandu arsitektur situs, seperti yang mereka lakukan arsitektur fisik dan disiplin desain lainnya. Website arsitektur akan datang dalam ruang lingkup estetika dan teori kritis dan kecenderungan ini dapat mempercepat dengan munculnya web semantik dan web 2.0. Kedua ide menekankan aspek struktur informasi. Strukturalisme adalah sebuah pendekatan untuk pengetahuan yang telah dipengaruhi sejumlah disiplin akademis termasuk estetika, teori kritis dan postmodernisme. Web 2.0, karena melibatkan user-generated content, mengarahkan perhatian arsitek website untuk aspek-aspek struktur informasi.
     “Website arsitektur” memiliki potensi untuk menjadi istilah yang digunakan untuk disiplin intelektual mengatur konten website.”.
     Ada tiga standar utama untuk penerapan web services. Standar-standar ini mendukung pertukaran data berbasis XML. Tiga standar tersebut meliputi SOAP, WSDL, dan UDDI. Berikut ini akan dijelaskan secara singkat mengenai standar tersebut.
SOAP (Simple Object Access Protocol) adalah suatu bahasa versi bebas dari protokol RPC (Remote Procedure Caoll) yang berguna untuk proses transaksi melalui HTTP standar.
WSDL (Web Services Description Language) adalah bahasa yang memungkinkan berbagai dokumen yang dibuat dalam aplikasi yang berbeda dapat berkomunikasi.
UDDI (Universal Description Discovery and Integration) adalah semacam direktori global untuk mengelola web services. 

Beberapa aplikasi utama :

  • HTTP, HTML, Web Server, Browser, Internet, Transaksi

HTTP (Hypertext Transfer Protocol) adalah sebuah protokol jaringan lapisan aplikasi yang digunakan untuk sistem informasi terdistribusi, kolaboratif, dan menggunakan hipermedia.

HTML (Hyper Text Markup Language) merupakan bahasa standar untuk membuat suatu dokumen HTML (halaman web) yang terdiri dari kode-kode singkat tertentu, dimana dengan kode-kode tersebut akan memerintahkan Web browser bagaimana untuk menampilkan halaman Web yang terdiri dari berbagai macam format file seperti teks, grafik, animasi, link maupun audio-video.

Web browser adalah sebuah progam yang dapat menterjemahkan kode perintah dari dokumen HTML tersebut sehingga dapat kita lihat, baca dan dengar. Contoh dari Web Browser adalah Internet Explorer, Netscape Navigator, Mozilla Firefox, Opera, Safari dll.

Internet adalah sebuah jaringan komputer yang terdiri dari berbagai macam ukuran jaringan komputer di seluruh dunia mulai dari sebuah PC, jaringan-jaringan lokal berskala kecil, jaringan-jaringan kelas menegah, hingga jaringan-jaringan utama yang menjadi tulang punggung internet seperti NSFnet, NEARnet, SURAnet, dan lain-lain.

  • Wikis, Blogs, Folksonomies, Social Network, & Usergenerated Content

Wiki merupakan kumpulan halaman-halaman web yang dapat diubah oleh semua orang setiap saat. Konsep dan peranti lunak wiki diciptakan oleh Ward Cunningham.

Blog merupakan singkatan dari web log, blog adalah sebuah situs yang asal mulaya merupakan catatan harian online yang dibuat oleh siapa pun, kapan pun, dan di manapun. Jenis Blog / penyedia Blog local maupun internasional : Blogger.com, wordpress.com, Typepad.com, livejournal.com, blogdrive.com, blogsome.com, edublogs.org, diaryland.com, xanga.com.

Social Networking adalah kegiatan menjalin hubungan dengan orang lain melalui social media sites / situs jejaring sosial yang ada di internet. Bisa diakses di mana saja, kapan saja dan oleh siapa saja. Dan tidak jarang juga, orang-orang yang “maenan” situs semacam ini dibilang melakukan kegiatan yang ngga mutu. Padahal status update pun memiliki potensi dengan dampak yang luas. Sayangnya, terlalu sering sebuah buku dinilai hanya dari sampulnya. 

User Generated Content adalah sebuah participatory atau partisipasi. Para founder situs-situs di atas pasti berfikir, bagaimana agar jutaan pengguna internet tertarik untuk masuk dan berpartisipasi. Manfaat aplikasi web yang menarik, kemudahan penggunaan, interface yang nyaman, layanan terjamin, knowledge sharing mungkin bisa membuat pengguna tertarik untuk mencoba dan berpartisipasi di dalamnya.

  • Semantic Web Summary

     Pengertian Semantic Web (Web Semantik) atau Definisi Semantic Web adalah pengembangan dariWorld Wide  Web di mana makna semantik dari informasi di web didefinisikan, sehingga memungkinkan mesin untuk memprosesnya. Semantic Web berasal dari World Wide  WebKonsorsium dari Web sebagai media universal data, informasi, dan pertukaran pengetahuan. Istilah Web Semantik itu sendiri diperkenalkan oleh Tim Berners-Lee, penemu World Wide Web. Sekarang, prinsip web semantik disebut-sebut akan muncul pada Web 3.0, generasi ketiga dari World Wide Web. Bahkan Web 3.0 itu sendiri sering disamakan dengan Web Semantik. Web Semantik menggunakan XML, XMLS (XML Schema), RDF, RDFS (Resources Description Framework Schema) dan OWL.
  • XML (Extensible Markup Language) adalah bahasa markup untuk keperluan umum yang disarankan oleh W3C (World Wide Web Consortium)  untuk membuat dokumen markup keperluan pertukaran data antar sistem yang beraneka ragam. XML merupakan kelanjutan dari HTML (HyperText Markup Language) yang merupakan bahasa standar untuk melacak Internet.
  • RDF (Resource Description Framework) adalah standar W3C  untuk mendeskripsikan Web resources, seperti title, author, modification date, content, dan copyright information dari Web page.
  • OWL (Web Ontology Language) adalah salah satu bentuk ontology yang memang dirancang dengan tujuan untuk digunakan oleh aplikasi yang perlu memproses isi informasi ketimbang menampilkan informasi untuk konsumsi manusia. OWL merupakan rekomendasi W3C (World Wide Web Consortium) dalam penulisan ontology untuk web untuk web semantic. OWL dituliskan dalam syntax XML (eXtended Markup Language). Selain XML dalam OWL digunakan juga bahasa XMLS (XML Schema), RDF (Resource Description Framework) dan RDFS (RDF Schema) dan OWL itu sendiri.
  • Microformats adalah salah satu cara menambahkan penandaan sederhana agar tiap data mudah terbaca oleh manusia seperti peristiwa, rincian kontak atau lokasi pada halaman web sehingga informasi di dalamnya dapat diekstraksi oleh perangkat lunak dan diindeks, dicari, disimpan, bertukaran-referensi, atau dikombinasi. Secara teknis, hal-hal tersebut adalah bagian dari penandaan semantik yang hanya menggunakan standar "Plain Old Semantic (X)HTML" (yaitu "POSH") saja dengan nilai "rel" dan satu set penamaan-kelas yang umum. Mereka digunakan dengan terbuka dan tersedia, bebas bagi siapa saja.
  • Microdata adalah Spesifikasi HTML yang berbasisi WHATWG yang digunakan untuk sarang simentik pada konten di halaman web. Microdata membantu teknologi seperti mesin pencari dan web crawler lebih memahami informasi apa yang terkandung dalam halaman web, menyediakan hasil pencarian yang lebih baik. Microdata adalah upaya untuk menyediakan cara sederhana annotating elemen HTML dengan tag dapat dibaca oleh mesin daripada pendekatan serupa menggunakan RDFa dan Microformats.

  • Web Security

     Suatu tata cara mengamankan aplikasi web yg dikelola, biasanya yg bertanggung jawab melakukannya adalah pengelola aplikasi web tsb. Mengenai masalah yang berkaitan dengan keamanan di dalam era digital tidak lepas dari 3 prinsip utama yaitu Confidentiality, Integrity, dan Availability atau lebih dikenal dengan nama CIA. Prinsip CIA selayaknya dijadikan pedoman yang harus dipahami apabila ingin website kita lebih aman dan sulit untuk diserang.

  • Confidentiality memiliki makna bahwa data-data ataupun informasi-informasi yang berada di dalam sebuah website hanya dapat di baca atau di akses oleh orang-orang yang memang memiliki kewenangan untuk mengaksesnya. Dalam era konsep Web 2.0 yang sedang berkembang beberapa tahun belakangan ini, sangat memungkinkan sebuah website untuk dapat memiliki lebih dari satu administrator. Contohnya adalah WordPress engine.
  • Integrity memiliki pengertian data-data yang berada didalam server atau website hanya dapat diubah ataupun di delete oleh orang yang memiliki kewenangan untuk melakukan hal itu. Sebagai contoh proses transfer dari server ke client atau sebaliknya (dapat berupa upload maupun download), ternyata mengubah file yang sedang di transfer tersebut, hal ini mengindikasikan bahwa sebuah aplikasi website yang sedang digunakan tidak aman (insecure). Sama halnya jika ada serangan sebuah virus yang dapat mengubah sebuah file, entah itu mengubah nama ataupun isinya.
  • Jika confidentiality bermakna hanya user yang memiliki kewenangan yang dapat melihat data tertentu yang tersimpan didalam sebuah server atau website, availability memiliki makna bahwa website harus dapat diakses jika user ingin meggunakannya. Memang terkesan membingungkan dan tidak berbeda dengan prinsip pertama, namun kedua prinsip ini sangat jauh berbeda dikarenakan dilihat dari dua sudut pandang yang memang berbeda.

My Team 

# Web Science [Softskill]

Sekarang kami akan menjelaskan lebih jauh , apa sih itu "Web Science"? Apa saja yang ada didalamnya ? Sebelum kami memberikan penjelasan tentang Web Science, kami akan memberikan sedikit pengetahuan kepada Kalian semua, tentang Sejarah Web. 

Sejarah Web

     Pada tahun 1980, Tim Bernes-Lee , kontraktor independen di Organisasi Eropa untuk Riset Nuklir (CERN), Swiss , dibangun Enquire , sebagai database pribadi orang dan model perangkat lunak, tetapi juga sebagai cara untuk bermain dengan hypertext. Setiap halaman baru informasi dalam Enquire harus terhubung dengan halaman yang ada.
     Pada tahun 1984 Berners-Lee kembali ke CERN, dan dianggap permasalahannya presentasi informasi: fisikawan dari seluruh dunia diperlukan untuk berbagi data, dan tanpa mesin umum dan tidak ada perangkat lunak presentasi umum. Dia menulis sebuah proposal Maret 1989 untuk "database hypertext besar dengan link diketik", tapi itu dihasilkan bunga kecil. Bosnya, Mike Sendall, mendorong Berners-Lee untuk mulai menerapkan sistemnya pada suatu yang baru diperoleh NeXT workstation. Ia menilai beberapa nama, termasuk Mesh Informasi, Tambang Informasi (ditolak karena abbreviates ke TIM, pencipta nama WWW).

1. Pre-Web (memex, usenet, gopher, ftp, internet)

    Pre-web adalah dimana era web 1.0 belum muncul, berikut ini adalah contoh" dari pre-web:
  • Memex adalah singkatan dari "memori" dan "index" yang berarti nama hipotetis proto-hypertext sistem yang dijelaskan oleh Vannevar Bush pada tahun 1945 pada artikel bulan The Atlantic, " As We May Think (AWMT)". Bila ingin tahu lebih lanjut bisa langsung ke sini.
  • Usenet adalah User Network dimana sistem diskusi internet yang terdistribusi secara global. Sistem ini dikembangkan dari arsitektur serbaguna UUCP dari nama yang sama. Didalamnya ditampilkan berbagai artikel yang disebut News dalam berbagai topik dan kategori. 
  • Gopher adalah TCP/IP Application layer protokol yang didesain fasilitas untuk memudahkan pencarian, penarikan, dan pengambilan informasi dari server yang mendukung protokol Gopher melalui internet.
  • FTP / File Transfer Protocol adalah suatu protokol yang berfungsi untuk tukar-menukar file dalam suatu network/jaringan yang menggunakan TCP koneksi bukan UDP.

2. Web 1.0, Web 2.0, Web 3.0

  • Web 1.0 masih mengandalkan halaman statis dari tag-tag HTML sehingga pengunjung hanya dapat mencari sesuatu atau yang sering disebut “searching” , dan melihat-lihat “browsing” informasi-informasi yang ada pada web, kita juga tidak dapat memberi komentar apa- apa, karna web 0.1 tidak mendukung aplikasi tersebut. Elemen yang biasa digunakan dalam Web 1.0 adalah: 
    • Halaman Statis;
    • Tombol GIF;
    • dan Framesets
  • Web 2.0 muncul sekitar tahun 2003 atau 2004, dimana para pengguna website-pun dapat berkomunikasi 2 arah dan memiliki berbagai kelebihan lainnya. Pada Web 2.0, sebagai pengunjung Anda dapat melakukan kontribusi dan memiliki hak untuk read-write, di mana Anda dapat berperan aktif pada website tersebut. Istilah “sharing” mulai umum digunakan dalam konsep Web 2.0. Web 2.0 merupakan revolusi bisnis di industri komputer yang disebabkan oleh penggunaan internet sebagai platform, juga merupakan suatu percobaan untuk memahami aturan untuk mencapai keberhasilan platform baru.
  • Web 3.0 adalah generasi ketiga dari layanan internet berbasis web. Konsep Web 3.0 pertama kali diperkenalkan pada tahun 2001, saat Tim Berners-Lee, penemu World Wide Web, menulis sebuah artikel ilmiah yang menggambarkan Web 3.0 sebagai sebuah sarana bagi mesin untuk membaca halaman-halaman Web. Web 3.0 berhubungan dengan konsep Web semantik, yang memungkinkan isi web dinikmati tidak hanya dalam bahasa asli pengguna, tapi juga dalam bentuk format yang bisa diakses oleh agen-agen software. Keunikan dari Web 3.0 adalah konsep dimana manusia dapat berkomunikasi dengan mesin pencari. Kita bisa meminta Web untuk mencari suatu data spesifik tanpa bersusah-susah mencari satu per satu dalam situs-situs Web. Web 3.0 terdiri dari:
    • Web Semantik;
    • Format Mikro;
    • Pencarian dalam bahasa pengguna;
    • Penyimpanan data dalam jumlah besar;
    • Pemebelanjaan lewat mesin;
    • dan Agen rekomendasi, yang merujuk ke arah kecerdasan buatan Web.
          Mau lihat lebih lanjut cek disini :) dan disini.

3. Web Science & Metodologi Web Science

    Apakah kalian tau Web Science? Web Science terdiri dari "Web" dan "Science", Web adalah suatu alat komunikasi online yang menggunakan media internet dalam pendistribusian atau penyebarannya. Dan Science itu sendiri adalah aktivitas pemecahan masalah yang dilakukan oleh manusia yang dimotivasi oleh rasa ingin tahu tentang dunia sekitar. Jadi, Web Science adalah ilmu yang mempelajari tentang efisiensi dari sebuah web, agar dapat dirasakan manfaatnya pada banyak bidang didalam kehidupan sehari-hari.

   Langsung saja kita jelaskan Metodologi pada Web Science, metodologi ini akan dipengaruhi oleh perekayasaan yang berlatar belakang industri maupun peneliti akademisi. Sehingga akan mengkombinasikan sintesis dan analisis. Mempertimbangkan perkembangan Web yang membawa ke sisi positif (seperti Peer to Peer) ataupun ke arah negatif (seperti phishing). Kontribusi terhadap pengembangan adalah tujuan utama dari Web Science.Adanya web science menekankan pada perkembangan Web itu sendiri dan pengembangannya,mendukung untuk ubiquity, mobility, new media dan meningkatnya jumlah data yang tersedia secara online, karena web bersifat sosial, maka privasi harus dikedepankan.

Dan di Point berikutnya kami akan menjelaskan tentang Arsitektur Web & Aplikasi Utama disini :)

My Team :


Sumber :