Materi Web Archiving


Web Archiving adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa mendatang.
Besarnya ukuran web membuat arsiparis web umumnya menggunakan web crawlers untuk pengumpulan secara otomatis. Organisasi pengarsip web terbesar yang menggunakan ancangan perangkak web ini adalah internet archive yang berupaya memelihara arsip dari seluruh web.
Arsipasi web umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Arsipasi web menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam menjaga keaslian dan asal dari koleksi arsip.
Contoh web crawler yang digunakan untuk web pengarsipan meliputi:
1. Heritrix
2. HTTrack
3. Wget
4. On-demand

Ada banyak layanan yang dapat digunakan untuk sumber daya arsip web "on-demand", menggunakan teknik web merangkak yaitu : Aleph Arsip, Archive.is, Arsip-It, Archivethe.net, FreezePAGE snapshot, Hanzo Arsip, Iterasi, NextPoint, PageFreezer, Reed Arsip, Smarsh Web Pengarsipan, The Web Pengarsipan Layanan, WebCite, Situs-Archive.com, layanan berlangganan.

Database Pengarsipan mengacu pada metode untuk pengarsipan konten mendasari database-driven website. Hal ini biasanya memerlukan ekstraksi dari isi database ke skema standar, sering mennggunakan XML.
Transaksional Pengarsipan adalah sebuah pendekatan event-driven yang mengumpulkan transaksi yang sebenarnya yang terjadi antara web server dan browser web.

Lain sumber Peralatana terbuka untuk memanipulasi web arsip:
- WARC Tools
- Untuk membuat, membaca, parsing dan memanipulasi, web arsip pemrograman pencarian
- Untuk mengindeks dan mecari teks lengkap dan metadata dalam web arsip.


Komentar

Postingan Populer