Web Archiving

 


Web pengarsipan adalah proses pengumpulan bagian dari World Wide Web untuk memastikan informasi tersebut diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Arsiparis web biasanya menggunakan web crawler untuk menangkap otomatis karena ukuran besar dan jumlah informasi di Web. Organisasi web terbesar pengarsipan berdasarkan pendekatan merangkak massal adalah Internet Archive yang berusaha untuk memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip nasional dan konsorsium berbagai organisasi yang juga terlibat dalam pengarsipan konten Web budaya penting. Arsiparis web jenis arsip umum berbagai konten web termasuk halaman web HTML, style sheet, JavaScript, gambar, dan video. Mereka juga arsip metadata tentang sumber daya dikumpulkan seperti waktu akses, tipe MIME, dan panjang konten. Metadata ini berguna dalam membangun keaslian dan asal dari koleksi arsip.

Cara Kerja Web Archiving :

a. Remote Harvesting, merupakan cara yang paling umum dalam web archiving dengan menggunakan teknik web crawler yang secara otomatis melakukan proses pengumpulan halaman web. Contoh web crawler ynag digunakan dalam web archiving seperti: Heritrix, HTTrack, Wget

b. On-demand, ada banyak layanan yang dapat digunakan sebagai sumber archive web "on-demand" menggunakan teknik web crawling. contohnya seperti: Aleph Archives,archive.is, archive-It, archivethe.net, compliance watchdog by sitequest technologies, dll.

c. database archiving, mengacu pada metode untuk mengarsipkan konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML. Setelah disimpan dalam format standar, konten yang diarsipkan dari beberapa databse dapat tersedia untuk diakses dengan menggunakan single access system. Motode ini digunkanan seprti pada DeepArc dan Xinq masiing masing dikembangkan oleh Bibliothèque nationale de France dan National Library of Australia.

d. Transactional archiving, merupakan event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan web browser. Hal ini terutama digunakan untuk menjamin keaslian dari isi suatu website, pada tanggal tertentu. Hal ini sangatlah penting untuk organisasi atau perusahaan yang perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan informasi. Sistem yang digunakan pada transactional archiving biasanya beroperasi dengan memeriksa setiap permintaan HTTP dan respon dari web server, menyaring setiap aktifitas untuk menghilangkan konten yang duplikat dan secara permanen disimpan sebagai bitstreams. Sebuah sistem transactional archiving membutuhkan instalasi perangkat lunak pada web server, dan karena hal itu maka metode ini tidak dapat mengumpulkan konten dari remote website.

Komentar

Postingan Populer