Flera nationella initiativ har tagits för att arkivera delar av nationens webb. I Sverige har vi ju projektet Svenska Webbsidor Kulturarw3 som Kungliga Biblioteket har hållit på med i 10 år. Tyvärr kan man bara söka i det arkivet på plats. Det australiska Pandora-projektet och brittiska UK Web Archive är andra webbarkiveringsprojekt vi skrivit om genom åren. Nu har man i Österrike antagit ett tillägg till lagstiftningen som reglerar medier. I detta ges österrikiska nationalbiblioteket rätt att samla in och lagra den österrikiska webben. Lagtillägget ställer också vissa krav på innehållsägare som har webbplatser som är offentliga men inte så lätt kan samlas in av en vanlig sökmotorspindel.
Lagen trädde i kraft 1 mars och för ett par dagar sedan hölls en sammankomst i Wien kallad ISPA Forum “Ablieferungspflicht für Online-Medien” där företrädare för det österrikiska nationalbiblioteket presenterade planerna för webbplatsägare och andra intressenter. Från detta möte finns några presentationer utlagda. Inom ramen för Web@rchviv Österreich ska man enligt planerna samla in hela .at-domänens innehåll som just nu består av 824 000 subdomäner plus andra domäner med österrikisk koppling. 1 till 2 gånger per år ska det ske men lagen tillåter upp till 4 gånger.
Dessutom tänker man ägna sig åt vad man kallar event harvesting. Det handlar alltså om att samla in flyktigt webbinnehåll som bara är tillgängligt under en begränsad tid. Pilotprojektet är sommarens Europaval. Jag tycker det är klokt att redan från början tänka i de här banorna. Den genomsnittliga livslängden på en webbsida är nämligen bara 44-75 dagar enl. Internet Archive som har flera specialsamlingar av webbsidor från tiden runt stora händelser som 9/11, stormen Katrina och tsunamikatastrofen.
Hur hade österrikarna tänkt sig genomföra det här rent tekniskt då? Man räknar med att använda sex servrar som står för insamlandet/spindlandet av den österrikiska webben. På dessa ska man köra uteslutande Open Source-programvaror som fulltextsökmotorn NutchWAX och spindeln Heritrix som även används av Internet Archive. Jag hoppas att man kommer att ge tillgång till sökning i arkivet via Internet!



No Comments on “Österrikiska webben ska arkiveras”