Chris Sherman, Gary Price: The Invisible Web.Referat från föredraget den 28:e mars 2001 vid Internet Librarian International 2001, London

Föredraget som hölls av Chris Sherman (redaktör för websearch.about.com och inom kort Associate Editor vid searchenginewatch.com) och Gary Price (vid Washington State University och mannen bakom DirectSearch) inleddes med att Sherman visade en grafisk framstÀllnig av hur de traditionella sökmotorerna fungerar. Med detta som bakgrund grep han sig sÄ an huvudÀmnet:

Vad Àr den osynliga webben?

Den osynliga webben utgörs av webbsidor som sökmotorernas spindelprogram inte kan eller inte vill indexera i sin databas. Det uppskattas att denna del av webben Ă€r 2-50 gĂ„nger större Ă€n den “synliga”. UtmĂ€rkande Ă€r att dessa resurser Ă€r av mycket högre genomsnittlig kvalitet. Vad Ă€r det dĂ„ för webbdokument som döljer sig för de traditionella sökmotorerna? Först och frĂ€mst Ă€r det filformat som exempelvis PDF, Flash, Office och strömmande media. De kan inte
behandlas av den enkla anledningen att de inte Àr i html-format och spindlarna hanterar endast html Àn sÄ lÀnge. FrÄn och med februari i Är har dock Google börjat indexera PDF i stor skala (de Àr nu uppe i omkring 25 miljoner PDF-dokument). En annan grupp av dokument Àr de som byggs upp av s.k. realtidsdata. Det kan vara aktiekurser, vÀderinformation och flyginformation. Dessa data Àr mycket flyktiga och snabbt förÀnderliga varför en frekvent indexering skulle ta upp oerhört mycket lagringsutrymme. Vidare finns alla dynamiskt genererade webbsidor som skapas av skriptsprÄk som asp, php, cgi och Àven javascript. Dit hör de flesta webbsidor som har ett frÄgetecken i sin URL. Dessa kan indexeras men söktjÀnsterna vÀljer att inte lÄta sina spindlar ge sig in i dessa dÄ de kan innehÄlla s.k. spindelfÀllor. Dessa gillras av webbprogrammerare i spammningssyfte och kan vara Àndlösa loopar dÀr spindelprogrammen fastnar och inte kommer ut. Det finns ocksÄ stora mÀngder webbresurser som krÀver en inloggnig och det kan heller inte hanteras. Slutligen har vi de webbaserade databaserna. Eftersom spindlarna inte kan skriva in sökord kommer de inte lÀngre Àn till sökformulÀret. Vid en söktjÀnstkonferens i Boston nyligen uppgav Intelliseek och CompletePlanet att det finns i nÀrheten av en kvarts miljon sÄdana databaser pÄ webben.

Hur hittar man till och jobbar med den osynliga webben?

Ett bra sÀtt om man inte kÀnner till nÄgon bra osynlig webbresurs för det ÀmnesomrÄde man Àr intresserad av Àr att anvÀnda en s.k. invisible web gateway. Detta Àr webbtjÀnster dÀr man kan blÀddra bland eller söka efter webbplatser som erbjuder osynliga webbsidor, som t.ex. databaser. De största av dessa gateways Àr Intelliseeks Invisibleweb.com och Profusion och CompletePlanets Completeplanet.com. Vid sidan av dessa som tÀvlar om tÀtpositionen finns en annan bra inkörsport i Librarians Index to the Internet. Efter denna inledning tog Gary Price över ordet och talade om bibliotekariernas förhÄllande till den osynliga webben. I förstone gÀller det förstÄs att arbeta in en medvetenhet om dess existens och att just den information som eftersöks kan finnas dÀr och kanske bara dÀr. Man bör kÀnna till de mÄnga synonymerna: the invisible web, the deep web, the hidden web etc. Det gÀller ocksÄ att sprida kunskapen om det dolda och att nÀr man gör det lÀgga tonvikten snarare vid kvaliteten hos dessa resurser Àn deras i och för sig stora mÀngd.

Varför Àr den osynliga webben sÄ vÀrdefull för informationssökaren?

Det mest uppenbara Àr naturligtvis den genomgÄende höga informationskvalitet som genomsyrar den. Dessutom erbjuder den i allmÀnhet ett pÄtagligt fördjupat innehÄll inom sina omrÄden. DÄ det ofta Àr tal om specialinriktade databaser kan de med sin begrÀnsade spÀnnvidd i hög grad tÀcka sitt fÀlt. De utgör ocksÄ en begrÀnsad vÀrld av dokument dÀr precision/recall kan maximeras. DÀr kan vidare finnas material som inte finns tillgÀngligt nÄgon annanstans pÄ webben. Den uttalade specialiseringen innebÀr att avancerade funktioner för sökning, begrÀnsning, sortering och interaktion med datat kan finnas tillgÀngliga. Uppdateringsfrekvensen blir sjÀlvklart en helt en annan Àn den som spindelprogrammen kan Ästadkomma för den synliga webben.

Hur ser framtiden ut för den osynliga webben?

Det kan mycket vĂ€l tĂ€nkas att de traditionella söktjĂ€nsterna kan skriva om sina program sĂ„ att de kan ge sig in i dessa webbresurser. Men frĂ„gan Ă€r om det vore bra eller dĂ„ligt? Man kan inte rĂ€kna med att alla sökfunktioner som finns kan göras tillgĂ€ngliga pĂ„ det sĂ€ttet. Problemet med snabbheten med uppdatering kommer ocksĂ„ att kvarstĂ„ i stor utstrĂ€ckning. Det Ă€r ju just aktualitet som ska vara det som webben Ă€r bra pĂ„. Om sökaren nöjer sig att söka i den osynliga webben via en vanlig söktjĂ€nst kan det vĂ„lla bekymmer vad gĂ€ller just hur aktuell indexeringen Ă€r. Andra problem kan vara hur pass viktig den osynliga webben kommer att vara för de traditionella söktjĂ€nsterna med sina allt större krav pĂ„ ekonomisk vinst frĂ„n sina Ă€gare. Är det tĂ€nkbart att en korssökning över sĂ„ olikartade kĂ€llor kan nĂ„ en hög funktionalitet? Det kĂ€nns inte sĂ€rskilt sannolikt om man t.ex. jĂ€mför med den roll som de s.k. Z39.50-grĂ€nssnitten mot bibliotekskataloger pĂ„ Internet hittils har spelat med sina ganska grovhuggna sökverktyg. Givetvis skulle XML hĂ€r kunna komma till undsĂ€ttning om ett gemensamt grĂ€nssnittsystem utvecklas dĂ€ri, men hur ska man fĂ„ alla att delta i ett sĂ„dant jĂ€ttelikt projekt?

Den osynliga webben - en utmaning

Det Àr viktigt att ha i minnet att den osynliga webben inte Àr frÀlsningen för sökaren utan bara ytterligare ett verktyg om Àn ett synnerligen anvÀndbart sÄdant. RÀkna ocksÄ med att det tar tid att lÀra sig att anvÀnda de olika kÀllorna. Hur ska man vÀlja vilka osynliga webbresurser man ska anvÀnda och nÀr Àr det riktigt att ta till dem? DÀrtill utgör de en aldrig sinande ström av nya sökingÄngar för webbsökaren. Vi fÄr heller aldrig glömma bort de allestÀdes nÀrvarande traditionella bibliografiska forskningsdatabaserna som mÄnga gÄnger utgör de yttersta sökverktygen inom sina Àmnen. En annan utmaning kan vara att sjÀlv skapa sina samlingar av webbtjÀnster frÄn den osynliga webben. Tveka inte att bygga egna vortaler utifrÄn sÄdana, de kan bli mycket anvÀndbara bÄde för en sjÀlv och för andra. Man kan behöva leta igenom hela webbplatser för att hitta till de osynliga resuserna. DÀrför Àr det avgörande att skapa lÀnkar direkt till söksidorna istÀllet för till hemsidorna. PÄ sÄ sÀtt sparar man tid för anvÀndarna och glöm inte att hÄlla dig vÀl uppdaterad. För att upprepa vad för typer av kÀllor som det handlar om kan det vara Àmnesbibliografier, bibliotekskataloger, fulltextkÀllor, numeriska data, grafisk information, kataloginformation (som telefon- och adressregister) och realtidsdata.

Framtida trender

Chris Sherman Ätertog nu ordet frÄn Gary Price och sade att det kommer att vara utvecklandet av s.k. killer apps (tillÀmpningar som blir utomordentligt framgÄngsrika) som blir vÀgvisarna för framtidens utseende vad gÀller den osynliga webben. Sherman nÀmnde som exempel det fantastiska programmet ResearchIndex frÄn CiteSeer. Detta fungerar ungefÀr som en metasöktjÀnst men som kan ladda ner t.ex. PDF och Postscriptdokument och konvertera dem till text och extrahera referenslistor och utföra citeringsanalys bÄde bakÄt och framÄt samt presentera resultatet i trÀdstrukturer. I takt med anvÀndarnas krav Àr det Àven troligt att de vanliga söktjÀnsterna kommer att jobba allt hÄrdare med att hitta osynligt webbinnehÄll. HÀr kan Inktomis IndexConnect-program nÀmnas. Med hjÀlp av detta kan Inktomi Äta sig att ta sig in i webbaserade databaser och göra indexeringar om webbplatsÀgarna lovar att inga spindelfÀllor finns. Förutom detta finns t.ex. ett företag som heter WhizBang som utvecklat en teknik med vad de kallar wrappers dÀr artificiell intelligens och brute force anvÀnds för att spindelprogrammet med trial-and-error ska kunna hitta en vÀg in i webbaserade databaser och utföra nÄgon form av indexering av innehÄllet. Det finns dock inget tvivel om att den osynliga webben alltid kommer att utgöra ett problem för bÄde sökarna och söktjÀnsterna.

Den osynliga webben - nÄgra exempel

För att ge Ähörarna en bild av vad den osynliga webben bland annat kan innehÄlla presenterade Sherman som avrundning ett antal webbplatser:

  • McAfee’s World Virus Map (mast.mcafee.com/mast/mass_map.asp) dĂ€r man kan se hur datavirus sprids över vĂ€rlden i realtid
  • tornado-insider.com dĂ€r du finner affĂ€rsinformation och nystartade
    forskningsprojekt m.m.
  • kompass.com som görs av de som tillhandahĂ„ller den kĂ€nda Kompass-databasen över företag i olika lĂ€nder
  • delphion.com som Ă€r en patentdatabas
  • EuroDicAutom (eurodic.ip.lu) som Ă€r ett översĂ€ttningsverktyg
  • verbix.com som böjer verb pĂ„ mer Ă€n 50 sprĂ„k
  • www.adam.ac.uk som Ă€r en art, design, architecture and media information gateway till osynligt webbinnehĂ„ll i dessa omrĂ„den
  • artcyclopedia.com
  • www.trip.com som “ser” var i luften amerikanska flygplan befinnersig just nu
  • mapblast.com och www.streetmap.co.uk som Ă€r kartdatabaser
  • www.ipu.org som Ă€r en webbplats om parlamentĂ€r demokrati
  • www.un.org/News som Ă€r Förenta Nationernas nyhetscentrum

Allra sist konstaterade föredragshÄllarna som ett svar pÄ en frÄga frÄn publiken att regeringar och myndigheter runt om i vÀrlden i allt högre utstrÀckning utvecklar osynliga webbresurser i sin jakt pÄ att spara papper. Dessa utgör i sig en inte föraktlig del av the Invisible Web.

Skriv en kommentar