Föredraget som hölls av Chris Sherman (redaktör för websearch.about.com och inom kort Associate Editor vid searchenginewatch.com) och Gary Price (vid Washington State University och mannen bakom DirectSearch) inleddes med att Sherman visade en grafisk framställnig av hur de traditionella sökmotorerna fungerar. Med detta som bakgrund grep han sig så an huvudämnet:
Vad är den osynliga webben?
Den osynliga webben utgörs av webbsidor som sökmotorernas spindelprogram inte kan eller inte vill indexera i sin databas. Det uppskattas att denna del av webben är 2-50 gÃ¥nger större än den “synliga”. Utmärkande är att dessa resurser är av mycket högre genomsnittlig kvalitet. Vad är det dÃ¥ för webbdokument som döljer sig för de traditionella sökmotorerna? Först och främst är det filformat som exempelvis PDF, Flash, Office och strömmande media. De kan inte
behandlas av den enkla anledningen att de inte är i html-format och spindlarna hanterar endast html än så länge. Från och med februari i år har dock Google börjat indexera PDF i stor skala (de är nu uppe i omkring 25 miljoner PDF-dokument). En annan grupp av dokument är de som byggs upp av s.k. realtidsdata. Det kan vara aktiekurser, väderinformation och flyginformation. Dessa data är mycket flyktiga och snabbt föränderliga varför en frekvent indexering skulle ta upp oerhört mycket lagringsutrymme. Vidare finns alla dynamiskt genererade webbsidor som skapas av skriptspråk som asp, php, cgi och även javascript. Dit hör de flesta webbsidor som har ett frågetecken i sin URL. Dessa kan indexeras men söktjänsterna väljer att inte låta sina spindlar ge sig in i dessa då de kan innehålla s.k. spindelfällor. Dessa gillras av webbprogrammerare i spammningssyfte och kan vara ändlösa loopar där spindelprogrammen fastnar och inte kommer ut. Det finns också stora mängder webbresurser som kräver en inloggnig och det kan heller inte hanteras. Slutligen har vi de webbaserade databaserna. Eftersom spindlarna inte kan skriva in sökord kommer de inte längre än till sökformuläret. Vid en söktjänstkonferens i Boston nyligen uppgav Intelliseek och CompletePlanet att det finns i närheten av en kvarts miljon sådana databaser på webben.
Hur hittar man till och jobbar med den osynliga webben?
Ett bra sätt om man inte känner till någon bra osynlig webbresurs för det ämnesområde man är intresserad av är att använda en s.k. invisible web gateway. Detta är webbtjänster där man kan bläddra bland eller söka efter webbplatser som erbjuder osynliga webbsidor, som t.ex. databaser. De största av dessa gateways är Intelliseeks Invisibleweb.com och Profusion och CompletePlanets Completeplanet.com. Vid sidan av dessa som tävlar om tätpositionen finns en annan bra inkörsport i Librarians Index to the Internet. Efter denna inledning tog Gary Price över ordet och talade om bibliotekariernas förhållande till den osynliga webben. I förstone gäller det förstås att arbeta in en medvetenhet om dess existens och att just den information som eftersöks kan finnas där och kanske bara där. Man bör känna till de många synonymerna: the invisible web, the deep web, the hidden web etc. Det gäller också att sprida kunskapen om det dolda och att när man gör det lägga tonvikten snarare vid kvaliteten hos dessa resurser än deras i och för sig stora mängd.
Varför är den osynliga webben så värdefull för informationssökaren?
Det mest uppenbara är naturligtvis den genomgående höga informationskvalitet som genomsyrar den. Dessutom erbjuder den i allmänhet ett påtagligt fördjupat innehåll inom sina områden. Då det ofta är tal om specialinriktade databaser kan de med sin begränsade spännvidd i hög grad täcka sitt fält. De utgör också en begränsad värld av dokument där precision/recall kan maximeras. Där kan vidare finnas material som inte finns tillgängligt någon annanstans på webben. Den uttalade specialiseringen innebär att avancerade funktioner för sökning, begränsning, sortering och interaktion med datat kan finnas tillgängliga. Uppdateringsfrekvensen blir självklart en helt en annan än den som spindelprogrammen kan åstadkomma för den synliga webben.
Hur ser framtiden ut för den osynliga webben?
Det kan mycket väl tänkas att de traditionella söktjänsterna kan skriva om sina program så att de kan ge sig in i dessa webbresurser. Men frågan är om det vore bra eller dåligt? Man kan inte räkna med att alla sökfunktioner som finns kan göras tillgängliga på det sättet. Problemet med snabbheten med uppdatering kommer också att kvarstå i stor utsträckning. Det är ju just aktualitet som ska vara det som webben är bra på. Om sökaren nöjer sig att söka i den osynliga webben via en vanlig söktjänst kan det vålla bekymmer vad gäller just hur aktuell indexeringen är. Andra problem kan vara hur pass viktig den osynliga webben kommer att vara för de traditionella söktjänsterna med sina allt större krav på ekonomisk vinst från sina ägare. Är det tänkbart att en korssökning över så olikartade källor kan nå en hög funktionalitet? Det känns inte särskilt sannolikt om man t.ex. jämför med den roll som de s.k. Z39.50-gränssnitten mot bibliotekskataloger på Internet hittils har spelat med sina ganska grovhuggna sökverktyg. Givetvis skulle XML här kunna komma till undsättning om ett gemensamt gränssnittsystem utvecklas däri, men hur ska man få alla att delta i ett sådant jättelikt projekt?
Den osynliga webben - en utmaning
Det är viktigt att ha i minnet att den osynliga webben inte är frälsningen för sökaren utan bara ytterligare ett verktyg om än ett synnerligen användbart sådant. Räkna också med att det tar tid att lära sig att använda de olika källorna. Hur ska man välja vilka osynliga webbresurser man ska använda och när är det riktigt att ta till dem? Därtill utgör de en aldrig sinande ström av nya sökingångar för webbsökaren. Vi får heller aldrig glömma bort de allestädes närvarande traditionella bibliografiska forskningsdatabaserna som många gånger utgör de yttersta sökverktygen inom sina ämnen. En annan utmaning kan vara att själv skapa sina samlingar av webbtjänster från den osynliga webben. Tveka inte att bygga egna vortaler utifrån sådana, de kan bli mycket användbara både för en själv och för andra. Man kan behöva leta igenom hela webbplatser för att hitta till de osynliga resuserna. Därför är det avgörande att skapa länkar direkt till söksidorna istället för till hemsidorna. På så sätt sparar man tid för användarna och glöm inte att hålla dig väl uppdaterad. För att upprepa vad för typer av källor som det handlar om kan det vara ämnesbibliografier, bibliotekskataloger, fulltextkällor, numeriska data, grafisk information, kataloginformation (som telefon- och adressregister) och realtidsdata.
Framtida trender
Chris Sherman återtog nu ordet från Gary Price och sade att det kommer att vara utvecklandet av s.k. killer apps (tillämpningar som blir utomordentligt framgångsrika) som blir vägvisarna för framtidens utseende vad gäller den osynliga webben. Sherman nämnde som exempel det fantastiska programmet ResearchIndex från CiteSeer. Detta fungerar ungefär som en metasöktjänst men som kan ladda ner t.ex. PDF och Postscriptdokument och konvertera dem till text och extrahera referenslistor och utföra citeringsanalys både bakåt och framåt samt presentera resultatet i trädstrukturer. I takt med användarnas krav är det även troligt att de vanliga söktjänsterna kommer att jobba allt hårdare med att hitta osynligt webbinnehåll. Här kan Inktomis IndexConnect-program nämnas. Med hjälp av detta kan Inktomi åta sig att ta sig in i webbaserade databaser och göra indexeringar om webbplatsägarna lovar att inga spindelfällor finns. Förutom detta finns t.ex. ett företag som heter WhizBang som utvecklat en teknik med vad de kallar wrappers där artificiell intelligens och brute force används för att spindelprogrammet med trial-and-error ska kunna hitta en väg in i webbaserade databaser och utföra någon form av indexering av innehållet. Det finns dock inget tvivel om att den osynliga webben alltid kommer att utgöra ett problem för både sökarna och söktjänsterna.
Den osynliga webben - några exempel
För att ge åhörarna en bild av vad den osynliga webben bland annat kan innehålla presenterade Sherman som avrundning ett antal webbplatser:
- McAfee’s World Virus Map (mast.mcafee.com/mast/mass_map.asp) där man kan se hur datavirus sprids över världen i realtid
- tornado-insider.com där du finner affärsinformation och nystartade
forskningsprojekt m.m.
- kompass.com som görs av de som tillhandahåller den kända Kompass-databasen över företag i olika länder
- delphion.com som är en patentdatabas
- EuroDicAutom (eurodic.ip.lu) som är ett översättningsverktyg
- verbix.com som böjer verb på mer än 50 språk
- www.adam.ac.uk som är en art, design, architecture and media information gateway till osynligt webbinnehåll i dessa områden
- artcyclopedia.com
- www.trip.com som “ser” var i luften amerikanska flygplan befinnersig just nu
- mapblast.com och www.streetmap.co.uk som är kartdatabaser
- www.ipu.org som är en webbplats om parlamentär demokrati
- www.un.org/News som är Förenta Nationernas nyhetscentrum
Allra sist konstaterade föredragshållarna som ett svar på en fråga från publiken att regeringar och myndigheter runt om i världen i allt högre utsträckning utvecklar osynliga webbresurser i sin jakt på att spara papper. Dessa utgör i sig en inte föraktlig del av the Invisible Web.