Arkiv för kategorin ‘Konferensrapporter’

FASTs John Lervik om framtidens sökmotorer på Internet Librarian International 2003

11 April 2003 av Lars Iselid

Den viktigaste faktorn för att bedöma ett webbdokument är länktext, sa John Lervik på Internet Librarian International 2003 i Birmingham där han som keynote speaker inledde konferensen tisdagen den 25 mars. Att analysera länktexten till en given webbsida ger en bra precision och relevans. Bara 10% av alla webbsidor har länkar till sig från externa webbplatser men interna länktexter inom en webbplats fungerar lika bra. Tillsammans med title-taggen är dessa relevanskriterier viktigare än Googles PageRank.

John Lervik sjösatte sitt företag FAST direkt efter sin examen vid Trondheim universitet i Norge 1997 och i juni 2001 börsintroducerades företaget för att alldeles nyligen bli uppköpta av sponsorsöktjänsten Overture. FASTs egen söktjänst Alltheweb.com har spindlat närmare 5 miljarder dokument och kan spindla 1-2 miljarder dokument i veckan. Alltheweb omindexeras dels dagligen, dels veckovis.

John menade att det finns ca 2-3 miljarder riktiga webbsidor där ute men att i den osynliga webben kan det finnas upp till 100 ggr fler. FAST betjänar flera hundra miljoner sökfrågor per dag, många tusen per sekund.

Vanliga frågevarianter i Alltheweb är “gula sidorna”, “almanacka” och “transaktioner”. John bedömer att Alltheweb och Google är väldigt lika i sin uppbyggnad och att det gäller för båda att 50% av alla frågor inte får något bra svar. Orsaker till detta är bl a kravet att alla sökord måste finnas med som träffar i dokumenten och alla frågevarianter utvärderas och rankas på samma sätt.

Sen nämnde Lervik tre viktiga aspekter på innehållsanalys:

  • Språk. Automatisk språkigenkänning, automatisk morfologisk normalisering och syntaktisk analys som måste göras på olika sätt för varje språk.
  • Tidsfaktorn. Det gäller dels att ta bort döda länkar ur index, dels att upptäcka nya länkar.
  • Lokalisering. Detta med söka lokalt trodde John skulle komma mer, att kunna begränsa sökning geografiskt.

Lervik pratade om vikten av att använda sökfrågornas struktur för att koppla frågor till svarsdokument. Man kan dela upp en sökfråga semantiskt i två delar. Den första kallade Lervik “the head”(huvudet) och denna är basen för sökfrågan. Den andra delen är “the container”(behållaren) som var det sätt på vilket behållaren presenterades. I en sådan modell finns det miljoner huvuden medan bara några tusen behållare. Som exempel tog Lervik sökfrågan:Bill Clinton biography, där Bill Clinton är huvud och biography behållare.

Fyra viktiga aspekter vad gäller språkanalys är:

  • Ortografisk analys – dvs stavningskontroll. När det gällde den ortografisk analysen menade Lervik att stavningskontrollen kunde ge upp till 500% ökning i recall. Han nämnde att i FASTs index fanns fler felstavningar av Schwarzenegger än förekomster av rättstavningar. Ni kanske har sett Googles dokument på felstavningar av Britney Spears.
  • Morfologisk analys – t ex lemmatisering. Dvs ord i olika böjningsform böjs till grundform. Med stemming, som Lervik inte var så positiv till, kapar man mer eller mindre bara av ordet vid en viss position medan i lemmatisering sker det en regelmässig språklig analys. Det är nödvändigt för att komma ifrån “literal matching”, dvs exakt återgivning av de sökord man angett. Detta ger mycket olika resultat för olika språk. För engelska blir det 2-3 former, för franska, tyska och spanska 5-10 former medan det för språk som ryska kan bli mer än 40 former!
  • Syntaktisk analys – Att känna igen fraser, dvs begrepp som består av mer än ett ord t ex Physical therapy, eller att undertrycka dom.
  • Semantisk analys - att förstå meningen bakom ord. Exakt samma ord kan ha olika betydelse i olika sammanhang.

Lervik såg 3 olika huvudtyper av sökfrågor.

  • Generella frågor - i allmänhet korta frågor som kan ha flera svar.
  • Problemfrågor - frågor av typen faktafrågor.
  • Specifika frågor - frågor som söker exakta formuleringar som svar.

Ett dokuments egenskaper kan delas upp i:

  • Innehållsegenskaper - saker som relativ frekvensav ord, ordens position etc
  • Formatets egenskaper - dvs storlek, datum, språk.
  • Referensegenskaper - dvs länktext, länkanalysering(t ex PageRank) och metadata.

I december förra året lanserade Alltheweb nya relevanskriterier utan att bekskriva dessa mer ingående. Lervik vidrörde detta i sitt tal när han pratade om ”Adaptive matching”. Han visade en tabell där de tre frågetyperna matchades mot dokumentegenskaperna. För en generell sökfråga som “New York” kunde referensegenskaper användas i första hand. För en mer specifik fråga som “HP printer driver LP” var innehållsegenskaper bättre att titta på. Problemfrågor var de svåraste att hantera. Exemplet var här “C source code download”. I tabellen angav Lervik att man kunde dela upp frågan i bitar för vilka olika egenskaper kunde vara optimala. John sa att 30-40% av alla frågor var av typen generella sökfrågor, medan 20-30% utgjordes av specifika frågor.

Lervik trodde inte så mycket på försöken med visualisering av sökresultat à la Kartoo. Däremot trodde han på att vid indexeringenextrahera alla användbara och meningsfulla termer från dokumenten för att använda detta i visningen av sökresultatet. Det skulle då vara signifikanta termer, personnamn, organisationer, geografiska platser m.m. Med användning av dessa skulle man kunna skapa ett slags virtuella innehållsförteckningar. Inom ramen för FAST Data Search har de gjort sådana innehållsförteckningar för Reuters räkning, även om de där skapades i realtid snarare än vid indexering. Där har man utnyttjat en teknik som FAST kallar LiveAnalytics och Dynamic DrillDown för att hantera sökset.

Lervik nämnde naturligtvis också Scirus som nu innehöll 120 miljoner webbsidor och 18 miljoner artiklar. I Scirus används många av FASTs tekniker och bl a kommer tidigare nämnda tekniker att användas där liksom bättre språkstöd med flerspråkiga fraslexikon.

Relaterade projekt som FAST är inblandade i är EASE - European Academic Search Engine där ett bibliotekskonsortium ligger bakom. Vidare Nordic Web Archive som startade 2000. Det har likheter med internetarkivet The Wayback Machine men är inte allmänt tillgänglig. Sammanfattningsvis sade Lervik att han trodde att vi kommer att få se allt fler vertikala sökmotorer, som inte täcker alla ämnesområden. Vad gäller branschen inom internetsökning kunde han intyga att detta är en oerhört dynamiskt värld som styrs mestadels av kommersiella intressen.

Läs Lerviks anteckningar till föredraget>>[PDF]

Nyheter från Internet Librarian International 2003

27 Mars 2003 av Lars Iselid

- Google är inte allt, glöm inte bort de specialiserade söktjänsterna, sa Gary Price den inledande dagen av konferensen Internet Librarian International 2003. De första dagarna har präglats av en samstämmig kör som försöker ta ned Google på jorden och visa på dess brister och andra sökverktygs fördelar.
Självaste John Lervik, grundare till FAST (Alltheweb), tyckte bland annat att Googles PageRank är överskattat. Inte så konstigt kanske. Han hävdade istället att det är texten i en länk som är det viktigaste relevanskriteriet. Gary Price som pratat med folket bakom Overture som numer äger både Altavista och FAST såg ingen som helst fara med det nya ägarskapet. Tvärtom. Randolph Hock som pratade om täckning och överlappning mellan söktjänster menade att istället för att hoppa över till nästa söktjänst kan det räcka med att omformulera frågan, vilket nog många också redan gör. Han varnade i vanlig ordning för metasöktjänster, som inte är en naturlig genväg till de bästa svaren. Mary Ellen Bates höll en högklassig föreläsning om frågor som egentligen är omöjliga att svara på men som hon ändå lyckats svara på. Till slut. Marydee Olaja pratade om betaltjänsters vara och icke vara och menade att man bör använda både och. Tid är pengar, därför kan det vara värt att betala för att få en artikel fort. Mer rapporter från konferensen kommer senare.

Gary Price: The invisible web and specialised search engines - Seminarium från den 3:e december 2001 vid Online Information 2001, London

2 Januari 2002 av Lars Iselid

“Bygg din egen länksamling, du kan ändå inte förlita dig på en enda söktjänst”. Det var ett av de tydligaste budskapen Gary Price förmedlade åhörarna under sin föreläsning om specialiserade söktjänster och osynliga webben. Begreppet den osynliga webben har blivit alltmer känt bland professionella sökare och även om den osynliga webben tids nog kommer att bli allt mer synlig så kommer det alltid att finnas vissa former av “osynligheter”. Gary Price har tillsammans med Chris Sherman skrivit en bok i ämnet och de driver tillsammans webbtjänsten invisible-web.net.

Gary Price pratade redan i våras tillsammans med Chris på Internet Librarian International 2001 om osynliga webben vilket vi skrev en artikel om den 15:e april. Tänkte försöka att inte upprepa för mycket från det föredraget här.

Gary pratade stolt om sin bakgrund som bibliotekarie vid George Washington University och att han:“..är bibliotekarie och tänker som en bibliotekarie”. Tyvärr hade han åkt på en förkylning och rösten bar med nöd och näppe dagen ut.

Första gången jag själv hörde talas om Gary var för några år sedan på webbplatsen Websearch.about.com som Chris Sherman då var redaktör för. I en intervju fick Gary ge några professionella söktips och en av dessa var närhetsoperatorn near i Altavistas avancerade sökformulär som jag då inte kände till. De mest intressanta tipsen han förmedlade denna gång för min egen del var följande:

  • Google indexerar inte hela webbsidor (ofta inte mer än 100 KB) men hela PDF-dokument
  • Google sparar numer ingen kopia av Washington posts webbsidor av upphovsrätts-skäl.
  • Google som presenteras i metasöktjänster som Metor är Google via Yahoo. Det vill säga inte ordinarie Google utan en del av Google som Yahoo köper från Google.
  • När man skriver in en sökfråga i Google dyker sökorden upp i samma blåa rad som antalet träffar presenteras i. Är ordet understruket kan man klicka på det och man får upp en förklaring i dictionary.com.
  • Tjänsten Backflip.com rekommenderades för att bygga en egen länksamling.

I övrigt beskrev han hur man kan testa om en dynamiskt genererad webbsida som ligger i en databas är en del av den osynliga webben. En mer ingående beskrivning finns i den ammans med Chris Sherman med den självklara titeln:”The invisible web”. Han gjorde också en uppdelning av webben i fyra olika typer: opaka webben (sidor som kan indexeras men ändå inte indexeras), privata webben(bl a sidor som har lösenordsskyddats), “proprietary web”(bl a sidor som kräver registrering) och den helt osynliga webben(sidor som ej går att indexera av tekniska skäl).

David Green: Developments in web searching - Referat från ett föredrag den 4:e december 2001 vid Online Information 2001, London

21 December 2001 av Lars Iselid

“Sökning på webben idag innebär vanlig ordmatchning, index som är dåligt uppdaterade, dokument som främst är av formaten HTML och PDF samt en datormiljö som är traditionell klient-server.” Detta konstaderade David Green från Andersen, i sitt anförande. Han är bland annat känd för att ha skrivit den utmärkta och prisbelönta artikeln “The evolution of web searching” i Online information Review 2000 24(2): 124-137. En av de få artiklar jag själv brukar rekommendera mina elever när jag undervisar om sökning på webben. Greens meritlista är naturligtvis längre än så här men låt oss istället höra vad han siade om framtiden.

“Imorgon kommer sökningen på webben att bygga mer på koncept än ordmatchning, indexen uppdateras i real-tid, innehållet ges större innebörd tack vare XML, sökresultat hämtas från fler källor, visualiseringen av sökresultat kommer också att ge större möjligheter till att se relationer, fler dokumenttyper blir sökbara och man kommer åt vadsomhelst varsomhelst tack vare tekniker som peer-to-peer.” Ett tag lät det väldigt profetiskt och han verkade se med optimism på framtiden.

Han pratade sig varm för semantiska webben och tryckte på att det inte bara handlar om metadata utan mycket mer. Artificiell intelligens(AI) lät han också positiv till och han menade att det kommer vare sig vi vill eller inte. Svenska söktjänsten Vill bygger ju på grundforskning inom AI. Visst insåg han också farhågorna med AI och han siade också om att framtida vanliga brott kan bli stöld av persondata som sammanställts av söktjänster med inbyggd AI. Skillnaden mellan den osynliga webben och den synliga skulle tids nog försvinna också.

Den som lever får se… Nej, jag menar den som inte överger Nätet får se, en vacker eller kanske kolsvart vinterkväll som denna.

Greg Notess: Web search engines: Changes and current condition - Referat från ett föredrag den 4:e december 2001 vid Online Information 2001, London

11 December 2001 av Lars Iselid

“Är det någon här som använder Overture när ni söker på webben?”, frågade Greg Notess publiken retoriskt i inledningen med ett svagt leende. Overture är mer känd under dess forna namn Goto.com, men är fortfarande en tjänst där träffarna i sökningarna är sponsrade. Den som bjuder högst på vissa sökord kommer högst upp i träfflistan. Kan ni gissa vem som kommer högst på en sökning på ordet “books”? Hmmm? Amazon.com så klart! Greg kallade skämtsamt nya Goto, det vill säga Overture, för Goverture.

I och med att det blivit allt svårare för söktjänsterna att få det att gå runt har också nedskräpningen av träffar från Overture blivit vardagsmat, berättade Greg. Men det är inte så lätt att upptäcka. Han tipsade att om man befarade att en viss träff var sponsrad så går det lätt att undersöka genom att titta på själva länken, genom att föra musen över densamma. Finns ordet overture med så är den med 99% säkerhet sponsrad. Testa till exempel iWon och sökord som “books” eller “cars”. Mer om detta kan du läsa i en artikel på Internetbrus från 8:e december.

Han berättade också att Altavista börjat erbjuda webbplatsägare att placera sin logo på de träffar som kommer upp i träfflistan. Läs mer om detta på Altavistas webbplats.

Greg räknade upp 8 större sökmotorer som fortfarande har sina egna index:

Med tanke på de svårigheter som sökmotorerna har idag gladde sig Greg över att två uppstickare med intressanta lösningar dykt upp under året, nämligen Teoma och WiseNut. Den förra nyligen uppköpt av AskJeeves har fortfarande ett litet index som ännu inte uppdaterats sedan AskJeeves’ förvärv. I övrigt såg Greg ljust på framtiden för sökmotorer, särskilt med tanke på Teomas och WiseNuts intåg, trots att vissa söktjänster försvunnit och att vissa förändrats och kommersialiserats ännu mer. För er som vill veta mer om Teoma och WiseNut kan läsa en artikel på Internetbrus den 9/9 i år.

Web wizards symposium: Search engine panel.Referat från paneldiskussion den 28:e mars 2001 vid Internet Librarian International 2001, London

8 Juni 2001 av Lars Våge

Några av de mest framträdande experterna på internetsökning kom samman som en avslutning på Web Wizards Symposium under en konferens i London i sluteta av mars. Detta var vad de hade att säga:

Danny Sullivan inleder lite provokativt med att säga att det bästa tipset man kan lämna vad gäller söktjänster är att inte använda dem. Sök i 10 minuter med dem och gå sedan tillbaka till dina traditionella källor. Allt finns absolut INTE på Internet.

Gary Price inflikar då att det finns ca bibliografiska 100 databaser tillgängliga på universitetet där han jobbar, men om professorn skall ge sina doktorander råd om hur de ska finna information så säger han: Sök på Internet! Så de traditionella databaserna behöver sannerligen säljas.
Price säger också att man bör däremot absolut använda Internet för att få fram emailadresser och telefonnummer till personer som man kan kontakta rörande det ämne man intersserar sig för och på det sättet få tips om bra dokument.

Chris Sherman menar att ett av de största problemen med Internet att det förekommer en hel del fiktion som utger sig för att vara sanning på nätet. Detta kommer antagligen att öka, dvs att människor/grupper “manipulerar verkligheten” genom att lägga ut en massa webbdokument som underbygger en “viss sanning”. Jämför med fallet “Who killed Bill Gates?”.

Nu kommer en fråga från publiken om den s.k. semantiska webben som Tim Berners-Lee jobbar med och propagerar för. Kommer detta verkligen att kunna bli verklighet?
Danny Sullivan tar frågan och besvarar den med ett nej. Han menar att allting hänger på metadata för att göra fältsökning möjlig. Sexsajterna kommer att ge sig på metadatat. Sökmotorer litar inte på metadata och de har alla anledning till att inte göra det. Sullivan tillägger dock att kanske tidigare nämnda “paid inclusions! kan bana väg för att de ska kunna lita på vissa metadata.

Greg Notess säger om metadata som Dublin Core m.fl. att han verkligen inte vill att sökmotorerna ska indexera metadata. Det ger alldeles för mycket bränsle för porrindustrin att börja utnyttja metadata på ett felaktigt sätt. Att ange falska keywords för sina egna syften kan bli en högt utvecklad sport.
Det är klart att man trots detta kan tänka sig specialiserade söktjänster med enbart “trusted web content” där metadata kan fungera. Dessutom finns ju också Inktomis Index Connect där vi ser det genomföras i generella sökmotorer, men mot betalning.
Notess fortsätter och säger att frågan är var en kontrollerad vokabulär för metadata på webben ska komma ifrån? Library of Congress ämnesord är exempelvis hopplöst inaktuella. Hur ska vi kunna få en enhetlig källa för kontrollerade termer som gäller över språkgränserna på webben!? Och vem ska bestämma om vilken källa som ska gälla som standard? Och hur ska du få folk att använda den?

Steve Arnold kommenterar angående sökning överhuvudtaget, att 1981 bedömdes det att man hade ca 60% chans att finna det man sökte med hjälp av t.ex. DIALOG, 1990 hade chansen minskat till 40% och nu är vi nere i något i stil med 20%. Längre bak i tiden fanns det väsentligt fler mekanismer som begränsade hur “pekare” mot elektroniska dokument fick se ut. Tyvärr lär det nog inte återigen bli lättare att söka inom kort, om det nu alls kommer att bli lättare i framtiden. Och vad kommer att hända med dokument på asiatiska språk, när kommer de att börja indexeras? Det finns oerhörda mängder information att hämta där.

Publiken frågade därnäst vad panelen tyckte om företaget Autonomys produkter där s.k. patterns snarare än keywords användes som bas för sökningen. Greg Notess svarade att det nog fungerar bättre på intranät med en känd samling dokument. Att det i övrigt nog inte är så många av de som utvecklar världstäckande söktjänster som tänder på deras modell.

Chris Sherman menade att det sannolikt fanns större intresse för s.k. meaning-based search och NLP (natural language processing). Personligen var han mycket imponerad av Microsofts .net-teknik tilsammans med XML. Kanske skulle detta kunna ge förutsättningar för en bättre internetsökning vad det lider.

Danny Sullivan säger att det är slutanvändaren som i slutändan avgör vad som är bra och vad som inte är det. Det spelar egentligen inte så stor roll vad som händer inuti söktjänsten. I frågan om Autonomys pattern-matchning var bättre, trodde han inte det om sökfältet var hela Internet, men förmodligen skulle det kunna lyckas mycket bra i intranät-lösningar.

Greg Notess kunde inte hålla med Sullivan om att det inte spelade någon roll vad som hände “under huven” hos söktjänsten utan att det var viktigt att vi förstod det. F.ö. behövdes en mycket kraftig förbättring inom “site searching”, på tal om Autonomy.

Steve Arnold fick sista ordet och konstaterade att det finns en hel del företag nuförtiden som låter personalen själva välja sökteknologi för deras egen organisation. Det är en mycket lovande trend och Arnold tillade att inom vissa företag tilläts t.o.m. flera sökteknologier finnas sida vid sida.

Chris Sherman, Gary Price: The Invisible Web.Referat från föredraget den 28:e mars 2001 vid Internet Librarian International 2001, London

15 April 2001 av Lars Våge

Föredraget som hölls av Chris Sherman (redaktör för websearch.about.com och inom kort Associate Editor vid searchenginewatch.com) och Gary Price (vid Washington State University och mannen bakom DirectSearch) inleddes med att Sherman visade en grafisk framställnig av hur de traditionella sökmotorerna fungerar. Med detta som bakgrund grep han sig så an huvudämnet:

Vad är den osynliga webben?

Den osynliga webben utgörs av webbsidor som sökmotorernas spindelprogram inte kan eller inte vill indexera i sin databas. Det uppskattas att denna del av webben är 2-50 gånger större än den “synliga”. Utmärkande är att dessa resurser är av mycket högre genomsnittlig kvalitet. Vad är det då för webbdokument som döljer sig för de traditionella sökmotorerna? Först och främst är det filformat som exempelvis PDF, Flash, Office och strömmande media. De kan inte
behandlas av den enkla anledningen att de inte är i html-format och spindlarna hanterar endast html än så länge. Från och med februari i år har dock Google börjat indexera PDF i stor skala (de är nu uppe i omkring 25 miljoner PDF-dokument). En annan grupp av dokument är de som byggs upp av s.k. realtidsdata. Det kan vara aktiekurser, väderinformation och flyginformation. Dessa data är mycket flyktiga och snabbt föränderliga varför en frekvent indexering skulle ta upp oerhört mycket lagringsutrymme. Vidare finns alla dynamiskt genererade webbsidor som skapas av skriptspråk som asp, php, cgi och även javascript. Dit hör de flesta webbsidor som har ett frågetecken i sin URL. Dessa kan indexeras men söktjänsterna väljer att inte låta sina spindlar ge sig in i dessa då de kan innehålla s.k. spindelfällor. Dessa gillras av webbprogrammerare i spammningssyfte och kan vara ändlösa loopar där spindelprogrammen fastnar och inte kommer ut. Det finns också stora mängder webbresurser som kräver en inloggnig och det kan heller inte hanteras. Slutligen har vi de webbaserade databaserna. Eftersom spindlarna inte kan skriva in sökord kommer de inte längre än till sökformuläret. Vid en söktjänstkonferens i Boston nyligen uppgav Intelliseek och CompletePlanet att det finns i närheten av en kvarts miljon sådana databaser på webben.

Hur hittar man till och jobbar med den osynliga webben?

Ett bra sätt om man inte känner till någon bra osynlig webbresurs för det ämnesområde man är intresserad av är att använda en s.k. invisible web gateway. Detta är webbtjänster där man kan bläddra bland eller söka efter webbplatser som erbjuder osynliga webbsidor, som t.ex. databaser. De största av dessa gateways är Intelliseeks Invisibleweb.com och Profusion och CompletePlanets Completeplanet.com. Vid sidan av dessa som tävlar om tätpositionen finns en annan bra inkörsport i Librarians Index to the Internet. Efter denna inledning tog Gary Price över ordet och talade om bibliotekariernas förhållande till den osynliga webben. I förstone gäller det förstås att arbeta in en medvetenhet om dess existens och att just den information som eftersöks kan finnas där och kanske bara där. Man bör känna till de många synonymerna: the invisible web, the deep web, the hidden web etc. Det gäller också att sprida kunskapen om det dolda och att när man gör det lägga tonvikten snarare vid kvaliteten hos dessa resurser än deras i och för sig stora mängd.

Varför är den osynliga webben så värdefull för informationssökaren?

Det mest uppenbara är naturligtvis den genomgående höga informationskvalitet som genomsyrar den. Dessutom erbjuder den i allmänhet ett påtagligt fördjupat innehåll inom sina områden. Då det ofta är tal om specialinriktade databaser kan de med sin begränsade spännvidd i hög grad täcka sitt fält. De utgör också en begränsad värld av dokument där precision/recall kan maximeras. Där kan vidare finnas material som inte finns tillgängligt någon annanstans på webben. Den uttalade specialiseringen innebär att avancerade funktioner för sökning, begränsning, sortering och interaktion med datat kan finnas tillgängliga. Uppdateringsfrekvensen blir självklart en helt en annan än den som spindelprogrammen kan åstadkomma för den synliga webben.

Hur ser framtiden ut för den osynliga webben?

Det kan mycket väl tänkas att de traditionella söktjänsterna kan skriva om sina program så att de kan ge sig in i dessa webbresurser. Men frågan är om det vore bra eller dåligt? Man kan inte räkna med att alla sökfunktioner som finns kan göras tillgängliga på det sättet. Problemet med snabbheten med uppdatering kommer också att kvarstå i stor utsträckning. Det är ju just aktualitet som ska vara det som webben är bra på. Om sökaren nöjer sig att söka i den osynliga webben via en vanlig söktjänst kan det vålla bekymmer vad gäller just hur aktuell indexeringen är. Andra problem kan vara hur pass viktig den osynliga webben kommer att vara för de traditionella söktjänsterna med sina allt större krav på ekonomisk vinst från sina ägare. Är det tänkbart att en korssökning över så olikartade källor kan nå en hög funktionalitet? Det känns inte särskilt sannolikt om man t.ex. jämför med den roll som de s.k. Z39.50-gränssnitten mot bibliotekskataloger på Internet hittils har spelat med sina ganska grovhuggna sökverktyg. Givetvis skulle XML här kunna komma till undsättning om ett gemensamt gränssnittsystem utvecklas däri, men hur ska man få alla att delta i ett sådant jättelikt projekt?

Den osynliga webben - en utmaning

Det är viktigt att ha i minnet att den osynliga webben inte är frälsningen för sökaren utan bara ytterligare ett verktyg om än ett synnerligen användbart sådant. Räkna också med att det tar tid att lära sig att använda de olika källorna. Hur ska man välja vilka osynliga webbresurser man ska använda och när är det riktigt att ta till dem? Därtill utgör de en aldrig sinande ström av nya sökingångar för webbsökaren. Vi får heller aldrig glömma bort de allestädes närvarande traditionella bibliografiska forskningsdatabaserna som många gånger utgör de yttersta sökverktygen inom sina ämnen. En annan utmaning kan vara att själv skapa sina samlingar av webbtjänster från den osynliga webben. Tveka inte att bygga egna vortaler utifrån sådana, de kan bli mycket användbara både för en själv och för andra. Man kan behöva leta igenom hela webbplatser för att hitta till de osynliga resuserna. Därför är det avgörande att skapa länkar direkt till söksidorna istället för till hemsidorna. På så sätt sparar man tid för användarna och glöm inte att hålla dig väl uppdaterad. För att upprepa vad för typer av källor som det handlar om kan det vara ämnesbibliografier, bibliotekskataloger, fulltextkällor, numeriska data, grafisk information, kataloginformation (som telefon- och adressregister) och realtidsdata.

Framtida trender

Chris Sherman återtog nu ordet från Gary Price och sade att det kommer att vara utvecklandet av s.k. killer apps (tillämpningar som blir utomordentligt framgångsrika) som blir vägvisarna för framtidens utseende vad gäller den osynliga webben. Sherman nämnde som exempel det fantastiska programmet ResearchIndex från CiteSeer. Detta fungerar ungefär som en metasöktjänst men som kan ladda ner t.ex. PDF och Postscriptdokument och konvertera dem till text och extrahera referenslistor och utföra citeringsanalys både bakåt och framåt samt presentera resultatet i trädstrukturer. I takt med användarnas krav är det även troligt att de vanliga söktjänsterna kommer att jobba allt hårdare med att hitta osynligt webbinnehåll. Här kan Inktomis IndexConnect-program nämnas. Med hjälp av detta kan Inktomi åta sig att ta sig in i webbaserade databaser och göra indexeringar om webbplatsägarna lovar att inga spindelfällor finns. Förutom detta finns t.ex. ett företag som heter WhizBang som utvecklat en teknik med vad de kallar wrappers där artificiell intelligens och brute force används för att spindelprogrammet med trial-and-error ska kunna hitta en väg in i webbaserade databaser och utföra någon form av indexering av innehållet. Det finns dock inget tvivel om att den osynliga webben alltid kommer att utgöra ett problem för både sökarna och söktjänsterna.

Den osynliga webben - några exempel

För att ge åhörarna en bild av vad den osynliga webben bland annat kan innehålla presenterade Sherman som avrundning ett antal webbplatser:

  • McAfee’s World Virus Map (mast.mcafee.com/mast/mass_map.asp) där man kan se hur datavirus sprids över världen i realtid
  • tornado-insider.com där du finner affärsinformation och nystartade
    forskningsprojekt m.m.
  • kompass.com som görs av de som tillhandahåller den kända Kompass-databasen över företag i olika länder
  • delphion.com som är en patentdatabas
  • EuroDicAutom (eurodic.ip.lu) som är ett översättningsverktyg
  • verbix.com som böjer verb på mer än 50 språk
  • www.adam.ac.uk som är en art, design, architecture and media information gateway till osynligt webbinnehåll i dessa områden
  • artcyclopedia.com
  • www.trip.com som “ser” var i luften amerikanska flygplan befinnersig just nu
  • mapblast.com och www.streetmap.co.uk som är kartdatabaser
  • www.ipu.org som är en webbplats om parlamentär demokrati
  • www.un.org/News som är Förenta Nationernas nyhetscentrum

Allra sist konstaterade föredragshållarna som ett svar på en fråga från publiken att regeringar och myndigheter runt om i världen i allt högre utsträckning utvecklar osynliga webbresurser i sin jakt på att spara papper. Dessa utgör i sig en inte föraktlig del av the Invisible Web.

Danny Sullivan: Search engines: what’s new and hot. Rapport från ett föredrag hållet den 28:e mars 2001 vid Internet Librarian International 2001, London

10 April 2001 av Lars Våge

Danny Sullivan är redaktör för Searchenginewatch.com och Search Engine Report. Klockan 9 inledde Sullivan iförd beige kostym, blå skjorta och en otroligt mångfärgad slips sitt föredrag, som också var key-note speech för dagen. Han höll hela tiden ett mycket högt tempo, som på slutet accelererade till ett rent racer-tempo. Uppenbarligen ville han som det proffs han är hålla tiden samtidigt som han hade mycket att säga. Tyvärr hade han inte lyckats skicka in sin presentation så att den hade kommit med i konferensdokumentationen och det blev till att anteckna så att pennan glödde. Det utlovades dock att den skulle läggas upp på arrangörens webbplats infotoday.com kort efter konferensen. Sullivan jobbar för Calafia Consulting och reser mycket och föreläser om söktjänster. Hans första reflektion var att just nu händer inte något riktigt nytt och häftigt inom söktjänst-världen. Annat var det förra året.

De traditionella sökverktygen håller på att förbättras lite i taget, inte med radikala förändringar, för ögonblicket åtminstone. Förra årets kometer på söktjänsthimlen som skulle ersätta de befintliga söktjänsterna har falnat. Däremot har revolutionen med “paid participation” fortsatt liksom de specialiserade söktjänsterna (vertikala portaler, vortaler) har ökat i betydelse och verkar vara dit internetsökningen rör sig.

Det heta som hände förra året var exempelvis att nya verktyg började göra pengar på sökning - som AskJeeves som genomförde en börsintroduktion. Googles succé hjälpte de traditionella söktjänsterna att förstå att sökning är en populär aktivitet (nr 2 i popularitet på nätet) - något som visats i Altavistas och Excites hjälpte de traditionella söktjänsterna att förstå att sökning är en populär aktivitet (nr 2 i popularitet på nätet) - något som visats i Altavistas och Excites kursomläggnigar. Dot.com-bubblan sprack under senare delen av året och vi fick en allmän nedgång för internetföretagen.

Under 2001 har en kraschlandning skett även om sökning fortfarande är hett, men investerarna är kallsinningare och vill se att man börjar tjäna pengar. Om inte så lär det gå som för Infoseek och go.com som gick i graven under första kvartalet. Detta betyder att söktjänster med goda idéer inte kommer att yckas såvitt de inte funderar ut ett sätt som gör att de kan ge vinst. Vad som verkar vara en lysande idé kanske inte alltid är det.

Hur går det då för förra årets trender? Förra året talades det mycket om

  • Sökhjälpmedel (search companions)
  • Bokmärkesbaserade söktjänster
  • Community search
  • P2P eller peer-to-peer

Dessa har utmålats i nätpressen som “search engine killers” som ska slå ut de traditionella söktjänsterna.
Exempel på hype från år 2000

  • octopus.com (spåddes en lysande framtid av news.com)
  • kenjin.com (Autonomys produkt beskrevs som nådastöten för de gamla söktjänsterna i The Guardian)
  • infrasearch.com (Produkten som skulle göra mot Yahoo och Altavista vad Napster gjort mot skivindustrin fanns aldrig egentligen färdig och teknologin har nu köpts upp av Sun Microsystems)

Sökhjälpmedel (search companions): applikationer, mestadels browser plugins, som hjälper till att upptäcka/slå upp information på nätet.

  • GuruNet är nu atomica.com och riktar sig mer mot företagsvärlden
  • FlySwat köptes av NBCi och heter nu NBCi QuickClick, men kommer det att gå bra för dem efter avskedandena vid NBCi?
  • Kenjin skulle göra sökmaskiner obsoleta. Så blev det ju inte och f.ö. har Alexa varit bra på liknande sätt och kom redan 1998. Problemet med Autonomys produkter tycker Sullivan är att du måste ha ett bra dokument att starta ifrån för att det skall fungera och vad händer om man inte har ett sådant? Då måste du använda en traditionell sökmotor för att hitta detta!
  • Googles Toolbar är den enda som har hållit och kan livligt rekommenderas
  • Zapper kan vara värd att kika på. Sullivan har inte provat den men företaget finns kvar och verkar satsa vidare på produkten

Ge oss dina bokmärken ska vi bygga en söktjänst från dem! Detta var vad hotlinks.com och backflip.com gjorde, men den ena har ingen finansiell backning längre och den andra har ändrat riktning mot företagsvärlden

Community-built directories

Kommer de att lyckas och bestå?

  • Open Directory Project (dmoz.org) har otvivelaktigt lyckats storartat
  • zeal.com köptes upp av LookSmart som står för finansiering och därmed eventuell överlevnad
  • Clip2 och BuzzNotes har båda ändrat väg
  • octopus.com erbjuder fortfarande intressanta vyer

Napsters framgång sålde historien om P2P-baserad sökning som en förmodad succé men när internetvärlden i stort blandas in kommer “the bad guys” att spräcka drömmen. De flesta underskattar sexindustrins otroliga målinriktning när det gäller att manipulera söktjänster för sina ändamål. Traditionella söktjänster erbjuder en bra barriär mot dessa och dessutom mycket snabbare svarstider än vad P2P-baserad sökning någonsin kan hoppas uppnå. Sullivan tror däremot att P2P-lösningar är tänkbara för intranetsökning och mycket specialiserade webb-baserade dokumentsamlingar.

Vi älskar att gnälla på sökmaskiner liksom vi älskar att klaga på vädret, men de hjälper oss faktiskt att hitta saker, allt medan nya verktyg får bra mottagande av pressen trots att de tenderar att inte vara särskilt långlivade. Vi kan bara hoppas att de bästa kan överleva. Tiderna håller på att bli hårdare för dem. Så vad händer med de traditionella sökverktygen?

Överlevnad först för de stora söktjänsterna

När reklaminslagen minskar kommer företagen att titta åt andra håll för att hitta vinster. Det som skulle rädda söktjänsterna 1997-98 (idén med portalernas ekommers-lösningar) fungerade inte för dem. Paid participation är å andra sidan en växande marknad som faktiskt initierar en nödvändig konversation mellan söktjänster och webbplatsägare. För söktjänsterna gäller att om de inte kan få användarna att stanna kvar med hjälp av portallösningar, hur ska de kunna tjäna pengar på att användarna klickar sig bort från söktjänsten?

Betala för att få vara med

Här följde en längre framställning från Sullivan om de olika varianter av “paid partcipation” som numera förekommer. De olika begreppen “paid placement”, “paid submission” och “paid inclusion” förklarades liksom problem och faror för söktjänsternas utveckling beskrevs. Detta är dock av mer intresse för webbplatsutvecklare än sökare. Det var i alla fall Sullivans uppfattning att så länge de “betalda” länkarna är väl markerade som sådana är det kanske inte något att oroa sig alltför mycket för.

De stora söktjänsterna: statusrapport

  • En har gått förlorad, go.com (med Infoseek och Go:s egen webbkatalog)
  • De övriga lever vidare
  • Google är fortsatt stark, de tjänar pengar och nya sökfunktioner tillkommer (PDF, UseNet, översättningar)
  • Inktomi har i det tysta uppgraderat sin teknologi. Numera används human modeling i relevansrankningen
  • Excite har nyss lanserats sitt Zoom In Refinement Tool. Inget riktigt nytt under solen men det är alltid något
  • Altavista har åter riktat fokus mot sökningen och gjort en del förändringar bakom kulisserna

Specialsöktjänsterna (vortalerna) är på stark frammarsch

Exempel på lyckade vertikala portaler:

  • lawcrawler.com - juridisk information
  • moreover.com - nyhetssökning
  • Lycos MP3 Search - musiksökning
  • mysimon.com - shoppingsökning

Vi kommer att få se fler självständiga vortaler liksom större inslag av vertikal sökning som delar av de stora söktjänsterna

Ingångar mot den osynliga webben

Det har börjat dyka upp förslag på bra källor för sökning mot osynliga webbresurser

  • som nyhetsdatabaser (hos Altavista och Google)
  • som medicinska databaser (hos Profusion)
  • som faktadatabaser (hos Iwon)

Söktjänsterna får bara försiktiga så de inte tar alltför stor kontroll över sökningen med sina förslag.

Sullivans sammanfattning

  • Vi ser färre nya heta sökverktyg och kanske var de inte så heta ändå
  • De traditionella söktjänsterna ökar sin användbarhet, t.ex. med listor över relaterade sökningar och stavningskontroll
  • Visandet av vägar in i den osynliga webben ökar

Sullivan ökade tempot furiöst på slutet och några frågor hanns tyvärr inte med, även om han erbjöd sig att tala med folk i foajén efter föreläsningen. Mitt slutintryck av hans föredrag var att vi är inne i en skakig period av söktjänstutvecklingen, där en del söktjänster utvecklas och konsolideras medan andra dör eller köps upp av stora drakar som använder deras teknologi i sina egna projekt.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator