FASTs John Lervik om framtidens sökmotorer på Internet Librarian International 2003

Den viktigaste faktorn för att bedöma ett webbdokument är länktext, sa John Lervik på Internet Librarian International 2003 i Birmingham där han som keynote speaker inledde konferensen tisdagen den 25 mars. Att analysera länktexten till en given webbsida ger en bra precision och relevans. Bara 10% av alla webbsidor har länkar till sig från externa webbplatser men interna länktexter inom en webbplats fungerar lika bra. Tillsammans med title-taggen är dessa relevanskriterier viktigare än Googles PageRank.

John Lervik sjösatte sitt företag FAST direkt efter sin examen vid Trondheim universitet i Norge 1997 och i juni 2001 börsintroducerades företaget för att alldeles nyligen bli uppköpta av sponsorsöktjänsten Overture. FASTs egen söktjänst Alltheweb.com har spindlat närmare 5 miljarder dokument och kan spindla 1-2 miljarder dokument i veckan. Alltheweb omindexeras dels dagligen, dels veckovis.

John menade att det finns ca 2-3 miljarder riktiga webbsidor där ute men att i den osynliga webben kan det finnas upp till 100 ggr fler. FAST betjänar flera hundra miljoner sökfrågor per dag, många tusen per sekund.

Vanliga frågevarianter i Alltheweb är “gula sidorna”, “almanacka” och “transaktioner”. John bedömer att Alltheweb och Google är väldigt lika i sin uppbyggnad och att det gäller för båda att 50% av alla frågor inte får något bra svar. Orsaker till detta är bl a kravet att alla sökord måste finnas med som träffar i dokumenten och alla frågevarianter utvärderas och rankas på samma sätt.

Sen nämnde Lervik tre viktiga aspekter på innehållsanalys:

  • Språk. Automatisk språkigenkänning, automatisk morfologisk normalisering och syntaktisk analys som måste göras på olika sätt för varje språk.
  • Tidsfaktorn. Det gäller dels att ta bort döda länkar ur index, dels att upptäcka nya länkar.
  • Lokalisering. Detta med söka lokalt trodde John skulle komma mer, att kunna begränsa sökning geografiskt.

Lervik pratade om vikten av att använda sökfrågornas struktur för att koppla frågor till svarsdokument. Man kan dela upp en sökfråga semantiskt i två delar. Den första kallade Lervik “the head”(huvudet) och denna är basen för sökfrågan. Den andra delen är “the container”(behållaren) som var det sätt på vilket behållaren presenterades. I en sådan modell finns det miljoner huvuden medan bara några tusen behållare. Som exempel tog Lervik sökfrågan:Bill Clinton biography, där Bill Clinton är huvud och biography behållare.

Fyra viktiga aspekter vad gäller språkanalys är:

  • Ortografisk analys – dvs stavningskontroll. När det gällde den ortografisk analysen menade Lervik att stavningskontrollen kunde ge upp till 500% ökning i recall. Han nämnde att i FASTs index fanns fler felstavningar av Schwarzenegger än förekomster av rättstavningar. Ni kanske har sett Googles dokument på felstavningar av Britney Spears.
  • Morfologisk analys – t ex lemmatisering. Dvs ord i olika böjningsform böjs till grundform. Med stemming, som Lervik inte var så positiv till, kapar man mer eller mindre bara av ordet vid en viss position medan i lemmatisering sker det en regelmässig språklig analys. Det är nödvändigt för att komma ifrån “literal matching”, dvs exakt återgivning av de sökord man angett. Detta ger mycket olika resultat för olika språk. För engelska blir det 2-3 former, för franska, tyska och spanska 5-10 former medan det för språk som ryska kan bli mer än 40 former!
  • Syntaktisk analys – Att känna igen fraser, dvs begrepp som består av mer än ett ord t ex Physical therapy, eller att undertrycka dom.
  • Semantisk analys - att förstå meningen bakom ord. Exakt samma ord kan ha olika betydelse i olika sammanhang.

Lervik såg 3 olika huvudtyper av sökfrågor.

  • Generella frågor - i allmänhet korta frågor som kan ha flera svar.
  • Problemfrågor - frågor av typen faktafrågor.
  • Specifika frågor - frågor som söker exakta formuleringar som svar.

Ett dokuments egenskaper kan delas upp i:

  • Innehållsegenskaper - saker som relativ frekvensav ord, ordens position etc
  • Formatets egenskaper - dvs storlek, datum, språk.
  • Referensegenskaper - dvs länktext, länkanalysering(t ex PageRank) och metadata.

I december förra året lanserade Alltheweb nya relevanskriterier utan att bekskriva dessa mer ingående. Lervik vidrörde detta i sitt tal när han pratade om ”Adaptive matching”. Han visade en tabell där de tre frågetyperna matchades mot dokumentegenskaperna. För en generell sökfråga som “New York” kunde referensegenskaper användas i första hand. För en mer specifik fråga som “HP printer driver LP” var innehållsegenskaper bättre att titta på. Problemfrågor var de svåraste att hantera. Exemplet var här “C source code download”. I tabellen angav Lervik att man kunde dela upp frågan i bitar för vilka olika egenskaper kunde vara optimala. John sa att 30-40% av alla frågor var av typen generella sökfrågor, medan 20-30% utgjordes av specifika frågor.

Lervik trodde inte så mycket på försöken med visualisering av sökresultat à la Kartoo. Däremot trodde han på att vid indexeringenextrahera alla användbara och meningsfulla termer från dokumenten för att använda detta i visningen av sökresultatet. Det skulle då vara signifikanta termer, personnamn, organisationer, geografiska platser m.m. Med användning av dessa skulle man kunna skapa ett slags virtuella innehållsförteckningar. Inom ramen för FAST Data Search har de gjort sådana innehållsförteckningar för Reuters räkning, även om de där skapades i realtid snarare än vid indexering. Där har man utnyttjat en teknik som FAST kallar LiveAnalytics och Dynamic DrillDown för att hantera sökset.

Lervik nämnde naturligtvis också Scirus som nu innehöll 120 miljoner webbsidor och 18 miljoner artiklar. I Scirus används många av FASTs tekniker och bl a kommer tidigare nämnda tekniker att användas där liksom bättre språkstöd med flerspråkiga fraslexikon.

Relaterade projekt som FAST är inblandade i är EASE - European Academic Search Engine där ett bibliotekskonsortium ligger bakom. Vidare Nordic Web Archive som startade 2000. Det har likheter med internetarkivet The Wayback Machine men är inte allmänt tillgänglig. Sammanfattningsvis sade Lervik att han trodde att vi kommer att få se allt fler vertikala sökmotorer, som inte täcker alla ämnesområden. Vad gäller branschen inom internetsökning kunde han intyga att detta är en oerhört dynamiskt värld som styrs mestadels av kommersiella intressen.

Läs Lerviks anteckningar till föredraget>>[PDF]

Skriv en kommentar