Arkiv för kategorin ‘Alltheweb/FAST’

Altavista och Alltheweb blir ett innan årets slut

7 Maj 2003 av Lars Våge

Under de sista veckorna i april blev det kommersiella sökföretaget Overtures planerade uppköp av både Altavista och webbsökningsdelen av FAST klara. Ännu har det inte dykt upp någon Overture-logotyp på Alltheweb eller Altavista och inte har det skett någon annan synlig förändring. Men i pressreleasen den 28 april som rör Altavista-affären skriver man att att man planerar att utveckla “a common platform for its new Web search product before the end of 2003 and will continue to operate both Altavista and FAST’s search engines separately until that time”. Man har också bestämt att Altavistas chef, Jim Barnett, ska leda Overtures satsning på det som man kallar “algorithmic search”. Det sistnämda uttrycket står för att det finns en relevansrankingsalgoritm bakom vilka webbplatser som får höga placeringar i träfflistorna (snarare än vem som betalar mest bland hugade annonsörer). I pressreleasen från den 21 april som rörde köpet av delar av FAST sade deras Tim Mayer, som nu ska jobba hos Overture, att det uppköpet kommer att ge Overture resurser att bli ledande vad gäller “search relevance, index size and freshness of content”. Det är svårt att tro annat än att de samlade kunskaperna och den avancerade teknologi som Overture nu har till sitt förfogande kan resultera i annat än en mycket kraftfull sökmotor. Synd bara att antalet större sökmotorer att välja på för oss användare efter årets slut verkar bli ännu färre.

Du kan räkna med Alltheweb

2 Maj 2003 av Lars Våge

Har du glömt miniräknaren hemma och sitter på ett internetcafé där du inte kan använda datorns kalkylator? Hav tröst och räkna med sökmotorn Alltheweb istället. Nej det är inget skämt och ja det är lite nyhetstorka just nu på söktjänstfronten. I alla fall är det som så att när Alltheweb lanserade sin senaste uppgradering av sökmotorn för två veckor sedan tillkom en funktion som det inte sades något om i pressreleasen eller som hamnade på hjälpsidorna. Naturligtvis snappades den trots detta upp av den inbitne nagelfararen av sökmotorer Greg Notess och nu för vi hemligheten vidare. Så här är det alltså:
Om du skriver t.ex. 24*56 i sökrutan och trycker på Enter multiplicerar Alltheweb för dig, om du skriver 3567/55 så dividerar sökmotorn för dig o.s.v. Du kan använda parenteser för att gruppera matematiska uttryck och t.o.m. använda potenser, skriv t.ex. 2^32 för att få veta vad 2 upphöjt i 32 är. Värdelöst vetande?

Navigera i sökmotorn Alltheweb med tangentbordet

18 April 2003 av Lars Våge

För de som tycker om att använda tangentkombinationer istället för att klicka med musen hela tiden har sökmotorn Alltheweb kommit med en välkommen nyhet. Trots att Alltheweb håller på att säljas till Overture fortsätter man alltså oförtrutet att innovera och vänner av ergonomi kommer att gilla Alltheweb Keyboard Shortcuts. För att använda dessa måste man ta sig till sidan Keyboard Shortcuts under Customize Preferences. Här aktiverar man funktionaliteten genom att klicka i Enable i rutan Enable Keyboard Shortcuts. Sedan är det bara att bestämma vilka tangentkombinationer man vill ha för ett antal olika funktioner. Den tangent man väljer i rutorna längre ner på formuläret skall kombineras med Alt-tangenten. Glöm inte att klicka på Save and apply settings.

Det finns 11 manövrer som man på detta sätt kan utföra utan mus, bl.a. flytta ett sökuttryck mellan de olika indexen som webben, nyheter, bilder, video, ljud och ftp-filer. Man kan även ta sig tillbaka till hemsidan, placera markören i sökrutan för en ny sökning och bläddra fram och tillbaka mellan träffsidorna och öppna det avancerade sökformuläret med dessa tangentkommandon.

Sedan närmare ett år finns liknande möjligheter till tangentkommandon som något man kan prova på i Google Labs. Här har Google experimenterat med många roliga idéer men av någon anledning har man tydligen tröttnat på att lansera nya funktioner i sin söktjänst utan koncentrerar sig på andra saker. Alltheweb däremot bara öser på och samtidigt med deras Keyboard Shortcuts tillkom möjligheten att slå upp sökord i ordbokstjänster liksom att kika på de 10 senaste sökningarna som Alltheweb tagit emot. Inga unika saker i och för sig men man kompletterar hellre sin arsenal av funktioner och låter användarna avgöra om de vill använda dem eller inte.

FASTs John Lervik om framtidens sökmotorer på Internet Librarian International 2003

11 April 2003 av Lars Iselid

Den viktigaste faktorn för att bedöma ett webbdokument är länktext, sa John Lervik på Internet Librarian International 2003 i Birmingham där han som keynote speaker inledde konferensen tisdagen den 25 mars. Att analysera länktexten till en given webbsida ger en bra precision och relevans. Bara 10% av alla webbsidor har länkar till sig från externa webbplatser men interna länktexter inom en webbplats fungerar lika bra. Tillsammans med title-taggen är dessa relevanskriterier viktigare än Googles PageRank.

John Lervik sjösatte sitt företag FAST direkt efter sin examen vid Trondheim universitet i Norge 1997 och i juni 2001 börsintroducerades företaget för att alldeles nyligen bli uppköpta av sponsorsöktjänsten Overture. FASTs egen söktjänst Alltheweb.com har spindlat närmare 5 miljarder dokument och kan spindla 1-2 miljarder dokument i veckan. Alltheweb omindexeras dels dagligen, dels veckovis.

John menade att det finns ca 2-3 miljarder riktiga webbsidor där ute men att i den osynliga webben kan det finnas upp till 100 ggr fler. FAST betjänar flera hundra miljoner sökfrågor per dag, många tusen per sekund.

Vanliga frågevarianter i Alltheweb är “gula sidorna”, “almanacka” och “transaktioner”. John bedömer att Alltheweb och Google är väldigt lika i sin uppbyggnad och att det gäller för båda att 50% av alla frågor inte får något bra svar. Orsaker till detta är bl a kravet att alla sökord måste finnas med som träffar i dokumenten och alla frågevarianter utvärderas och rankas på samma sätt.

Sen nämnde Lervik tre viktiga aspekter på innehållsanalys:

  • Språk. Automatisk språkigenkänning, automatisk morfologisk normalisering och syntaktisk analys som måste göras på olika sätt för varje språk.
  • Tidsfaktorn. Det gäller dels att ta bort döda länkar ur index, dels att upptäcka nya länkar.
  • Lokalisering. Detta med söka lokalt trodde John skulle komma mer, att kunna begränsa sökning geografiskt.

Lervik pratade om vikten av att använda sökfrågornas struktur för att koppla frågor till svarsdokument. Man kan dela upp en sökfråga semantiskt i två delar. Den första kallade Lervik “the head”(huvudet) och denna är basen för sökfrågan. Den andra delen är “the container”(behållaren) som var det sätt på vilket behållaren presenterades. I en sådan modell finns det miljoner huvuden medan bara några tusen behållare. Som exempel tog Lervik sökfrågan:Bill Clinton biography, där Bill Clinton är huvud och biography behållare.

Fyra viktiga aspekter vad gäller språkanalys är:

  • Ortografisk analys – dvs stavningskontroll. När det gällde den ortografisk analysen menade Lervik att stavningskontrollen kunde ge upp till 500% ökning i recall. Han nämnde att i FASTs index fanns fler felstavningar av Schwarzenegger än förekomster av rättstavningar. Ni kanske har sett Googles dokument på felstavningar av Britney Spears.
  • Morfologisk analys – t ex lemmatisering. Dvs ord i olika böjningsform böjs till grundform. Med stemming, som Lervik inte var så positiv till, kapar man mer eller mindre bara av ordet vid en viss position medan i lemmatisering sker det en regelmässig språklig analys. Det är nödvändigt för att komma ifrån “literal matching”, dvs exakt återgivning av de sökord man angett. Detta ger mycket olika resultat för olika språk. För engelska blir det 2-3 former, för franska, tyska och spanska 5-10 former medan det för språk som ryska kan bli mer än 40 former!
  • Syntaktisk analys – Att känna igen fraser, dvs begrepp som består av mer än ett ord t ex Physical therapy, eller att undertrycka dom.
  • Semantisk analys - att förstå meningen bakom ord. Exakt samma ord kan ha olika betydelse i olika sammanhang.

Lervik såg 3 olika huvudtyper av sökfrågor.

  • Generella frågor - i allmänhet korta frågor som kan ha flera svar.
  • Problemfrågor - frågor av typen faktafrågor.
  • Specifika frågor - frågor som söker exakta formuleringar som svar.

Ett dokuments egenskaper kan delas upp i:

  • Innehållsegenskaper - saker som relativ frekvensav ord, ordens position etc
  • Formatets egenskaper - dvs storlek, datum, språk.
  • Referensegenskaper - dvs länktext, länkanalysering(t ex PageRank) och metadata.

I december förra året lanserade Alltheweb nya relevanskriterier utan att bekskriva dessa mer ingående. Lervik vidrörde detta i sitt tal när han pratade om ”Adaptive matching”. Han visade en tabell där de tre frågetyperna matchades mot dokumentegenskaperna. För en generell sökfråga som “New York” kunde referensegenskaper användas i första hand. För en mer specifik fråga som “HP printer driver LP” var innehållsegenskaper bättre att titta på. Problemfrågor var de svåraste att hantera. Exemplet var här “C source code download”. I tabellen angav Lervik att man kunde dela upp frågan i bitar för vilka olika egenskaper kunde vara optimala. John sa att 30-40% av alla frågor var av typen generella sökfrågor, medan 20-30% utgjordes av specifika frågor.

Lervik trodde inte så mycket på försöken med visualisering av sökresultat à la Kartoo. Däremot trodde han på att vid indexeringenextrahera alla användbara och meningsfulla termer från dokumenten för att använda detta i visningen av sökresultatet. Det skulle då vara signifikanta termer, personnamn, organisationer, geografiska platser m.m. Med användning av dessa skulle man kunna skapa ett slags virtuella innehållsförteckningar. Inom ramen för FAST Data Search har de gjort sådana innehållsförteckningar för Reuters räkning, även om de där skapades i realtid snarare än vid indexering. Där har man utnyttjat en teknik som FAST kallar LiveAnalytics och Dynamic DrillDown för att hantera sökset.

Lervik nämnde naturligtvis också Scirus som nu innehöll 120 miljoner webbsidor och 18 miljoner artiklar. I Scirus används många av FASTs tekniker och bl a kommer tidigare nämnda tekniker att användas där liksom bättre språkstöd med flerspråkiga fraslexikon.

Relaterade projekt som FAST är inblandade i är EASE - European Academic Search Engine där ett bibliotekskonsortium ligger bakom. Vidare Nordic Web Archive som startade 2000. Det har likheter med internetarkivet The Wayback Machine men är inte allmänt tillgänglig. Sammanfattningsvis sade Lervik att han trodde att vi kommer att få se allt fler vertikala sökmotorer, som inte täcker alla ämnesområden. Vad gäller branschen inom internetsökning kunde han intyga att detta är en oerhört dynamiskt värld som styrs mestadels av kommersiella intressen.

Läs Lerviks anteckningar till föredraget>>[PDF]

Alltheweb byter skepnad och introducerar URL Investigator

5 Mars 2003 av Lars Våge

Trots försäljningen av FASTs webbsökningsdel till Overture dök det igår upp ett nytt utseende på Alltheweb och nya funktioner. Förändringarna var planerade sedan tidigare och har enligt FAST inget med Overtures köp att göra. Det nya gränssnittet är lite enklare och överskådligare än det gamla om än inte lika sobert. En strålande nyhet är den information man kan få fram om olika webbplatser genom att helt enkelt skriva in en webbadress i den vanliga sökrutan. Då aktiverar man nämligen “The AlltheWeb URL Investigator” och får presenterat för sig nyttig information och praktiska länkar. Under FAST Facts till höger står när sidan senast uppdaterades, vilket språk den är skriven på och hur stor filen är. Till vänster finns en länk som söker fram alla sidor på andra webbplatser som länkar till denna sida och även en länk som söker fram alla externa sidor som innehåller text som nämner sidan ifråga. Dessutom finns en länk till en whois-sökning på vem som äger webbplatsen och en länk till gamla versioner av sidan som finns tillgängliga i The Internet Archive. I början av denna vecka gick FAST ut med en förtydligande pressrelease angående sin framtida affärsinriktning som innebär en helhjärtad satsning på programvaran FAST Data Search, som används av större organisationer och företag som t.ex. IBM, Dell och Reuters.

FAST säljer sökmotorn Alltheweb till Overture

26 Februari 2003 av Lars Våge

Igår kom en ny stjärnsmäll i den allt mer förvirrande såpoperan om sökmotorerna. Overture tillkännager nu mindre än en vecka efter beskedet om att de ska köpa Altavista att de för 70 miljoner dollar kontant även ska köpa FASTs sökmotorteknologi för webben, inklusive sökmotorn Alltheweb och PartnerSite-delen.Händelsen är så överraskande att vi tillsvidare bara förstummade kan hänvisa till företagens respektive pressmeddelanden av vilka Overtures är intressantast. Att FAST inte tjänar några stora pengar på sin sökmotor och klarar sig bra med sin mycket framgångsrika Enterprise Search är ju klart men vad ska Overture med två sökmotorer till!? Hindra någon annan att köpa måhända? Det tror i alla fall Danny Sullivan som i Search Day idag pekar på en artikel i New York Post, där det sägs att Microsoft ville köpa Altavista men blev överbjudna av Overture. Köpet av FASTs sökmotor kan enligt samme Sullivan tolkas som en rädsla för samarbetet mellan FAST och Overtures huvudfiende i Europa vad gäller sponsrade länkar, Espotting.
Känslan inom branschen är att Overture har betalat lite för mycket för att bevaka sina intressen och aktien är på väg ner. Vi användare lär också få betala ett pris, för det är inte sannolikt att både Altavista och Alltheweb kommer att fortsätta att finnas tillgängliga separat och i så fall är det tveksamt om vi får se dessa söktjänster utvecklas i samma takt och i samma riktning som annars.

Kategori: Alltheweb/FAST | 0 kommentarer »

Mängder av nya avancerade funktioner i Alltheweb

21 Januari 2003 av Lars Våge

Idag har FASTs sökmotor Alltheweb lanserat en uppsjö nya och avancerade sökfunktioner. Bland annat har man introducerat möjligheten att söka med booleska operatorer som and och or, men även den exkluderande operatorn andnot samt rankningsoperatorn rank med vilken man kan vikta sökord. En hel mängd fältsökningskoder finns nu också som site, url, link, title, filesize, filetype och language. Möjligheterna när det gäller site-koden att använda tecknen ^ och * för att specificera att en adress måste börja på ett visst sätt eller kan sluta med olika varianter är också något nytt och unikt för Alltheweb. Dessutom har man introducerat automatisk igenkänning av föredraget språk eller preferred language vid sidan av engelska med utgångspunkt från IP-adressen på datorn som den som söker har. Inte nog med detta, man har dessutom skapat genvägar för att t.ex. göra snabbsökningar i Alltheweb genom användandet av olika knep som t.ex. att markera ett ord på en webbsida och sedan klicka i en toolbar eller skriva atw och ett sökord i URL-fältet. Dessa Alltheweb Search Tools finns utvecklade inte bara för Internet Explorer utan för nyare Netscape/Mozilla liksom äldre versioner av Netscape liksom för Opera och t.o.m. Mac-webbläsaren Sherlock.
En massiv uppgradering av funktionalitet i Alltheweb med andra ord! Det är nu uppenbart att Google börjar halka efter Alltheweb allt mer vad gäller rena sökmöjligheter och man undrar när det ska komma ut något av Google Labs som faktiskt implementeras på allvar?

Läs om söksyntaxen>>
Läs pressreleasen från FAST>>

FAST i samarbete med Espotting och Elsevier

16 Januari 2003 av Lars Iselid

FAST har skrivit samarbetsavtal med brittiska Espotting vars sponsrade länkar nu kommer att synas på Alltheweb.com. Espotting kommer i sin tur att kunna erbjuda sina kunder både Espottings sponsrade länkar och FAST:s index. De sponsrade länkarna och FAST:s länkar kommer att vara tydligt separerade i träfflistorna.

FAST har också fördjupat samarbetet med holländska Elsevier, en förlagsjätte inom vetenskaplig publicering. De är mycket nöjda med den sökmotorteknik som FAST hittills levererat genom Scirus.com och EngineeringVillage2. Delar av kontraktet sträcker sig över hela fem år och inbegriper att både leverera mjukvara och erbjuda teknisk support.

Läs mer på FASTs webbsidor för pressreleaser>>

Fast förbättrar rankingtekniken

22 December 2002 av Lars Iselid

Norska FAST meddelade i onsdags att de förbättrat sin rankingteknik. Dvs i vilken ordning länkarna i sökresultatet presenteras i en söktjänst. I rankingalgoritmen där kriterierna för vad som betyder att ett dokument är mer relevant än ett annat definieras är en väl förborgad hemlighet hos varje söktjänst. Detta för att undvika att träfflistorna ska bli manipulerade av de som skapar webbsidor. Det kan därför vara svårt att utvärdera rankingtekniken i olika söktjänster.

FAST påstår sig ha integrerat närhet mellan ord som ytterligare ett kriterium för relevans. Detta påstås, tillsammans med FASTs redan existerande lingivistiska metoder och frasingenkänning, öka relevansen markant. Närhet mellan ord(eng. proximity) är inget unikt men ett väldigt viktigt rankingkriterium, och borde därför redan ha varit integrerat i FAST.

Rankingen kommer att märkas även hos deras samarbetspartners som TerraLycos, Lycos Europe, Eniro (Evreka), InfoSpace(Excite, Dogpile, WebCrawler, MetaCrawler etc).

Läs mer om FASTs förbättrade ranking>>

Nu indexerar även FAST Word-dokument

9 December 2002 av Lars Våge

Under helgen som gick dök plötsligt möjligheten att söka efter Word-dokument upp i FASTs söktjänst Alltheweb. För att begränsa sin sökning till endast sådana filer måste man använda det avancerade sökformuläret. Under avdelningen Result Restrictions finns en rullgardinsmeny som kallas File format. Sedan tidigare har man här kunnat välja PDF-dokument och Flash-filer men nu alltså även Word-dokument. Alltheweb är den andra sökmotorn på nätet som indexerar Word-filer efter Google som haft möjligheten i över ett år. Inktomi har redan implementerat funktionen på PositionTechs testsökmotor för Inktomi-kunder så snart lär den även finnas hos de söktjänster som använder Inktomi-resultat som t.ex. Microsofts sökportaler.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator