För ett par år sedan roade vi oss med att hålla koll på fräschören på sökmotorernas index genom att jämföra hur snabba de var på att indexera vår egen webbplats. Det gör vi inte längre men med Firefox-tillägget Resurrect Pages som beskrivs härunder går det snabbt att göra stickprov av de tre stora sökmotorernas index. Tyvärr är inte Yahoos cachade dokument daterade. Därför är det enklast med webbsidor som har någon form av datummarkering som t.ex. dagstidningar och bloggar.

Jag kollade ett tiotal webbplatser och det var genomgående för dessa att Yahoo var bäst uppdaterat och för det mesta hade en eller flera dagar fräschare indexering gentemot Google och Microsoft medan kollen mot Gigablast inte fungerade när jag testade. Det var ju en helt ovetenskaplig undersökning från min sida det inser jag men den bekräftas faktiskt av en vetenskaplig artikel som ska publiceras senare i år i Journal of Information Science.

I preprintet till A three-year study on the freshness of Web search engine databases av Dirk Lewandowki kan man konstatera att denna säger ungefär samma sak. I en figur på sidan 15 visar Lewandowski att Google i 68% av fallen behöver 2 dagar för att göra en sida som deras spindel hämtat tillgänglig för sökning. För Yahoo gäller att i 50% av fallen är webbsidan sökbar samma dag som den hämtats av Yahoo. Microsoft verkar behöva 1-2 dagar och är också något bättre än Google men uppenbart är som sagt att Yahoo gör det här bäst.

Egentligen förvånar det mig inte. Yahoo fick med köpet av Overture tekniker från både Altavista och FAST Search & Transfer (AlltheWeb) som bägge satsat mycket på snabb indexering och att ha ett så uppdaterat sökindex som möjligt. Tidigare hade Yahoo också köpt sökföretaget Inktomi som hade utvecklat en oerhört kraftig sökmotorspindel som heter Slurp. Med en lyckad kombination av tekniker som kan snabb spindling och snabb indexering får man naturligtvis ett fräscht sökindex.


No Comments on “Yahoos index det fräschaste enligt vetenskaplig studie”

Comments on this entry are closed.