Indexeringsfrekvensen pÄ Yahoo, Google och MSN testat av tyska forskare
I en test publicerad under titeln “The freshness of web search engines” [PDF] gjord av de tyska forskarna Dirk Lewandowski, Henry Wahlig och Gunnar Meyer-Bautor vid Henriech- Heine-universitet i DĂŒsseldorf, Tyskland, har man kommit fram till att Google, i jĂ€mförelse med MSN och Yahoo, omindexerar flest webbsidor varje dag. MSN Ă€r dock, i motsats till Google och Yahoo, den enda sökmotor som omindexerar alla sina sidor inom 20 dagar. RĂ€knat med medianvĂ€rde pĂ„ alla undersökta webbsidor ligger dock MSN och Google lika medan Yahoo slĂ€par efter en bit.
Som alla studier finns det ju alltid lite om och men och nĂ„gra kommentarer följer hĂ€r. De tyska forskarna gjorde mellan 18 december 2004 och 19 januari 2005 ett preliminĂ€rt test dĂ€r man bl.a. upptĂ€ckte problem med bĂ„de Yahoo och Ă€ven MSN att de ena dagen visade en cache-version och nĂ€sta dag en Ă€ldre cache-version. S. k. “refreshment gaps” med andra ord.
Det riktiga uppdateringstestet började 14 februari och pÄgick under 42 dagar. Sidorna kollades varje dag vid ungefÀr samma tidpunkt, runt 18.00, för att det inte skulle bli sÄ missvisande. 38 tyska webbplatser valdes ut och cacheversionens datum i Google.de, MSN.de och Yahoo.de jÀmfördes med existerande dags datum. 38 webbsidor x 3 sökmotorer x 42 dagar innebar 4674 enskilda sidor. Vissa gÄnger gick det inte att komma Ät cahce-versionen vilket reducerade antalet till 4572 och nÀr en webbsida efter en omdesign tog bort datumet sÄ blev det omöjligt att kolla datumet pÄ caheversionen i Yahoo, vilket ytterligare reducerade antalet till 4556 sidor.
Ca 83% av alla sidor i Google var inte Ă€ldre Ă€n en dag, ca 42% för Yahoo och 48% för MSN. Av alla webbsidor var de i genomsnitt omindexerade efter 3,1 dagar för Google, MSN 3,5 dagar och Yahoo efter 9,8 dagar. RĂ€knat med medianvĂ€rde blev utfallet istĂ€llet 1 dag för Google och MSN median och 4 dagar för Yahoo. MedelvĂ€rdet för Google blir marginellt bĂ€ttre Ă€n MSN beroende pĂ„ s.k. “outliers”, dvs. nĂ„gra enstaka sidor som Ă€r vĂ€ldigt gamla och drar ned medelvĂ€rdet, trots att de flesta Ă€r mer vĂ€luppdaterade Ă€n MSN. I studien finns ocksĂ„ utvĂ€rderingar dĂ€r man valt att sortera varje webbsida efter företeelse/Ă€mne, t.ex. nyhetssidor för sig och vetenskapliga sidor för sig etc
MĂ€rk vĂ€l att det hĂ€r Ă€r en studie som utvĂ€rderar enbart utvalda tyska sidor som uppdateras dagligen. MĂ„nga sökmotorer stĂ€ller in indexeringsfrekvensen efter hur ofta en sida uppdateras och efter “statusen” pĂ„ sidan, vilket det senare forskarna ocksĂ„ tror. Sökmotorerna Ă€r nĂ€mligen lika förtegna om kriterierna för indexeringsfrekvensen som relevansalgoritmen. En stor nyhetstidning kanske indexeras oftare Ă€n ett obetydligt diskussonsforum. Forskarna tror att Yahoo och Google skulle visa pĂ„ Ă€nnu sĂ€mre indexeringsfrekvens om man analyserade sidor som inte uppdateras dagligen, vilket ocksĂ„ Ă€r min ovetenskapliga erfarenhet.
Forskarna sÀger ocksÄ:
“Only an engine guaranteeing constant updates of its index can maintain full credibility towards the users”.
Men frÄgan Àr hur stor medvetenheten hos anvÀndarna Àr? Min erfarenhet i undervisningen Àr att medvetenheten Àr mycket lÄg, t.o.m. (om jag törs svÀra i kyrkan) hos min egen yrkesgrupp: bibliotekarierna. Om man Àr medveten om problemet Àr det ÀndÄ inte sÀkert att man vet hur man kan utvÀrdera detta.
