Den tyska sökbloggen @-web skrev nyligen om en intressant forskningsartikel författad av två israeler vid namn Ziv Bar-Yossef och Maxim Gurevich. Detta paper heter Random Sampling from a Search Engine’s Corpus och har publicerats i en preliminär version i ett konferenstryck till 15th International World-Wide Web Conference (WWW20006). Egentligen handlar den 70-sidiga framställningen om att hitta den perfekta metoden att kunna göra slumpmässiga stickprov på sökmotorers index och upptas nästan enbart av matematiska formler. Men i avsnittet 9.5 Exploration experiments (s. 47-53) har man presenterat några exempel på vad algoritmerna kan ge för resultat när de släpps loss på de tre största sökmotorerna Google, Yahoo och MSN Search. Här är några “godbitar”:
- Googles index har runt 2 % döda länkar medan MSN Search och Yahoo bägge bara har runt 0,5-0,7 %
- MSN Search har de fräschaste indexerade versionerna av webbsidorna och Google de äldsta
- Yahoo har det största indexet som är 28 % innehållsrikare än Googles medan MSN Search är ca 3/4 så stort som Googles
- Yahoo indexerar flest .com-domäner medan Google är dåliga på att indexera .info-domäner
- Överlappningen mellan de tre sökmotorerna varierar mellan 30,8 % och 52,8 % beroende på vilkens index man jämför med vilken annans



Google har fler döda länkar än MSN och Yahoo? « Fyra nyanser av brunt says:
[...] Google har fler döda länkar än MSN och Yahoo? Internetbrus skriver väldigt intressant om [...]
oktober 2nd, 2006 at 23:10