Arkiv för kategorin ‘Webbtäckning’

Tre gånger så många döda länkar hos Google som hos MSN och Yahoo

2 Oktober 2006 av Lars VÃ¥ge

Den tyska sökbloggen @-web skrev nyligen om en intressant forskningsartikel författad av tvÃ¥ israeler vid namn Ziv Bar-Yossef och Maxim Gurevich. Detta paper heter Random Sampling from a Search Engine’s Corpus och har publicerats i en preliminär version i ett konferenstryck till 15th International World-Wide Web Conference (WWW20006). Egentligen handlar den 70-sidiga framställningen om att hitta den perfekta metoden att kunna göra slumpmässiga stickprov pÃ¥ sökmotorers index och upptas nästan enbart av matematiska formler. Men i avsnittet 9.5 Exploration experiments (s. 47-53) har man presenterat nÃ¥gra exempel pÃ¥ vad algoritmerna kan ge för resultat när de släpps loss pÃ¥ de tre största sökmotorerna Google, Yahoo och MSN Search. Här är nÃ¥gra “godbitar”:

  • Googles index har runt 2 % döda länkar medan MSN Search och Yahoo bägge bara har runt 0,5-0,7 %
  • MSN Search har de fräschaste indexerade versionerna av webbsidorna och Google de äldsta
  • Yahoo har det största indexet som är 28 % innehÃ¥llsrikare än Googles medan MSN Search är ca 3/4 sÃ¥ stort som Googles
  • Yahoo indexerar flest .com-domäner medan Google är dÃ¥liga pÃ¥ att indexera .info-domäner
  • Överlappningen mellan de tre sökmotorerna varierar mellan 30,8 % och 52,8 % beroende pÃ¥ vilkens index man jämför med vilken annans

Hur stor del av webben indexerar de största sökmotorerna?

12 Juli 2005 av Lars VÃ¥ge

Vid konferensen WWW 2005 i Chiba, Japan i mitten av maj presenterades en undersökning rörande storleken på den indexeringsbara webben. Vad menas med detta? Jo, det är ju så att det är inte alla de webbsidor som går att titta på i en webbläsare, som sökmotorerna kan göra sökbara på något enkelt sätt. Ofta frågar man sig därför dels hur många webbsidor som finns i den indexeringsbara eller synliga webben, dels hur många sidor som finns i den osynliga webben som sökmotorerna inte klarar av att indexera. Forskarna A. Gulli (Univ. i Pisa, Italien) och A. Signorini (Univ. of Iowa) har försökt att ge ett svar på den första frågan i sitt paper The Indexable Web is More Than 11.5 billion pages.

Vid studien har man indexerat hela webbkatalogen Open Directory för att utvinna mer än 2 miljoner söktermer av vilka man slumpmässigt valde 431 831 sökord på 75 språk. Med utgångspunkt från sökningar har man fått fram 486 572 webbadresser som går att hitta med dessa sökord. Sedan har man testat förekomsten av dessa webbsidor i de fyra största sökmotorerna - Google, Yahoo!, MSN Search och AskJeeves. Det visade sig att när antalet kollade webbadresser översteg 20 000 förändrades procenttalet som de ingående sökmotorerna hittade igen inte nämnvärt. Så siffrorna ska vara ganska rättvisande, åtminstone utifrån den metodologi som använts.

Vad kom man då fram till? Jo täckningen av de 486 572 webbadresserna var för de fyra största sökmotorerna denna:

Google 76,2 %
Yahoo! 69,3 %
MSN Search 61,9 %
AskJeeves 57,6 %

Forskarna utgår sedan från att dessa procenttal utgör en måttstock på hur mycket av den indexeringsbara webben de klarar av att indexera. Genom att ta med i beräkningen det antal webbsidor som sökmotorerna ifråga säger sig indexera och göra en utjämning kommer man så fram till att den indexeringsbara webben uppskattningsvis innehåller 11,5 miljarder webbsidor.

Jämförelser mellan de ingÃ¥ende sökmotorerna visar Ã¥ sin sida att de fyra tillsammans hittar 9,36 miljarder webbsidor vilket är ca 81 %. AlltsÃ¥ om man använder alla fyra kan man komma upp i denna täckning. AngÃ¥ende överlappning sökmotorerna emellan förhöll det sig sÃ¥ att “bara” 2,7 miljarder av webbsidorna eller närmare 29% gick att hitta i alla fyra sökmotorer. När det gäller diskussionen om överlappning fÃ¥r man naturligtvis tänka pÃ¥ att här har man medvetet sökt efter dessa webbsidor. Därför fÃ¥r man inte lika lÃ¥g siffra som Dogpile fick fram dÃ¥ man jämförde överlappning mellan topp-tio-träffar för olika sökningar.

Är överlappningen mellan sökmotorer betydligt överskattad?

23 Maj 2005 av Lars VÃ¥ge

InfoSpace, det amerikanska företaget som äger flera metasöktjänster, har pÃ¥ Dogpiles webbplats publicerat ett white paper om överlappningen mellan olika sökmotorers träffar. Deras undersökning visar att om man jämför de 10 första träffarna frÃ¥n Google, Yahoo och AskJeeves för olika sökord finner man att överlappningen i genomsnitt är endast 3 %! Det är inte utan att man frÃ¥gar man sig om det verkligen kan vara sÃ¥ illa och om InfoSpace hävdar detta bara för att kunna sälja sina metasöktjänster. Det senare är nog svÃ¥rt att tro med tanke pÃ¥ att studien faktiskt skett i samarbete med tvÃ¥ olika amerikanska universitet. Det finns en tvÃ¥sidig pdf-fil med en sammanfattning av resultaten där man kan läsa att dessa bygger pÃ¥ 10 316 sökningar pÃ¥ slumpvis valda nyckelord som plockats frÃ¥n sökmotorloggar. PÃ¥ Dogpile finns nu ocksÃ¥ ett särskilt verktyg kallat Missing Pieces med vilket man grafiskt kan studera hur överlappningen är för olika sökord. För sökordet “internetbrus” rapporterar Missing Pieces bara en överlappande träff och dÃ¥ ser det ut som pÃ¥ bilden nedan.
missingpieces

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator