Hur stor del av webben indexerar de största sökmotorerna?
Vid konferensen WWW 2005 i Chiba, Japan i mitten av maj presenterades en undersökning rörande storleken på den indexeringsbara webben. Vad menas med detta? Jo, det är ju så att det är inte alla de webbsidor som går att titta på i en webbläsare, som sökmotorerna kan göra sökbara på något enkelt sätt. Ofta frågar man sig därför dels hur många webbsidor som finns i den indexeringsbara eller synliga webben, dels hur många sidor som finns i den osynliga webben som sökmotorerna inte klarar av att indexera. Forskarna A. Gulli (Univ. i Pisa, Italien) och A. Signorini (Univ. of Iowa) har försökt att ge ett svar på den första frågan i sitt paper The Indexable Web is More Than 11.5 billion pages.
Vid studien har man indexerat hela webbkatalogen Open Directory för att utvinna mer än 2 miljoner söktermer av vilka man slumpmässigt valde 431 831 sökord på 75 språk. Med utgångspunkt från sökningar har man fått fram 486 572 webbadresser som går att hitta med dessa sökord. Sedan har man testat förekomsten av dessa webbsidor i de fyra största sökmotorerna - Google, Yahoo!, MSN Search och AskJeeves. Det visade sig att när antalet kollade webbadresser översteg 20 000 förändrades procenttalet som de ingående sökmotorerna hittade igen inte nämnvärt. Så siffrorna ska vara ganska rättvisande, åtminstone utifrån den metodologi som använts.
Vad kom man då fram till? Jo täckningen av de 486 572 webbadresserna var för de fyra största sökmotorerna denna:
Google 76,2 %
Yahoo! 69,3 %
MSN Search 61,9 %
AskJeeves 57,6 %
Forskarna utgår sedan från att dessa procenttal utgör en måttstock på hur mycket av den indexeringsbara webben de klarar av att indexera. Genom att ta med i beräkningen det antal webbsidor som sökmotorerna ifråga säger sig indexera och göra en utjämning kommer man så fram till att den indexeringsbara webben uppskattningsvis innehåller 11,5 miljarder webbsidor.
Jämförelser mellan de ingÃ¥ende sökmotorerna visar Ã¥ sin sida att de fyra tillsammans hittar 9,36 miljarder webbsidor vilket är ca 81 %. AlltsÃ¥ om man använder alla fyra kan man komma upp i denna täckning. AngÃ¥ende överlappning sökmotorerna emellan förhöll det sig sÃ¥ att “bara” 2,7 miljarder av webbsidorna eller närmare 29% gick att hitta i alla fyra sökmotorer. När det gäller diskussionen om överlappning fÃ¥r man naturligtvis tänka pÃ¥ att här har man medvetet sökt efter dessa webbsidor. Därför fÃ¥r man inte lika lÃ¥g siffra som Dogpile fick fram dÃ¥ man jämförde överlappning mellan topp-tio-träffar för olika sökningar.
