Arkiv för kategorin ‘Ranking’

Är relevans hos sökmotorerna relevant?

7 Maj 2007 av Lars Våge

Det låter som en idiotisk fråga men det är faktiskt vad en nyligen publicerad vetenskaplig artikel handlar om. Elizabeth Van Couvering är doktorand vid London School of Economics och i senaste numret av Journal of Computer-Mediated Communication (vol. 12 nr. 3) finns hennes artikel med titeln: Is Relevance Relevant?. Undertiteln avslöjar lite mer om innehållet: Market, Science, and War: Discourses of Search Engine Quality. Couverings doktorsavhandling har som ämne “bias in search engine results”. Bias kan översättas med opartiskhet, snedvridenhet eller t.o.m. fördom men jag antar att det här helt enkelt menas brist på objektivitet.

En bra start för att ta reda på om man vill ta sig igenom en akademisk artikel är att läsa abstractet och slutsatserna. Litteraturlistan kan också vara ganska avslöjande. Couvering skriver i abstractet att artikeln bygger på djupintervjuer med sökmotorproducenter. Avsikten var att kartlägga deras föreställningar om sökmotorkvalitet och konsekvenserna av dessa. Hon konstaterar att resurstilldelning vid utveckling av sökmotorer styrs av främst två faktorer. Det ena är marknadskrafterna och det andra är tekniska och vetenskapliga hänsyn. Kärnelement inom journalistik som “fairness and representativeness” med Couverings ord är inte ett huvudmål och det ses som oproblematiskt att undertrycka eller t.o.m. svartlista visst innehåll.

Couvering har intervjuat 11 personer som arbetar för eller har arbetat för bl.a. Google, Yahoo, MSN, Ask, AOL, Excite, Lycos, Infoseek och WebCrawler. Tyvärr är dessa uppgiftslämnare anonyma och identifieras i texten bara med bokstäver. I tabell 1 finns dock en uppställning där man kan se deras positioner och arbetsuppgifter inom sina respektive icke-namngivna företag. Det kryllar inte precis av vetenskapliga artiklar om de här ämnena. I referenslistan finns viktiga skribenter/forskare om sökmotorer som Dan Sullivan, Jon Kleinberg, Michael Machill, Steve Lawrence & Lee Giles och sociologer som Anthony Giddens (!). Det borde finnas en hel del av intresse här - det skall bli spännande att läsa artikeln i sin helhet.

Anm: Journal of Computer-Mediated Communication utges bara på nätet och är gratis att läsa. Den hör till de äldsta av de referee-bedömda vetenskapliga tidskrifterna på Internet som är Open Access, dvs fria. Fler kan man hitta i svenska Directory of Open Access Journals som för dagen listar 2667 titlar.

Kolla PageRank för alla utgående länkar på en och samma sida

25 Juni 2006 av Lars Iselid

Med Visual PageRank från iwebtool kan man se PageRank, Googles eget värde på webbsidor, för en och samma sidas alla utgående länkar.
internetbrus visual pagerank

Microsofts sökmotor ger relevantast träffar?

5 Maj 2006 av Lars Våge

Flera nyheter den senaste veckan rör Microsofts sökmotor. Amazon och Alexa har bytt ut Google mot Windows Live Search. CEO:n på Ask.com Steve Berkovwitz ska börja arbeta hos Microsoft istället. Steve Ballmer skryter om Microsofts framgångar i sökmotorkampen mot Google och Yahoo. Ännu så länge ligger MSN Search långt efter Google i användarstatistiken men kanske kan det ändras. Till Associated Press sade Christoopher Payne, som är ansvarig för Windows Live Search, igår att “I think we’ll look back on this as the DOS era of search”. Hmm.

Vi är ju vana vid stora ord från Microsoft så därför är det intressant att ta del av en ny rapport om relevansen hos sökmotorträffarna hos de allra största. Det är konsultföretaget Intralink i Cincinnati som jobbar med sökmotoroptimering och webbmarknadsföring som sammanställt denna undersökning. De huvudsakliga resultaten och information om vilka Intralink är och i grova drag vilka metoder de använt och exempel på sökningar finns på webbadressen Seoresourcecenter.com. De sökmotorer som granskats är Google, Yahoo, MSN Search, Ask.com, AOL Search, Gigablast och Wisenut så alla de stora förutom franska Exalead är med.

Vad har man då kommit fram till? Intralink har vägt samman fem olika kriterier som de kallar: Relevancy, Freshness of content, Failure rate , Difficult Search results och Non-organic or extra features. Bäst poäng av alla har……MSN Search! De slår faktiskt Google om än inte med bred marginal. Man får också se separata grafer för de två viktigaste kriterierna. Vad gäller Relevancy så slås Google klart av både MSN Search och Yahoo. Google får trösta sig med en förstaplats i Freshness of content, där f.ö. både Yahoo och Ask.com presterar överraskande dåligt.

Rankingfaktorer rankade av sökmotorexperter

7 Oktober 2005 av Lars Våge

Skulle det inte vara trevligt att veta hur de största sökmotorerna rankade träffarna egentligen och vilka faktorer som var mest avgörande? Tyvärr är ju detta företagshemligheter som bevakas minutiöst och även om själva rankingalgoritmerna publicerades skulle de antagligen vara mycket svåra att förstå sig på utan en djupare matematisk kunskap. Som bekant finns det en del sökmotoroptimerare som hävdar att de genomskådat t.ex. Googles system och dessa säljer i allmänhet sin kunskap dyrt. På webbplatsen Seomoz.org publicerades i alla falll igår en längre artikel där en uppsjö olika rankingfaktorer gås igenom och där ett tiotal sökmotorexperter och sökmotoroptimerare har hjälpts åt att ranka vilka faktorer som de menar är viktigast. Artikeln som heter Search Engine Ranking Factors är en mycket intressant läsning och nedan följer den tio-i-topp-lista som man kommit fram till:

1. Webbsidans titel (dvs html-taggen title)
2. Länktexten (den text man klickar på för att följa en länk till webbsidan som ska rankas, eng. anchor text)
3. Sökordens förekomst i texten på webbsidan
4. Webbsidans tillgänglighet (t.ex. webbserverns stabilitet, om en plug-in behövs, om ett formulär behöver fyllas i m.m.)
5. Interna länkar till webbsidan (dvs sådana länkar som finns på den egna webbplatsen)
6. Den huvudsakliga ämnesinriktningen på webbplatsen där webbsidan finns
7. Externa länkar till webbsidor som i sin tur länkar in till webbsidan som ska rankas
8. Länkar till webbsidan som ska rankas från webbplatser/webbsidor som har många egna inlänkar inom ett webbsamhälle runt ett visst ämne (eng. topical community)
9. Global länkpopularitet för webbplatserna där det finns inlänkar till webbsidan som ska rankas
10. Sökords-spamming. Detta är en faktor som har en negativ påverkan på rankingen, t.ex. om sökordet används oproportionerligt mycket (eng. keyword stuffing) på webbsidan som ska rankas.

Jag vet inte om jag lyckats översätta alla faktorer på ett helt begripligt sätt men för de intresserade finns förklaringar i artikeln till de över hundra rankingfaktorer som beaktats. Danny Sullivan på Search Engine Watch menar att även om artikeln självfallet inte utgör det sista ordet i frågan så är det en utmärkt utgångspunkt att bygga vidare på.

TrustRank ska förbättra rankingen i Googles nyhetssökning

2 Maj 2005 av Lars Iselid

trustrankVia utvecklingsbloggen på svenska nyhetssöktjänsten Frisim och New Scientist 30 april läser jag om Googles rankingalgoritm för att sortera nyheter i Google News. Algoritmen som lär gå under varumärket TrustRank och finns patenterad med nummer WO 2005/029368, men lades ut publikt först den 17 mars, har också diskuterats flitigt på Slashdot.org.
Googles beskrivning av patentet lyder bl.a.:“The system may identify a source with which each of the links is associated and rank the list of links based at least in part on a quality of the identified sources”.

Nyhetsproducenterna tilldelas olika värde och därigenom kommer nyheterna att rankas olika. Genom att beräkna antalet nyheter från varje producent, längden på nyheten, hur länge producenten varit verksam, antalet citeringar, storleken på producentens organisation m.fl. kriterier kommer ett värde att ges varje källa. TrustRank kan säkert sortera bort en hel del “skräpkällor” på detta sätt men frågan är om inte mainstream-media som BBC, CNN m.fl. bara får större utrymme i förhållande till små oberoende nyhetskällor, t.ex. bloggar. De två sorteringsalternativen idag i Google News är relevans och datum. Vi får se om TrustRank kommer att implementeras under relevanssorteringen eller om vi får en ny sortering. Kanske “Sort by trustworthiness” ;-)

Det har hur som helst alltid fascinerat mig att man kan ta patent på sökalgoritmer. Vem vet, kanske det går att ta patent på fotbollsfinter också? ;-)

ObjectsSearch, Openindex och Fybersearch förespråkar öppen relevansranking

9 Maj 2004 av Lars Iselid

ObjectsSearch är en ny sökmotor som bygger på open source-teknik från Nutch och mjukvara utvecklad av Carrot2-projektet. ObjectsSearch har bl a fri anmälan av webbsidor och öppen relevansranking. De bygger också sitt eget index med den egna sökroboten ObjectsSearch, men en sökning på +and ger bara 730.000 träffar. Precis som Google, Gigablast och Daypop finns en cachad sida av varje sökträff. Bakom länken explain i sökträffen finns information om relevansvärdet där man kan se traditionella relevansberäkningar som termfrekvens och idf etc. Rättstavning, klustring, dvs. gruppering av träffar, nyhets- och bloggsökning, bildsökning, webbkatalog som är en modifierad variant av Open Directory. De tar tydligt ställning mot otydliga sponsrade länkar och förespråkar öppna relevansalgoritmer.

Öppen ranking förespråkas också av Openindex.org. En sida där sökmotorer för öppen källkod diskuteras. Här förespråkas bl a uppbyggandet av ett stort globalt, fritt sökmotorindex som borde kunna vara möjligt om flera användare runtom i världen delade med sig av datorkraft i ett globalt nätverk, dvs. distribuerat istället för centraliserat. Ett index: ”by the people, for the people, of the people, as it were”.

En annan sökmotor som har en form av öppen relevansranking är Fybersearch som görs av 19-åriga Nathan Enns. I Fybersearch kan användaren själv anpassa rankingen efter olika relevanskriterier som termfrekvens, titel, url, metataggar, brödtext. Fybersearch använder ett eget relevansvärde kallat FyberValue som ger ett siffervärde till varje sökträff. FyberSearch kritiserar länkanalys-metoder och menar därför att FyberValue är ett relevansvärde som inte bygger på länkanalys och för tillfället inte är manipulerad. Än så länge, konstigt nog, används inte i FyberValue i rankingen, men kommer att göras mer och mer i framtiden.

I sökträffen kan man också se när sidan blev indexerad och en fantastisk funktion är att du kan klicka på Catalog again now så indexeras webbsidan igen av spindeln FyberSpider. Friska idéer, men ett alldeles för litet index.

Yahoo beta-testar ranking-indikator

23 Mars 2004 av Lars Iselid

Yahoo beta-testar en funktion som ska mäta “populariteten”, som Yahoo kallar det, för en URL. Det verkar inte vara någon form av länkanalys i stil med Googles PageRank som bygger på en bedömning av värdet på en webbsidas inlänkar. Istället kommer Yahoo att samla in information om vilka sidor användare av Yahoos sökfält Companion Toolbar besöker. Det liknar Exactseek som använder sig av besöksstatistik från Alexa som de i sin tur samlat in från från användare av Alexa Toolbar. Man kan bara hoppas att denna web rank-funktion inte kommer att få någon tyngre i vikt i Yahoos rankingalgoritm.

Däremot skriver Yahoo att man med Companion Toolbar hoppas kunna hitta nya ”public sites” fortare för att inkludera de i indexet. Det verkar alltså inte bli någon genväg för kommersiella sidor att gratis bli inkluderade i Yahoo.

Inktomi bäst i rankingtest utfört av VeriTest

27 April 2003 av Lars Iselid

Yahoo-ägda Inktomi har mot betalning gett VeriTest uppdraget att undersöka vilken av följande sökmotorer som presenterar de mest relevanta träffarna: Inktomi, Google, Teoma, FAST(Alltheweb), Wisenut, Altavista. Vinnare blev Inktomi tätt följd av Google, med övriga sökmotorer en bit längre ned.

Vad betyder då ett sånt här test? Både Altavista, AskJeeves och Google har tidigare betalat VeriTest(tidigare eTestinglabs) för att utföra liknande tester som naturligtvis visat att just de har mest relevanta träffar. Vad kan det bero på? Paralleller går att dra med de kliniska prövningar som läkemedelsföretag brukar göra för sina läkemedel. Negativa resultat presenteras aldrig, bara de positiva. Därför får man ta dessa tester med en nypa salt. För att få trovärdighet i sådana här tester borde de stora sökmotorerna tillsammans betala för en gemensam rankingtest som alla skriver under på att de ska presenteras oavsett resultat.

Är då Inktomis test meningslöst? Kanske inte. Låt oss titta på hur VeriTest kommit fram till resultatet. VeriTest har fått 7 miljoner loggade sökfrågar av Inkomi och med hjälp av ett program tog man bort dubletter, icke-engelska sidor, porrsidor m.m. 1 miljoner frågor blev kvar och av dessa har 100 frågor valts ut som VeriTest kört mot alla undersökta sökmotorer och de tio första träffarna har värderats. Inktomi’s högre oviktade poäng (54.33%) är så marginell gentemot Googles (53.23%) att man måste anse att Googles och Inktomis ranking ligger på samma nivå. Övriga sökmotorer hamnar inom spannet 39% till 43%.

Vilken metodik har man då använt när man väljer ut vilka sidor som anses relevanta? Varje träff har bedömts som antingen accepterad eller avslagen beroende på om sidan varit relevant utifrån sökfrågan eller inte. I bedömningen har de fått vägledande frågeställningar som:”Om jag var intresserad av detta ämne skulle jag bokmärka sidan?”. Varje bedömd sida har också fått en viss bedömningsgrad där “Excellent” och “Good” innebär att sidan är accepterad och “Fair”, “Poor”, “Spam” etc innebär avslagen. Alla sökmotorerna visar sig faktiskt ge väldigt relevanta träffar när det gäller träff 1. WiseNut hamnar t.o.m. på andra plats före Google men efter Inktomi.

VeriTests rankingtest beställt av Inktomi mars 2003

VeriTests rankingtest beställt av Google september 2000

VeriTests rankingtest beställt av Altavista maj 2000

VeriTests rankingtest beställt av AskJeeves april 2002

Fast förbättrar rankingtekniken

22 December 2002 av Lars Iselid

Norska FAST meddelade i onsdags att de förbättrat sin rankingteknik. Dvs i vilken ordning länkarna i sökresultatet presenteras i en söktjänst. I rankingalgoritmen där kriterierna för vad som betyder att ett dokument är mer relevant än ett annat definieras är en väl förborgad hemlighet hos varje söktjänst. Detta för att undvika att träfflistorna ska bli manipulerade av de som skapar webbsidor. Det kan därför vara svårt att utvärdera rankingtekniken i olika söktjänster.

FAST påstår sig ha integrerat närhet mellan ord som ytterligare ett kriterium för relevans. Detta påstås, tillsammans med FASTs redan existerande lingivistiska metoder och frasingenkänning, öka relevansen markant. Närhet mellan ord(eng. proximity) är inget unikt men ett väldigt viktigt rankingkriterium, och borde därför redan ha varit integrerat i FAST.

Rankingen kommer att märkas även hos deras samarbetspartners som TerraLycos, Lycos Europe, Eniro (Evreka), InfoSpace(Excite, Dogpile, WebCrawler, MetaCrawler etc).

Läs mer om FASTs förbättrade ranking>>

Google satsar på bättre rankingtekniker

21 September 2001 av Lars Iselid

Google visar på tydliga ambitioner att vilja utveckla sina rankingtekniker genom sitt förvärv av det amerikanska företaget Outride, baserat i Reedwood City, Kalifornien. “Outride har gjort betydande framsteg inom rankingteknikens område och vi tror att Google är det perfekta valet för att fortsätta utvecklandet av dessa tekniker”, säger Googles Larry Page i en pressrelease från den 20 september. Både Teoma och WISEnut har ju tidigare visat att de vill vara med i kampen om att utveckla bättre rankingtekniker och Google lär alltså inte stå stilla och titta på.

Läs hela pressreleasen>>

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator