Arkiv för Maj 2004

Länksökning med Yahoos linkdomain

29 Maj 2004 av Lars Våge

Yahoos nya sökmotor har faktiskt en del goda sidor så vi ska väl inte bara klaga på att de lade ner Allthewebs och Altavistas sökmotorindex. Inlänksökning fungerar riktigt bra i Yahoo om man förstår exakt hur man ska skriva. Det har jag förstått nu efter att ha läst ResourceBuzz. Anta att jag skulle vilja veta vilka specifika webbsidor på Internetbrus.com förutom startsidan som det finns inlänkar till, går det att ta reda på? I Yahoo Search finns två olika sökkoder, link och linkdomain. Den senare finns inte ens dokumenterad på deras hjälpsidor. Den första fungerar som andra inlänksökningar, den hittar alla sidor som länkar till exakt den sida som man anger. Alltså link:internetbrus.com ger alla sidor som länkar till vår hemsida? NEJ, så enkelt är det inte, i Yahoo måste man faktiskt skriva link:http://internetbrus.com annars blir det 0 träffar.

link:http://internetbrus.com ger 539 träffar och
link:http://www.internetbrus.com 390 träffar och
link:http://www.internetbrus.com OR link:http://internetbrus.com 941 träffar.

Finns det då fler inlänkar till Internetbrus? Det är här linkdomain kommer in. Med denna sökkod söker man på alla sidor som länkar till någon sida vilken som helst på domänen man anger. Alltså skriver man linkdomain:http://internetbrus.com, eller? NEJ, tyvärr inte, med linkdomain måste man skriva utan http://-biten!

linkdomain:internetbrus.com ger “about 1300″ träffar

Nu till den stora frågan, vad är det för några sidor inne på Internetbrus webbplats som det finns inlänkar till? Kan man kombinera de här syntaxerna som jag beskrivit hittills? Jajamensan.

linkdomain:internetbrus.com -link:http://internetbrus.com -link:http://www.internetbrus.com ger 354 träffar

Men vänta nu det är ju en massa interna länkar från oss själva bland träffarna. Hur får vi bort dem? Tja, vi kanske kan kombinera med sökkoden site som används för att markera att man vill att träffarna ska komma från en viss domän. Vi sätter minustecken framför för att utesluta träffar från vår egen domän.

linkdomain:internetbrus.com -link:http://internetbrus.com -link:http://www.internetbrus.com -site:internetbrus.com ger 205 träffar

Duktigt Yahoo. I Google finns bara sökkoden link för att hitta inlänkar till specifika sidor och den har flera rapporterat ge ofullständiga resultat. Dessutom går den inte att kombinera med något annat - inte ens ett vanligt sökord. Svagt Google. Efter att ha ögnat igenom några tiotal träffar i Yahoo med det sista sökuttrycket (finns det någon som skriver så komplicerade sökuttryck?) så kan jag konstatera att träffarna verkligen är korrekta. Men bland dessa träffar hittar jag tråkigt nog en länk till en sida som vi gjort men inte längre länkar till själva (då den är inaktuell) och glömt ta bort. Svagt Internetbrus. Fast efter att ha skrivit detta lilla tips ska jag genast ta bort den.

Ramana Rao skriver om informationssökningens historia

26 Maj 2004 av Lars Våge

Förra året hade jag nöjet att höra Ramana Rao tala vid ett seminarium i Birmingham. Rao är chefsteknolog på företaget Inxight som sysslar med söklösningar för intranät (enterprise search) och knowledge management. I det aktuella numret av tidskriften ACM Queue, vol 2. nr 3, har han skrivit en kort historik över informationssökningen från 60-talet och framåt och det är en intressant och tänkvärd läsning. Artikeln heter From IR to Search and Beyond och finns tillgänglig gratis i fulltext. I artikeln siar Ramana också om framtiden och gör fyra förutsägelser om hur det kommer att se ut år 2020 i vårt informationsuniversum. Bland annat menar han att det kommer att krävas en bättre informationskompetens (information literacy) hos oss för att vi ska fungera och lyckas i “the new networked information urbanity of the future”. En annan tes är att 2020 kommer processande av texter med naturligt språk, text mining, vara viktigare än processandet av data lagrade i strukturerade databaser. Ramana Rao har också en egen webbplats som kallas Ramana Rao’s Informationflow där han skriver om informationssökning ur många aspekter. Han publicerar dessutom nyhetsbrev och har självfallet en egen blogg. För de som är intresserade av blogging finns ett roligt stjärnträd med artiklar och resurser runt bloggar. Detta stjärnträd eller star tree har namnet BlogWorld och är en Java-applet med vilken man kan navigera Raos utvalda länkar om blogging.

Svenska AdWeb manipulerar träfflistorna i Google med cloaking och Googlebombning

24 Maj 2004 av Lars Iselid

Har du provat söka på några vanliga svenska sökord i Google? T ex fotbollsmål, svält afrika, malmö latinskola, bowling Linköping, flygresor Versaille? Någonstans i de första 10 träffarna kommer du att se den till synes normala träffen, men när du klickar på träffen flimrar det till lite och vips har du hamnat på en annan sida än den som stod i träfflistan. Du hamnar istället på onlineguiden.se eller shopguide.se och sidorna är ofta irrelevanta utifrån de sökord du använt, särskilt eftersom det främst handlar om annonser. Det du har klickat på är en manipulerad träff som sänt dig vidare till en annan sida. Företaget som sysslar med dessa manipuleringar är AdWeb.se, finns i Trollhättan och kallar sig sökmotorpostionerare.

Du kanske undrar hur det är möjligt? Det AdWeb sysslar med är klassisk cloaking. Man visar en sida för spindeln, det program som hittar sidor på Internet, och en annan för besökaren. Den sida spindeln ser är optimerad med viktiga sökord och skulle vara nonsens innehållsmässigt för en vanlig besökare.

I Google brukar det inte räcka med cloaking för att hamna högt eftersom deras rankingalgoritm även bygger på länkanalys. Dvs. analyser av vilka sidor som länkar till en viss sida. En viktig del är vad det står för text i den länk som pekar mot den sida som ska rankas. Därför sysslar AdWeb också med Googlebombning. En manipuleringsteknik som först användes i större skala av bloggare, eftersom det krävs att man länkar från flera olika webbplatser med samma sökord i länken och att man länkar till samma sida. En klassisk Googlebombning är miserable failure där Michael Moore, George Bush och Jimmy Carter brukar tävla om att hamna högst.

AdWeb har köpt ett flertal “konstiga” adresser som oq.se, jy.se, qg.se, zy.se, iy.se, zv.se, ry.se, adp6.co.uk, b3.se, r24.se, qv.se etc och från alla dessa sidor skapar man länkar till de sidor på onlineguiden eller shopguide som man vill ska hamna högt i Google. En av orsakerna till att detta är möjligt är naturligtvis att svenskspråkiga internet är en betydligt mindre sfär än den engelskspråkiga och att Google inte verkar sätta in resurser för att hantera manipulering inom de mindre språkområdena.

När detta skrivs har vi meddelat manipuleringsproblemet till Google och enligt säkra källor är jag inte den förste att meddela detta.

Peter Karlsson har i sin artikel Svenska Internetskurkar (publicerad någon gång under 2004) skrivit om problemet. När det skrevs hade fortfarande shopguide.se och onlineguiden.se en sparad kopia (cachad) av sin manipulerade webbsida i Googles träfflista som avslöjade deras cloaking mer tydligt. Sedan dess har AdWeb själva tagit bort sina cachade sidor ur Google.

Apropå manipulering av Google så har Darkblue.com utlyst en tävling där det gäller att manipulera Googles träfflistor med begränsningen att det är frasen nigritude ultramarine som ska manipuleras. Tävlingen pågår mellan 7 maj och 7 juli och den som hamnar högst vinner en Apple Mini iPodeller Sony Flat Screen Monitor. Ett annorlunda initiativ vars syfte nog främst är att skapa debatt om Google och deras magiska algoritmer. Vi får se hur ingenjörerna på Google kommer att hantera detta. Låtsas som om det regnar eller ändra algoritmerna.

Ett annat liknande initiativ som kallas projekt istället för tävling är The Britney Spears project. Deltagare uppmanas att länka till projektets webbplats med frasen Britney Spears i hopp om att sidan till slut ska rankas högst i Google på sökfrasen Britney Spears.

Hel klart är i varje fall att Google är kraftigt utsatt för manipuleringsförsök idag och lyckas de inte hantera detta som den största aktören för sökning på Internet idag så kanske de blir förbisprugna av någon mindre aktör som har en lösning på detta. Precis som Altavista en gång i tiden blev utsatt av manipulatörer, men satsade mer på att bli en portal än att presentera relevanta sökträffar och därför blev omsprugna av en mindre aktör som kunde visa mer relevanta sökträffar. Precis, den lilla aktören hette då Google.

Stefan Ekberg har i sin bok: “Allt du måste veta om säljande hemsidor” skrivit följande träffande rader: “Internetmarknadsförare och sökmotorpositioneringexperter är den nya tidens försäljare av begagnade bilar.”

Google startar egen blogg

21 Maj 2004 av Lars Iselid

Google, som äger bloggtjänsten Blogger, startar inte helt oväntat en egen blogg som både kommer att handla om vad grundarna Page och Brin äter till frukost, men också mer seriösa saker som Googles nya ingenjörscentra i Zürich och Bangalore. Grundare till söktjänster som bloggar är inget nytt. Både Gigablast, Daypop och svenska Frisim bloggar som ett sätt att rapportera vad som händer, istället för flashiga pressmeddelanden.

Ny betaversion av Google Groups 2

19 Maj 2004 av Lars Iselid

Google groups är Googles sökfunktion för nyhetsgrupper. Nu har man via Googles experimentverkstad Google Labs lanserat en betaversion av en ny söktjänst för sökning i både nyhetsgrupper och e-postlistor som fått namnet Google Groups 2. Förutom alla 845 miljoner nyhestgruppsmeddelanden, från 1981 fram till dags dato, kan man nu söka på e-postlistor eller skapa egna e-postlistor som i Yahoogroups.com. Med funktionen My groups kan man markera intressanta meddelanden med en stjärna för att lättare komma åt dom vid ett annat tillfälle, men det kräver att man registrerar sig. Sökning och läsning kräver däremot ingen inloggning.

Sökvanor kartlagda i ny undersökning

14 Maj 2004 av Lars Våge

Enquiro Search Solutions har företagit två olika undersökningar rörande söktjänstanvändares vanor, en där 24 deltagares sökbeteende studerades i ett datorlabb och en baserad på enkätsvar från 425 deltagare. Resultatet och slutsatser från undersökningarna finns att läsa i två white papers som finns på Enquiros webbplats och som heter Into the Mind of the Searcher och Search Engine Usage in North America. Enquiro har också kommit med ett pressmeddelande med titeln Study Finds Search Engines Play a Huge Role in Consumer Purchase Research. Mycket i undersökningarna är också inriktat på hur sökmotorer används för att hitta olika varor på nätet och en tydlig trend verkar vara att det är väldigt vanligt att folk använder Internet för att hitta information om och åsikter om olika varor medan det inte nödvändigtvis innebär att de sedan köper varan via nätet. En del andra resultat av intresse är att:

  • 30% kunde inte identifiera eller var medvetna om sponsrade länkar i träfflistorna
  • 70% använde enbart vanliga sökord och inga operatorer eller frasmarkeringar alls
  • 70% föredrog Google
  • 2:a var om man sökte produktinformation Yahoo
  • Rörde det fakta om en sjukdom eller var man kunde göra ett inköp var Alltheweb 2:a
  • de med högre utbildning startade hellre en ny sökning än att browsa längre ner i träfflistorna
  • endast 24% använde avancerade sökformulär regelbundet
  • så många som 53% vet inte vad en metasöktjänst är
  • mer än 60% tittar aldrig på fler än de första tio träffarna
  • kvinnor var mer förtjusta i MSN än män

Dessutom har man identifierat 4 huvudsakliga sökpersonligheter som man kallar: erate researchers och 1-2-3 searchers. Om ni vill veta vilken typ ni tillhör så får ni läsa Into the Mind of the Searcher.

Läs experternas råd om sökmotorkonstruktion

12 Maj 2004 av Lars Våge

Det senaste numret av tidskriften ACM Queue kom ut i april och är ett specialnummer kallat Enterprise Search. I detta finns ett flertal intressanta artiklar om sökmotorer och artiklarna går också att läsa i fulltext på Internet. Why writing your own search engine is hard är skriven av Anna Patterson på Stanforduniversitet. För er som inte känner till det är Anna den som har skrivit sökmotorn bakom Internet Archives fritextsökning Recall som har ett index på 11 miljarder äldre kopior av webbsidor. Det är världens största sökmotorindex hittills och Annas artikel är lättsam och roande läsning samtidigt som hon ger massor av tips på hur man ska undvika fallgropar. Köp inte SCSI-diskar, bandbredd är viktigare än CPU-kraft, använd inte filsystemet NFS, lägg inte energi på indexformat utan lägg krutet på rankingen, använd inte länkanalys vid rankingen, alla fel som du tror aldrig kommer att hända kommer att hända…

I tidskriftsnumret finns också intervjun A conversation with Matt Wells. Det roliga med denna är att det är skaparen av söktjänsten InfoSeek Steve Kirsch som gjort intervjun med Wells som är den som har konstruerat och äger sökmotorn Gigablast. I senaste numret av Datormagazin har min medredaktör på Internetbrus, Lars Iselid, gjort en intervju av Wells på svenska (”Gigablast utmanar”) och den i ACM Queue fungerar bra som ett komplement. Kirsch och Wells blir nämligen ganska tekniska (den förre har faktiskt varit den senares chef en gång på Infoseek) och för de som är intresserade av tekniken bakom sökmotorerna är det en spännande läsning. Wells drar många halvskruvade paralleller mellan hur sökmotorer och den mänskliga hjärnan fungerar och slutar med orden: “The ultimate goal of computer science is to create a machine that thinks like we do, and that machine will have a search engine at its core, just like our brain”.

ObjectsSearch, Openindex och Fybersearch förespråkar öppen relevansranking

9 Maj 2004 av Lars Iselid

ObjectsSearch är en ny sökmotor som bygger på open source-teknik från Nutch och mjukvara utvecklad av Carrot2-projektet. ObjectsSearch har bl a fri anmälan av webbsidor och öppen relevansranking. De bygger också sitt eget index med den egna sökroboten ObjectsSearch, men en sökning på +and ger bara 730.000 träffar. Precis som Google, Gigablast och Daypop finns en cachad sida av varje sökträff. Bakom länken explain i sökträffen finns information om relevansvärdet där man kan se traditionella relevansberäkningar som termfrekvens och idf etc. Rättstavning, klustring, dvs. gruppering av träffar, nyhets- och bloggsökning, bildsökning, webbkatalog som är en modifierad variant av Open Directory. De tar tydligt ställning mot otydliga sponsrade länkar och förespråkar öppna relevansalgoritmer.

Öppen ranking förespråkas också av Openindex.org. En sida där sökmotorer för öppen källkod diskuteras. Här förespråkas bl a uppbyggandet av ett stort globalt, fritt sökmotorindex som borde kunna vara möjligt om flera användare runtom i världen delade med sig av datorkraft i ett globalt nätverk, dvs. distribuerat istället för centraliserat. Ett index: ”by the people, for the people, of the people, as it were”.

En annan sökmotor som har en form av öppen relevansranking är Fybersearch som görs av 19-åriga Nathan Enns. I Fybersearch kan användaren själv anpassa rankingen efter olika relevanskriterier som termfrekvens, titel, url, metataggar, brödtext. Fybersearch använder ett eget relevansvärde kallat FyberValue som ger ett siffervärde till varje sökträff. FyberSearch kritiserar länkanalys-metoder och menar därför att FyberValue är ett relevansvärde som inte bygger på länkanalys och för tillfället inte är manipulerad. Än så länge, konstigt nog, används inte i FyberValue i rankingen, men kommer att göras mer och mer i framtiden.

I sökträffen kan man också se när sidan blev indexerad och en fantastisk funktion är att du kan klicka på Catalog again now så indexeras webbsidan igen av spindeln FyberSpider. Friska idéer, men ett alldeles för litet index.

Ask Jeeves/Teoma indexerar nu PDF-filer

9 Maj 2004 av Lars Iselid

Teoma är på många sätt en utmärkt sökmotor men har sedan Ask Jeeves förvärvade sökmotorn och gömde undan sin egen frågetjänst inte utvecklat Teoma någonting förutom att indexet ökades från en halv miljard till 1,5 miljarder i augusti förra året. Nu har man äntligen börjat indexera PDF-filer, vilket är mer eller mindre standard hos de stora sökmotorerna idag. Nu väntar vi på ett större och färskare index med fler avancerade sökfunktioner om man nån gång på allvar vill ta upp kampen med Google och Yahoo.

Ujiko söker på Yahoos index med personaliseringsfunktioner

6 Maj 2004 av Lars Iselid

Liksom Gary Price på Resourceshelf (med risk för att låta som en härmapa :-) har jag aldrig varit särskilt exalterad av Kartoo och andra grafiska söktjänster, som WebBrain m fl, som vill visualisera sökresultat på annat sätt än i strikt hierarkisk fallande ordning. Vivisimos automatiska kategorisering i mappar är det mest lyckade alternativet hittills. Nu har personerna bakom Kartoo startat en ny sökmotor döpt till Ujiko som använder Yahoos nya index. Tyvärr krävs Flash player för att använda sökmotorn vilket kommer att göra det onödigt knöligt för många användare.

Det intressanta, men knappast unika (Mooter, DirectHit m fl har liknande tekniker), är att Ujiko registrerar vilka länkar i träfflistan du klickar på och presenterar dessa högt upp nästa gång. Inget relevanskriterium jag personligen jublar över eftersom jag faktiskt tror att folk inte alltid tycker att den sida de klickar in sig på visar sig vara av högre värde. Snarare händer det att man snabbt återvänder. Mätningen hur länge man stannar på sidan, som var ett kriterium i DirectHit (och ev. kommande kriterium i Yahoo Webrank), är väl något mer passande. Trots att jag antar att vana surfare ofta har uppe flera webbläsarfönster samtidigt och därför ofta stannar kvar på sidor av lathet eller glömska (man blir avbruten) snarare, än för att sidan är förträfflig.

Ujiko har annars på ett mycket enkelt sätt integrerat funktioner för personalisering. Bl a kan man själv betygssätta sidor man besökt på ett snabbt och enkelt sätt. Något som i och för sig inte är något nytt och bl a används av Alexa, men där krävs inloggning för att bedömningen ska komma alla besökare till hands.

I Ujiko är betygssättningen enbart tillgäng för användaren av just den datorn eftersom Ujiko använder en cookie för att känna igen användaren. Betygsättningen görs genom att välja antingen papperskorgikonen om sidan inte ska vara med i träfflistan och hjärtaikonen om sidan ska vara med. I det läget får man också betygssätta sidan på en 7-gradig(!) skala och eventuellt sortera den i en särskild folder. Sidan kommer sedan högt upp i träfflistan (på sökningar som motsvarar sidans relevans), men placeras under eventuella sponsrade länkar.

Sökhistorik kan också sparas och även skickas med e-post eller sparas ned som en fil. Sökhistoriken kan också rensas bort eller stängas av helt. Stora filtreringsmöjligheter finns också i form av: ord, webbadresser, webbplatser, ord i webbadresser.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator