Arkiv för Juli 2008

Cuil - ny stor sökmotor lanserad

29 Juli 2008 av Lars VÄge

cuil.jpg

En ny stor sökmotor kallad Cuil (uttalas cool) lanserades igĂ„r. Tre gĂ„nger sĂ„ stor som Google, Yahoo och de andra om man fĂ„r tro vad Cuil sjĂ€lva sĂ€ger. Över 120 miljarder webbsidor hĂ€vdas det att indexet innehĂ„ller. Senast jag sĂ„g sĂ„ höga siffror i jĂ€mförelse med andra sökmotorer var i den kortlivade fulltextsökningen av Internet Archive som fanns 2003 under namnet Recall. Ansvarig för Recall-projektet var Anna Patterson frĂ„n Stanford. Samma Anna hör till grundarna av Cuil i vars team vi ocksĂ„ hittar en viss herr Louis Monier. Just det, mannen som skapade Altavista. BĂ„de Anna och Louis liksom andra i Cuil-teamet kommer nĂ€rmast frĂ„n Google.

OK, vad har storleken för betydelse egentligen i sökmotorerna dĂ„? Med tanke pĂ„ att de flesta knappt orkar titta pĂ„ den första trĂ€ffsidan med 10 lĂ€nkar sĂ„ har det inte sĂ„ stor betydelse. Det Ă€r egentligen bara vĂ€ldigt specialiserade eller helt enkelt illa formulerade sökningar som genererar sĂ„ fĂ„ trĂ€ffar att det gĂ„r att jĂ€mföra hur mycket man fĂ„r frĂ„n sökmotorerna. Hittills har jag inte sett att Cuil skulle ge sĂ„ mycket fler trĂ€ffar Ă€n de andra. Vad gĂ€ller relevansen av trĂ€ffarna Ă€r den sĂ„dĂ€r. HĂ€r finns arbete att göra för Patterson, Monier och de andra. I pressmeddelandet talar man om “content-based results, not just popular ones, providing different and more insightful answers”. Om man med det menar att man helt skippar lĂ€nkanalys tror jag man ska tĂ€nka om.

Fast visst Àr det spÀnnande med en ny stor sökmotor. GrÀnssnittet Àr ocksÄ lite roligare Àn de andra stora med undantag av Ask.com. IstÀllet för en linjÀr lista med 10 trÀffar med möjligen en YouTube-video insprÀngd som i t.ex. Google fÄr vi tre kolumner med trÀffar. Varje trÀff presenteras med ett lÀngre textutdrag Àn vad som Àr vanligt och mÄnga med bilder till. Det gör att fÀrre trÀffar syns pÄ en gÄng men Ä andra sidan ser det trevligare ut. En kuriositet Àr att bilderna ibland inte kommer frÄn webbsidan ifrÄga. PÄ en sökning pÄ internetbrus illustrerades en av vÄra sidor med ett fjÀrilsmönster!?

Cuils bakgrundsfÀrg Àr nattsvart (energisnÄlt) och andra fÀrger i grÀnssnittet Àr blÄtt och grÄtt. Som tur var Àr bakgrunden till trÀffpresentationerna vit! Ett par saker stÄr ut. Liksom i Yahoo och Ask fÄr man förslag pÄ sökuttryck samtidigt som man skriver i sökrutan och det Àr en tidsbesparande funktion. Sedan fÄr man ocksÄ förslag pÄ mer fokuserade sökningar i form av flikar i trÀfflistan. NÀr jag sökte pÄ Sundsvall fick jag flikar för Gif Sundsvall, Sundsvall Dragons och Sundsvall Hockey. Inte sÄ illa.

Sedan har vi den intressanta funktionen Explore by Category. Först trodde jag det skulle vara automatgenererade kluster hÀr men det verkar vara nÄgon slags named entity recognition som anvÀnts. Det annorlunda Àr att det inte bara Àr ett antal igenkÀnda namn pÄ personer, platser eller företeelser frÄn texten. De Àr indelade i begripliga grupperingar som bebop-pianister, indiska kricketspelare, allsvenska klubbar, komponister för kyrkorgel m.m. och det har jag inte sett förut. Att klicka pÄ nÄgot i fönstret Explore by category innebÀr liksom att anvÀnda flikarna en fokusering av sökningen eftersom det man klickar pÄ lÀggs till det ursprungliga sökuttrycket.

Det finns tyvÀrr ingen som helst dokumentation av söksyntaxen i Cuil Àn sÄ lÀnge men det kommer sÀkert. Cuil sparar förresten ingen information i sökloggar som gör att det gÄr att identifiera vem som har gjort olika sökningar. PÄ det sÀttet visar man att man Àr medveten om att det finns krav pÄ större rÀtt till anonymitet dÄ man anvÀnder sökmotorer nu Àn tidigare, t.ex. inom EU. Vi fÄr se vad som hÀnder med Cuil, om de kan förbÀttra det som inte Àr sÄ bra, men det Àr i alla fall roligt med fler sökmotorval.

Googles Wikipedia-variant Knol nu lanserad

25 Juli 2008 av Lars VÄge

I förrgÄr tillkÀnnagavs pÄ Googles officiella blogg att deras encyklopediprojekt Knol nu Àr publikt tillgÀngligt för första gÄngen. Vi har tidigare skrivit om Knol och Googles tankar om tjÀnsten och hur den skulle fungera. I Knol Àr alla artikelförfattare kÀnda och man kan inte som i Wikipedia redigera vilken artikel man vill. DÀremot kan man lÀmna förslag pÄ Àndringar till den namngivne författaren som sedan kan göra vad han/hon vill med de inskickade förslagen. Det gÄr ocksÄ att kommentera artiklarna och betygsÀtta dem. Om författaren vill kan denne aktivera Googles annonstjÀnst AdSense pÄ artikelsidan och försöka tjÀna lite pÄ det hela ocksÄ.

Mina första intryck av Knol Ă€r minst sagt blandade. Visst finns det en poĂ€ng med att se vem som skrivit artiklarna men det gör ju inte texterna bĂ€ttre. Vissa av författarna Ă€r f.ö. bara presenterade med namn. Det mesta hittills verkar vara artiklar om medicinska Ă€mnen och det finns tyvĂ€rr inget sĂ€tt att blĂ€ddra Ă€mnesmĂ€ssigt sĂ„ man lĂ€ttare hittar artiklar om andra Ă€mnen. Som det Ă€r nu fĂ„r man mest intrycket av att Knol Ă€r en medicinsk webbplats med blandad och oorganiserad information. SĂ€rskilt seriös verkar den inte heller med rubriker som Plain old bag o’ knols. Jag vet inte riktigt vad Google ska göra för att fĂ„ Knol intressantare, det rĂ€cker ju inte bara att de Ă€r inblandade för att det ska bli nĂ„got.

Yahoos index det frÀschaste enligt vetenskaplig studie

18 Juli 2008 av Lars VÄge

För ett par Är sedan roade vi oss med att hÄlla koll pÄ frÀschören pÄ sökmotorernas index genom att jÀmföra hur snabba de var pÄ att indexera vÄr egen webbplats. Det gör vi inte lÀngre men med Firefox-tillÀgget Resurrect Pages som beskrivs hÀrunder gÄr det snabbt att göra stickprov av de tre stora sökmotorernas index. TyvÀrr Àr inte Yahoos cachade dokument daterade. DÀrför Àr det enklast med webbsidor som har nÄgon form av datummarkering som t.ex. dagstidningar och bloggar.

Jag kollade ett tiotal webbplatser och det var genomgÄende för dessa att Yahoo var bÀst uppdaterat och för det mesta hade en eller flera dagar frÀschare indexering gentemot Google och Microsoft medan kollen mot Gigablast inte fungerade nÀr jag testade. Det var ju en helt ovetenskaplig undersökning frÄn min sida det inser jag men den bekrÀftas faktiskt av en vetenskaplig artikel som ska publiceras senare i Är i Journal of Information Science.

I preprintet till A three-year study on the freshness of Web search engine databases av Dirk Lewandowki kan man konstatera att denna sÀger ungefÀr samma sak. I en figur pÄ sidan 15 visar Lewandowski att Google i 68% av fallen behöver 2 dagar för att göra en sida som deras spindel hÀmtat tillgÀnglig för sökning. För Yahoo gÀller att i 50% av fallen Àr webbsidan sökbar samma dag som den hÀmtats av Yahoo. Microsoft verkar behöva 1-2 dagar och Àr ocksÄ nÄgot bÀttre Àn Google men uppenbart Àr som sagt att Yahoo gör det hÀr bÀst.

Egentligen förvÄnar det mig inte. Yahoo fick med köpet av Overture tekniker frÄn bÄde Altavista och FAST Search & Transfer (AlltheWeb) som bÀgge satsat mycket pÄ snabb indexering och att ha ett sÄ uppdaterat sökindex som möjligt. Tidigare hade Yahoo ocksÄ köpt sökföretaget Inktomi som hade utvecklat en oerhört kraftig sökmotorspindel som heter Slurp. Med en lyckad kombination av tekniker som kan snabb spindling och snabb indexering fÄr man naturligtvis ett frÀscht sökindex.

VÀck liv i döda lÀnkar med Resurrect Pages

18 Juli 2008 av Lars VÄge

Det verkar som det finns Firefox-tillÀgg för nÀstan vad som helst. Det gÀller att hÀnga med och Resurrect Pages hade jag helt missat. Ett mycket praktiskt tillÀgg som gör det lÀtt att fÄ fram cachade kopior av webbsidor som man inte fÄr upp nÀr man surfar. Kan ocksÄ anvÀndas för att hÄlla kolla pÄ hur fÀrsk indexeringen Àr i de tre största sökmotorerna. Man kan installera Resurrect Pages frÄn den hÀr sidan. TillÀgget Àr inte nytt utan har funnits i tvÄ Är och verkar stabilt och pÄlitligt.

SÄ hÀr anvÀnder man Resurrect Pages enklast tycker jag. Surfa till sidan du inte kommer Ät och nÀr du fÄtt upp felmeddelandet att webbplatsen inte svarar eller sidan inte finns mer högerklicka. I menyn som kommer fram finns nu alternativet Resurrect this Page. NÀr man klickat dÀr fÄr man upp en ruta frÄn vilken man kan vÀlja cachekÀlla och visning. Antingen kan man visa den cachade sidan i samma webblÀsarfönster eller i en ny flik eller ett nytt fönster. Sedan gÀller det att vÀlja kÀlla. De tre största sökmotorerna Yahoo, Google och Live Search har alla cachade kopior och de tre finns bland valen under From mirror liksom den lite mindre sökmotorn Gigablast.

Förutom dessa vanliga sökmotorer som kan visa den senast indexerade versionen av sidan finns naturligtvis Internet Archive dÀr man kan vÀlja bland kopior lÀngre bak i tiden. Ett annat alternativ Àr WebCite som Àr ett mycket intressant och viktigt initiativ för att göra det enkelt att lagra och lÀnka till kopior av webbsidor som de sÄg ut dÄ man citerade dem i t.ex. en forskningsartikel. HÀr finns det naturligtvis ett mycket begrÀnsat utbud men man kan ju ha tur. Slutligen finns ocksÄ The Coral Content Distribution Network som ett alternativ. Coral CDN har inga cachade kopior utan erbjuder tillgÄng via ett nÀt av proxyservrar som gör det lÀttare att komma Ät webbplatser med hög belastning.

Spionbugg i Eniros mobilsök upptÀckt av Computer Sweden

15 Juli 2008 av Lars Iselid

Computer Sweden avslöjade igĂ„r att man upptĂ€ckt en allvarlig spionbugg i Eniros mobilsök. Förra veckan lanserade Eniro en mobil postioneringstjĂ€nst kallad “Sök nĂ€ra dig” som gör att du kan söka efter affĂ€rer och restauranger dĂ€r du befinner dig. Computer Sweden upptĂ€ckte att det gick att slĂ„ in andras mobilnummer och se var denna mobilen befann sig. En allvarlig bugg som inte ger nĂ„got större förtroende för Eniro, men det Ă€r Ă€ndĂ„ kul att de satsar pĂ„ mobil sökning. TjĂ€nsten Ă€r för tillfĂ€llet stĂ€ngd och tur Ă€r vĂ€l det.

Förra veckan lanserade Eniro Àven en iPhone-anpassning för att som de skriver:

“…bĂ€ttre nyttja iPhones stora skĂ€rm och grafiska presentationsmöjligheter.

Jag tillhör fortfarande de (o)lyckliga? som inte har en iPhone, men i UmeÄ behagar man till och med att köa lÄngt i förvÀg nÀr Telia gjorde sitt iPhone-slÀpp.

BOSS - bygg din egen söktjÀnst med Yahoo

12 Juli 2008 av Lars VÄge

Att kunna bygga egna specialiserade söktjÀnster genom att vÀlja ut speciella kÀllor som man söker mot Àr inget nytt. Google Co-op har funnits ett par Är och sociala söktjÀnster och swickitjÀnster som Eurekster och Rollyo likasÄ. Nu ger Yahoo tillgÄng till ett programmeringsgrÀnssnitt kallat BOSS (Build your own search engine) med vilket man ska kunna göra samma saker och mer dÀrtill. I utvecklarbloggen skriver BOSS-teamet att eftersom det idag Àr i princip omöjligt att slÄ sig in pÄ sökmotormarkanden sÄ vill man erbjuda ett alternativ. Med BOSS-API:n ska det vara möjligt att göra mÄnga intressanta lösningar och man pekar pÄ nÄgra tidiga exempel i form av Hakia och Cluuz. Mer information om BOSS finns bl.a. pÄ sidorna Yahoo! Search BOSS och BOSS Mashup Framework, och i utvecklaren Vik Singhs blogg: BOSS - an insider view.

Eniro inte först ut med mobilsök i Sverige

2 Juli 2008 av Lars Iselid

Eniro.se lanserar idag mobilsök och hÀvdar i sitt pressmeddelande:

“Mobil.eniro.se blir först ut i Sverige med att lansera en söktjĂ€nst för mobila Internetsajter”.

Hmm, ni glömde bort att Sesam har svenskt mobilsök (och dĂ„ menar jag mobilt sökindex): mobil.sesam.se. Eniro har samma startrutor med Vad/Vem/Nummer respektive Var(adress el. ort) i mobilsök som i webbsökningen. En sökning i första rutan pĂ„ t.ex. Zlatan ger bĂ„de trĂ€ffar i ett index över enbart mobila webbsidor och trĂ€ffar i Personer och Köp och sĂ€lj. Även Kartor, VĂ€gbeskrivning och Gula sidorna Ă€r sökbara. VĂ€ljer man att klicka direkt pĂ„ lĂ€nken Sök moblit internet kommer man direkt till mobilindexet. DĂ€r kan man vĂ€lja att begrĂ€nsa sin sökning via Ämne, Hur, För vem, NĂ€r eller klicka pĂ„ detaljsök och skriva/trycka in ord.

Om vi jĂ€mför Eniros mobila index med Sesams dĂ„? En sökning pĂ„ Zlatan ger 18 trĂ€ffar i Sesam men bara 2 trĂ€ffar i Eniro. Även om nĂ„gra trĂ€ffar i Sesam Ă€r irrelevanta sĂ„ fĂ„r man fler mobila webbsidor. En sökning pĂ„ Öland ger 16 trĂ€ffar i Sesam och ingen trĂ€ff i Eniro. Sesam ger mer info men viss irrelevans och som vi skrivit tidigare hade Sesam problem Ă€ven med spam och porr pĂ„ den norska varianten. Eniro ger dock 0 trĂ€ffar pĂ„ flera sökningar jag testar dĂ€r Sesam ofta ger ett antal trĂ€ffar Ă„tminstone.

Sesam och Eniro har alltsÄ enbart mobilanpassade webbsidor i sina index och har inget webbindex som Google mobilsök har, dÀr dom konverterar webbsidor till mer mobilanpassade sidor. Kul att att fÄ tillgÄng till Eniros söktjÀnster via mobilen, men jag sedan lÀnge vant mig vid Hitta.se pÄ mobilen.

Google och Yahoo lÀr sig indexera Flash

1 Juli 2008 av Lars Iselid

Google meddelar att de precis har lanserat en ny algoritm för indexering av Flash. PĂ„ Google Webmaster Blog beskriver de mer ingĂ„ende tillvĂ€gagĂ„ngssĂ€ttet. De har riktat in sig pĂ„ alla sorters SWF-filer och olika flash-element som knappar, menyer, banners etc. Även lĂ€nkar i flash-filer samlas in och stĂ€lls i kö för att bli spindlade. Fast de lĂ€gger in en passus:

“…may now be better able to discover and crawl more of your website”.

Vilket jag tolkar som att de inte alltid lyckas med indexeringen. Sedan Àr de tydliga med att förklara att det bara Àr text i sjÀlva flash-filen som indexeras, inte om det bara Àr bilder med text i flash-filen. Vill man inte att Google ska indexera text frÄn flash-filen, t.ex. text om upphovsrÀtt, sÄ rekommenderas att man helt enkelt lÀgger det i en bild i sjÀlva flash-filen.

Dessutom bryr de sig inte om lÀnktexten, vilket ju Àr ett viktigt rankingkriterium i Googles vanligtvis. Detta med tanke pÄ det utbredda fenomenet Googlebombning. De bryr sig inte heller om FLV-filer som t.ex. YouTube anvÀnder.

Hur gĂ„r det dĂ„ till nĂ€r Google spindlar en flash-fil? Tja, det Ă€r naturligtvis en hemlighet hur det gĂ„r till i detalj men algoritmen har kunnat förbĂ€ttrats genom att anvĂ€nda Adobe’s nya Searchable SWF library. DĂ€r kan man lĂ€sa att Adobe samarbetar bĂ„de med Yahoo och Google men pĂ„ Yahoos blog finns inget mer nĂ€mnt frĂ„n deras sida i skrivande stund.

Det finns tre huvudsakliga tekniska begrÀnsingar i Googles spindling av flash just nu:

1. Vissar typer av javascript. Om Flash-filen laddas av ett javascript kan Google ha problem.

2. InnehÄll frÄn externa resurser som laddas av flash-filer. T.ex. om flash-filen laddar en HTML-fil, XML-fil, SWF-fil etc. Google kommer att indexera dessa resurser separat och rÀknas inte just nu som en del av innehÄllet i din flash-fil.

3. Google har stöd för de flesta av vÀrldens sprÄk men Àn sÄ lÀnge finns inte stöd för t.ex. arabaiska och hebreiska, men det kommer.

InnebÀr dÄ detta att vi kan slÄ alla flash-kritiker pÄ fingrarna? Nej, inte i mina ögon, men det Àr en klar förbÀttring för de som redan lagt ut en massa pengar pÄ att anlita en dyr flashreklamwebbyrÄ.

Hörde pĂ„ en podcastintervju nĂ€r jag cyklade till jobbet med Ianus Keller gjord av Nicole Simon pĂ„ Cruel to be kind. Hon sĂ€ger:”I hate flash. Because it restricts me in so many ways…” (About 14:30 of 47:23). Vill du höra mer av hennes argument och Iannus svar Ă€r det bara att lyssna frĂ„n ca 13:00 och framĂ„t ett antal minuter.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator