Arkiv för November 2007

Analys av sökstatistik pÄ sökmotorerna frÄn Compete

30 November 2007 av Lars Iselid

Sökanalysföretaget Compete har analyserat sökstatistik frÄn Google, Yahoo, MSN och kommit fram till följande:

“…top 1% of searchers performs a full 13% of all searches in a given month. If you extend this to the top 20% the number of queries increase to roughly 70%”.

Sökstatistiken har kommenterats bÄde av Greg Linden och John Battelle. Battelle hÀvdar att man med denna statistik kan dra slutsatsen att enbart ha som strategi att förenkla saker för den vanliga anvÀndaren kan bli missriktande. Greg Linden instÀmmer men han menar att det viktigaste Àr vilka av dessa besökare, de vanliga eller de avancerade anvÀndarna, som klickar pÄ annonserna som ger sökmotorerna sina inkomster. I John Battelles kommentarfÀlt spekuleras det att det Àr de vanliga anvÀndarna som klickar mest. Ska en sökmotor inte anpassas Àven för avancerade anvÀndare av den enkla orsaken att de ÀndÄ Àgnar sig mer Ät sök Àn annonsklickning?

MÄnga av de avancerade anvÀndarna Àr de som sprider ryktet om sökmotorn till sÄdana som kanske Àr pÄ vÀg frÄn vanliga anvÀndare till toppanvÀndare eller som anvÀnder andra sökmotorer eller ingen alls. MÄnga toppanvÀndare Àr sökmotorers reklampelare skulle jag vilja hÀvda. En sökmotor som inte bryr sig om toppanvÀndares behov kan tappa dom och spelar det nÄgon roll dÄ om de försvinner om de ÀndÄ inte annonsklickar? ToppanvÀndare kan dra med sig andra toppanvÀndare eller vanliga anvÀndare.

Jag har sjÀlv hÀvdat mÄnga gÄnger i mÄnga Är att detta enorma (hos sökmotorföretagen och nu ocksÄ databasleverantörer) fokus pÄ den gemensnittliga, vanliga, ovana anvÀndaren, eller vad man vill kalla det, Àr överdrivet. Bland annat i den förelÀsning jag höll för ett Är sedan i RumÀnien tog jag upp denna problematik: The hunt for a perfect interface in a googlified world (Se bild 5).

Visst en sida bör anpassas för sĂ„ mĂ„nga som möjligt, men man fĂ„r inte glömma bort de krav som toppanvĂ€ndarna har bara för att vara till lags för den vanlige potentiella klickbenĂ€gna anvĂ€ndaren. Jag har bland annat argumenterat om detta nĂ€r jag för tvĂ„ Ă„r sedan intervjuade Anurag Acharya, en av tvĂ„ skapare av Google Scholar. Google Scholar har nĂ€mligen hoppat över mĂ„nga vanliga avancerade funktioner med argumentet att avancerade funktioner inte anvĂ€nds. Till exempel finns varken ISSN-sökning eller författaradress-sökning i Google Scholar. De flesta sökningar som toppanvĂ€ndare gör innefattar sĂ€kert inte avancerade funktioner sĂ„ ofta, men sĂ€kert mer Ă€n vanliga anvĂ€ndare. Det Ă€r ocksĂ„ en del av dessa toppanvĂ€ndare som jobbar professionellt med sökning till exempel forskare, bibliotekarier, journalister som i sin tur kan sprida och sprider kunskapen om att anvĂ€nda dessa funktioner. Hur mĂ„nga kurser har jag inte haft om Google och andra sökmotorer nĂ€r vanliga anvĂ€ndare jublar över att fĂ„ lĂ€ra sig frassökning med citationstecken, OR-operatorn eller söksyntaxer som define:, link:, site:, filetype:? Är det sĂ„ enkelt att detta innebĂ€r att de tar steget frĂ„n klickbenĂ€gna sĂ€llangooglare till klickobenĂ€gna toppgooglare?

Om vi kommer fram till att en minoritet stĂ„r för mĂ„nga sökningar och Ă€r Ă„terkommande anvĂ€ndare sĂ„ innebĂ€r det att Google Scholar borde ha mer av de avancerade funktioner som vanliga referensdatabaser har, till exempel PubMed. Det kan vara kontraproduktivt att stĂ€ndigt bli utvĂ€rderad som en dĂ„lig forskningssöktjĂ€nst för att man vĂ€grar lĂ€gga till avancerade sökfunktioner. Jag tĂ€nkar bland annat pĂ„ allt negativt professor Peter Jacso skrivit om Google Scholar och som jag antar pĂ„ olika sĂ€tt Ă„tminstone delvis spridit sig till bibliotekariekĂ„ren. Don’t underestimate the power of the power user’s!

Frukostseminarium om sökoptimering med Relevant Traffic, iProspect, Jajja och TS

29 November 2007 av Lars Iselid

Hade vÀgarna förbi Stockholm igÄr onsdag 28 november och passade pÄ att lyssna pÄ ett frukostseminarium anordnat av Tidningsstatistik pÄ restaurang Grodan, sveavÀgen 9, dÀr TS och tre av fyra TS-reviderade företag deltog, nÀmligen Relevant Traffic, Jajja och iProspect. Jag har tidigare kritiserat denna revision hÀr pÄ Internetbrus, eftersom jag inte tycker det Àr trovÀrdigt att SEO-företagen betalar pengar till TS för att bli reviderade och dessutom sitter med i deras arbetsgrupp för att utarbeta revisionskriterier.

Visst, för att kolla upp det TS kallar “kundpolicy, trafikstatistik, transparens av inköpspriser (sponsrade lĂ€nkar)” kan det vĂ€l duga med TS precis som TS genom Ă„ren anvĂ€nts för att granska tidningarnas upplagor. Men nĂ€r det gĂ€ller att sĂ€tta upp kriterier för blackhat SEO, spamdexing, manipulering, spamming, SEO-skojeri, fuloptimering eller vad man vill kalla det behöver vi nĂ„got mer oberoende Ă€n TS. Som det Ă€r nu blir det de stora med pengar som betalar för att bli reviderade och fĂ„r nĂ„gon slags kvalitetsstĂ€mpel vilket i grunden Ă€r en bra tanke, men hur bra koll har TS? Kollar de mer regelbundet vad de reviderade företagen gör? De besöker företagen och intervjuar de etc, men har de koll pĂ„ vad som hĂ€nder dĂ€rute pĂ„ trĂ€fflistorna? KĂ€nner de till att Jajja precis som Google gett upphov till ett nytt verb? Det Ă€r bara googla jajjad sĂ„ fĂ„r ni se.

Intressant var att Jajjas vd Mattias Kellquist sa att “Google Ă€r en stor lĂ€nkfarm”. Hmmm… En lĂ€nkfarm Ă€r en lĂ€nkfarm Ă€r en lĂ€nkfarm, dvs. en webbkatalog i förklĂ€dnad. Enbart skapad för att skapa mer lĂ€nkkraft till kunder. Namnet i sig beskriver en i mina ögon icke acceptabel metod. Wikipedia skriver:
“A link farm is a form of spamming the index of a search engine…”

HÄller ni inte med Àr det ju bara att gÄ in pÄ Wikipedia och Àndra texten sÄ fÄr ni se om ni fÄr pÄ bÄten;-)

TS sa ocksÄ att de inte sysslar med certifiering utan revision. Kanske Àr det just certifiering som behövs för de som vill ha en renare bransch och inte nÄgon lam revision. Visst, certifiering Àr mer krÀvande. Det pratas ocksÄ i branschen om den grÄzon som finns vad gÀller otillÄtna metoder. En grund att stÄ pÄ Àr ju sökmotorernas egna regler men förutom detta. I mina ögon Àr inte grÄzonen sÄ stor och otydlig som mÄnga hÀvdar. GrÄzonen Àr ofta ett svepskÀl. Gör de det hÀr sÄ gör vi det hÀr och i efterhand skyller man pÄ en grÄzon. AnvÀnder man bara sin vanliga moral (och lÀser sökmotorernas regler) Àr det nog ganska tydligt vad som Àr fuloptimeirng och inte. GrÄzonen blir genast mycket mindre.

Sen Ă€r det ju detta med hur SEO-företagen ska ta betalt. FörvĂ„nande nog var de absolut positiva i panelen till att kompetensen byggs upp i företagen. SĂ€rskilt Jajjas vd sa att de jobbar mycket med att vara nĂ€ra kunden och bygga upp kompetensen inom huset. Även om panelen hĂ€vdade att tid Ă€r pengar och mĂ„nga kunder vill köpa tjĂ€nsten istĂ€llet.

PÄ en frÄga frÄn publiken svarade Jajja att man debiterade enligt modellen sökresultat-baserat. Om den optimerade sidan vandrat uppÄt i trÀfflistan tar man betalat för det. Jaha, pÄ vissa överenskomna nyckelord och fraser dÄ? Hur kan man vara sÀker pÄ att vandringen uppÄt beror pÄ optimeringen? Den kvalitativa trafiken som innebÀr nÄgon form av avslut sker ju inte alltid pÄ de nyckelord och fraser som man tror. Tycker nog att modellen Agent Interactive numer anvÀnder som de kallar resultatbaserad sökmotoroptimering dÀr man mÀter avslut Àr mer tydlig för kunden Àn Jajjas. Getupdated har nÄgot liknande som de kallar Pay-per-action.

I vanlig ordning pÄstod panelen ocksÄ att traditionellt SEO-skojeri inte lÀngre existerar. Sökmotorerna ser igenom detta. För ganska exakt ett Är sedan upptÀckte jag en i vanlig klassisk manipulering med smÄ vita bokstÀver (pÄ vit bakgrund) i Yahoo. PÄ Nikke Index kan man lÀsa om de senaste i raden av SEO-skojare och i Norge finns bloggen SEO spam cops som skriver pÄ engelska.

Relevant Traffics VD Filip Scheja, som Ă€r vĂ€ltalig och tydlig, frĂ„gade efterĂ„t om jag uppskattade formen frukostseminarium. Visst, absolut, men lite mer hetta i debatten :-) med mer kritiska röster hade ju varit en fördel. TS Charlotte ThĂŒr Ă€r vĂ€l kanske inte den mest neutrala moderatorn i detta fall. Det Ă€r ett problem nĂ€r SEO-företag och SEO-knĂ„pare inte kan föra en konstruktiv och kritisk debatt, nĂ€r risken för stĂ€mning alltid hĂ€nger över den som pĂ„ nĂ„got sĂ€tt har en förtjĂ€nst frĂ„n SEO hittar fuloptimering hos nĂ„gon aktör. Jag tĂ€nker sĂ€rskilt pĂ„ Mediaanalys stĂ€mning av Nikke Lindqvist.

What’s Next podcast intervjuar Polar Rose CEO Nikolaj Nyholm

27 November 2007 av Lars Iselid

“Images becomes hyperlinks”, sĂ€ger Nikolaj Nyholm, CEO pĂ„ svenska Polar Rose, intervjuad i podcasten What’s Next av Tomas Wennström. Polar Rose sysslar med ansiktsigenkĂ€nning och anvĂ€nder sig bĂ„de av anvĂ€ndarnas taggningar och av egna algoritmer. Ni som Ă€r Ă„terkommande lĂ€sare har redan lĂ€st en hel del om Polar Rose hĂ€r pĂ„ Internetbrus.

Polar Rose har betatestare, japp jag Àr en av dom, som installerat ett tillÀgg i Firefox som kÀnner igen bilder av ansikten. Med hjÀlp av detta tillÀgg kan man skriva in namnet pÄ den som förekommer pÄ bilden, om man nu vet det. Annars fÄr man ocksÄ förslag.

I intervjun disktureras Google Image Labeler som har likheter med Polar Rose Firefox-tillÀgg. Nikolaj nÀmner ocksÄ att Googles bildsökning i det avancerade sökformulÀret tillÄter en avangrÀnsning till ansikten och Tomas Wennström frÄgar dÀrför följdaktligen om Nikolaj tror att Polar Rose verkligen har nÄgot att eget komma med i den internationella konkurrensen pÄ bildsök. Jag tror definitivt att vi har en konkurrenskraftig lösning, svarar Nikolaj. Ja, annars skulle han vÀl inte satsa pÄ Polar Rose.

Nikolaj Nyholm menar ocksÄ att Flickr Àr pÄ vÀg att blir den mest viktiga resursen för forskning och utveckling kring datorseende (eng. computer vision). I intervjun nÀmns projektet Photosynth frÄn Microsoft Labs som gjorts i samarbete med University of Washington dÀr man skapad 3D-modeller av bilder.

Avslutningsvis kommer de ocksĂ„ in pĂ„ frĂ„gan om integritet (eng. privacy) och Nikolaj tror bland annat att intigritetsfrĂ„gor mĂ„ste lösas med en “black list” kontrollerad av en tredje part. Nyholm sĂ€ger ocksĂ„ apropĂ„ den nya synen pĂ„ integritet: “Memory will not be for two weeks after, it will be two decades…”

What’s Next Ă€r en svensk podcast som publicerar intervjuer kring Ă€mnen som web 2.0, nya medier, startups, trender och nĂ€tentrepenörer. Intervjuerna Ă€r ibland pĂ„ svenska och ibland pĂ„ engelska. NĂ„gra gĂ„nger per mĂ„nad hĂ„lls paneldiskussioner om nyheter och nya trender inom teknikomrĂ„det med svenskt perspektiv. Tomas Wennström Ă€r nĂ€tentreprenör och stĂ„r bakom den specialiserade metasöktjĂ€nsten Hittarecept.se. ApropĂ„ integritet kan ni kolla pĂ„ Tomas förehavanden pĂ„ hans Jaiku-konto.

Alla FornvÀnnens artiklar under 100 Är gratis pÄ nÀtet

23 November 2007 av Lars VÄge

FornvÀnnen

Den svenska tidskriften FornvĂ€nnen har slagit upp portarna till en digital upplaga som tĂ€cker Ă„ren 1906-2005. Projektet att skanna in alla artiklar (ca 3000) som publicerats i tidskriften initierades efter hundraĂ„rsjubilĂ©et hĂ€romĂ„ret. Bakom projektet stĂ„r RiksantikvarieĂ€mbetet och Vitterhetsakademiens bibliotek och sjĂ€lva skanningen har utförts av MediaKonverteringsCentrum (MKC) i FrĂ€nsta. Fulltexten Ă€r i PDF-format och varje artikel Ă€r en egen fil som man kan ladda ner. MKC har ocksĂ„ stĂ„tt för att köra de inskannade artiklarna i OCR-progam för att göra sjĂ€lva texten sökbar. Sökmotorn Ă€r SiteSeeker Remote frĂ„n svenska Euroling. Det finns mĂ„nga sökfunktioner och stavar man fel fĂ„r man bra med hjĂ€lp. Är man det minsta intresserad av arkeologi, runologi, kulturminnesvĂ„rd, medeltidsforskning och angrĂ€nsande Ă€mnen fĂ„r man inte missa FornvĂ€nnens digitala upplaga.

Hitta.se och Polar Rose belönade pÄ SIME-galan

19 November 2007 av Lars Iselid

PÄ Ärets SIME-gala fick Hitta.se pris för Best internet strategy och Polar Rose för best technical innovation. SIME anordnar varje Är sedan 1996 en konferens dÀr man belönar belönar framgÄngsrika internetföretag i Skandinavien och Finland.

Motiveringen för valet av Hitta.se lyder:
“Genom att behĂ„lla enkelheten och fokusera pĂ„ anvĂ€ndarvĂ€nlighet har detta företags strategi nĂ„t fram till ett vinnande koncept inom kraftigt konkurrensutsatt omrĂ„de. PĂ„ kort tid har de övertagit postionen som nummer ett i Sverige inom sitt omrĂ„de”.

Motiveringen för valet av Polar Rose lyder:
“Hur kĂ€nner du igen ett bekant ansikte i en folkmassa? Det som Ă€r intiutivt för det mĂ€nskliga ögat har inte varit enkelt för datorn. Vinnaren kombinerar den senaste tekniken inom datorseende med en sista finslipning genom feedback frĂ„n mĂ€nniskor”.

Det Àr bara att gratulera Hitta och Polar Rose som Àr vÀrda att belönas.

Men vem fick SIME grand prize? Google, vem annars. MÄste betyda att de fick det för sina insatser i Skandinavien och Finland dÄ. Jag kan inte pÄstÄ att jag tycker Google har fokuserat sÀrskilt mycket pÄ den skandinaviska marknaden, vilket Schibsted med Sesam har gjort, Àven om de inte nÄtt sÄ lÄngt Ànnu och har ekonomiska problem. Google stÄr ohotade med andra ord, sÀrksilt sedan Yahoo mer eller mindre gav upp den skandinaviska markanden för ett antal Är sedan.

PÄ SIME TV kan du se mer frÄn konferensen.

Lecture Browser frÄn MIT med taligenkÀnning

15 November 2007 av Lars Iselid

Lecture Browser frÄn MIT med taligenkÀnning
MIT (Massachusetts Institute of Technology ) i Boston har med taligenkÀnning (eng. speech recognition) skapat en sökmotor under namnet Lecture Browser som indexerar tal i förelÀsningar. En sökning pÄ ordet linux och kategorin Technology and Innovation ger tre trÀffar. Bland annat förelÀsningen The Future of Work av Thomas Malone. DÀr kan man se nÀr han sÀger ordet linux och spela upp just det partiet.

Lecture Browser

Cirka 200 förelÀsningar har indexerats frÄn MIT World och MIT OpenCourseWare. TjÀnsten har utvecklats av Spoken Language Systems Group at the MIT Computer Science och Artificial Intelligence Laboratory. Lecture Browser leds av Regina Barzilay och James Glass.

Sökfunktionen pÄ MIT World Àr inte sÀrskilt avancerad. Man kan begrÀnsa till ett visst antal ÀmnesomrÄden och Àven efter institution/enhet etc. Med Lecture Browser Àr det meningen att man ska kunna söka djupare pÄ ord som nÀmns i förelÀsning och dÀrigenom förbÀttra sökmöjligheterna. Ambitionen Àr att man i framtiden ska kunna lansera en funktion för automatisk textsammanfattning ocksÄ. LÀs mer om Lecture Browser i MIT News.

Google slÀpper SDK för mobila plattformen Android

14 November 2007 av Lars Iselid

Android Àr en mobil platform baserad pÄ Linux som utvecklas av Open Handset Alliance dÀr Google Àr en av de drivande medlemmarna. Nu har Google slÀppt en SDK för Android och erbjuder 10 miljoner USD till de som utvecklar de bÀsta Android-applikationerna.

Utvecklingen av applikationer för Android kan du följa pÄ deras blogg Android Developers Blog.

Se ocksÄ videon med Googles Sergey Brin dÀr han presenterar utmaningen om bÀsta Android-applikationer och hör Steve Horowitz dementera existensen av Gphone.

Babygo - en sÀker sökmotor för barn?

13 November 2007 av Lars VÄge

babygo.jpg
Den franska sökmotorn för barn som kallar sig Babygo har funnits i ungefÀr ett Är och lanserade förra veckan en ny version. UtmÀrkande för Babygo Àr att den hÀvdar att det inte finns nÄgot innehÄll i sökmotorindexet som inte lÀmpar sig för barn. Man skriver att hela de webbplatser som Babygo har indexerat har genomsökts och befunnits barnsÀkra. Det Àr ju svÄrt att lÀmna sÄdana hÀr garantier men det Àr en lovvÀrd ambition.

Babygo Àr som sagt fransk och nÄgot engelskt grÀnssnitt finns inte Àn. Man kan fÄ fem olika sorters trÀffar: vanliga webbsidor, bilder, spelrelaterade trÀffar (Jeux), bilder som ska fÀrglÀggas (Coloriages) och böcker (Livres). De tvÄ sistnÀmnda tycker jag funkade sisÄdÀr men nÄgra roliga svartvita bilder att fÀrglÀgga hittade jag i alla fall. DÀremot fick jag upp samma barnböcker hela tiden. Man kan om man vill begrÀnsa sina sökning till franska sidor eller till definitioner och synonymer. Det sistnÀmnda fungerade bra men jag kunde inte lista ut vilket eller vilka lexikon som anvÀnts.

En praktisk nyhet Ă€r att man kan fĂ„ ett verb böjt i alla möjliga former genom att klicka pĂ„ ikonen Conjugasion. Om man skulle till Ă€ventyrs tveka… En liten minirĂ€knare har man ocksĂ„ inkluderat. Grafiken Ă€r tilltalande och trĂ€fflistorna Ă€r lĂ€ttlĂ€sta och man fĂ„r ocksĂ„ ett ordmoln (nuage des mots) med likartade sökord. En annan bra nyhet Ă€r funktionen Auto-Suggest som gör att man fĂ„r förslag pĂ„ sökuttryck redan medan man skriver i sökrutan. Till sist ska sĂ€gas att Babygo erbjuder cachade kopior och har gruppering av alla trĂ€ffar frĂ„n samma webbplats. Allt som allt en trevlig sökmotor med ett modernt grĂ€nssnitt som gĂ€rna fĂ„r komma i en svensk version.

Kan sociala bokmÀrkestjÀnster förbÀttra sökningen?

9 November 2007 av Lars Iselid

Paul Heymann, Georgia Koutrika, Hector Garcia-Molina vid Stanford University i USA har skrivit preprintartikeln “Can Social Bookmarking Improve Web Search?” [PDF], dĂ€r man utvĂ€rderat den sociala bokmĂ€rkestjĂ€nsten Del.icio.us för att se om datan kan anvĂ€ndas för att förbĂ€ttra webbsökning.

I analysen har man de senaste Ären samlat ihop 40 miljoner bokmÀrken frÄn just Del.icio.us av existerande 115 miljoner. SÀrskilt har man tittat pÄ de taggar som anvÀnds och sett att taggar finns i 50% av alla sidor som annoterats och enbart i 20% av fallen existerar de inte i sidtexten, i texten pÄ sidan frÄn en inkommande lÀnk eller i texten pÄ en sida frÄn en utgÄende lÀnk. De konstaterar att sociala bokmÀrkestjÀnster kan bidra med data som inte finns via andra resurser, men att datan inte Àr av den storlek och mÄngfald av taggar som skulle kunna betyda betydande förbÀttring av webbsökningen. Slutsatsen Àr ocksÄ att taggarna överraskande i de flesta fall var bÄde relevanta och objektiva.

Intressant trots allt Àr att taggarna i viss omfattning (20%) ÀndÄ inte motsvarar de ord som finns i nÀrliggande text. Det visar ÀndÄ pÄ betydelsen av mÀnniskors taggning och Àven professionell Àmnesordsindexering för att förbÀttra informationssökningen. Om det i majoriteten av dessa 20% av fallen Àr bra beskrivande taggar, som de pÄstÄr, visar studien pÄ att en text kan behandla ett Àmne utan att de naturliga sökorden finns med. Inget frapperande, men ÀndÄ viktigt att konstatera.

LÄt sÀga att man vill ha nÄgot om Tyskland men ordet Tyskland anvÀnds aldrig pÄ ett relevant dokument men dÀremot Stuttgart och Schwarzwald och bratwurst och tyskar. Om en mÀnniska, i detta fall en anvÀndare av Del.icio.us eller en bibliotekarie som bygger upp en databas, ser pÄ dokumentet och ser att det handlar om Tyskland i bredare bemÀrkelse, förutom Stuttgart etc., kan de sÀtta dit Àmnesordet Tyskland och vips blir det sökbart pÄ ordet Tyskland.

Det visar pĂ„ problematiken mellan fritext- och Ă€mnesordssökning. Ta som exempel en medicinsk vĂ€lstrukturerad referensdatabas som PubMed. I en fritextsökning (om vi skulle avaktivera mappningen som sker mot MeSH-termarna dvs. Ă€mnesorden) kan de ord som anvĂ€nds av anvĂ€ndaren kanske inte existera i titel eller abstract men dĂ€remot i de Ă€mnesord bibliotekarien lagt dit. (Men pĂ„ samma sĂ€tt kan Ă€ven ord som inte förekommer som Ă€mnesord anvĂ€ndas i titel och abstract och samtidigt vara sökord anvĂ€ndaren skulle anvĂ€nda i vissa sökfrĂ„gor, men det Ă€r ett annat spĂ„r). Ämnesord och övrig text kompletterar varandra i informationssökningen. Om detta finns naturligtvis mycket skrivet i biblioteks- och informationsvetenskapen. Ett av mĂ„nga exempel Ă€r “Bibliographic database access using free-text and controlled vocabulary” av Jaques Savoy.

Google byggger inte upp sitt index utifrÄn Àmnesord (förutom i den mÄn de förmodligen tar viss hÀnsyn till folksonomies i bl a del.icio.us och bloggar), vilket ocksÄ Àr ogörligt pÄ sÄ stora mÀngder ostrukturerad information. RegelrÀtta Àmnesord existerar helt enkelt inte pÄ webbsidor. Google lyckas ÀndÄ presentera i de flesta fall Ätminstone nÄn relevant trÀff eller sÄ pass mÄnga trÀffar som en anvÀndare orkar blÀddra och skrolla igenom. Det Àr dock svÄrt att veta vilka relevanta trÀffar som skulle ha kunnat finnas dÀr om taggar och Àmnesord anvÀndes mer konsekvent.

I Google vet man vad man fĂ„r men sĂ€llan vad man ocksĂ„ hade kunnat fĂ„ ifall……. För mĂ„nga anvĂ€ndare (dĂ€rav Googles succĂ©) Ă€r det naturligt inget problem. Det man inte vet om mĂ„r man inte dĂ„ligt av, som det brukar heta. DĂ€remot för den anvĂ€ndare som vill skrapa igenom ett omrĂ„de mer ordentligt kan det vara förödande. Strukturerade databaser kommer dĂ€rför i överskĂ„dlig framtid att fylla sin roll. Det gĂ€ller bara att hĂ„lla fram dom i vĂ„ran googlifierade vĂ€rld. Kanske kan Ă€ndĂ„ folksonomies i framtiden tillsammans med professionell Ă€mnesordsindexering bidra till förbĂ€ttrad webbsökning. Eller som Heymann et al skriver:

“All is not doom and gloom however. Specifically, if social bookmarking continues to grow at the rate it has over the past several years (rather than the past several months) then it will rapidly reach the scale of the current web./—/We believe that the challenges outlined in this paper can be met in the future, but only time will tell”.

De skriver ocksÄ i slutet:

Another approach might be to have domain-specific sites (e.g., photography) which might have
higher quality tags due to the shared context of the users.

Flickr Ă€r vĂ€l ett exempel men ocksĂ„ Polar Rose Ă€r ett annat sĂ€tt att ta hjĂ€lp av bĂ„de det maskinella algoritmiska och “wisdom of the crowds”-taggning.

Ny söktjÀnst frÄn skolan döpt till Spindeln

5 November 2007 av Lars Iselid

Spindeln söktjÀnst
En fÀrsk söktjÀnst frÄn Myndigheten för skolutveckling (MSU) har döpts till Spindeln. Det var lÀnge sedan jag sÄg ett sÄ ambitiöst försök till en specialiserad sökmotor frÄn det offentliga. Det Àr fritt fram att lÀgga till söktjÀnsten Spindeln pÄ sin egen webbsida.

Spindeln lanserades vid Skolforum förra veckan och har utvecklats vid Institutionen för interaktiva medier och lÀrande, UmeÄ universitet. SÄ hÀr beskrivs den pÄ MSU:s webbplats:

Spindeln Àr en söktjÀnst för elever och lÀrare. Tanken med den Àr att det ska bli lÀtt att söka och hitta digitalt material för skolarbete.

PÄ sidan som ska beskriva Spindeln och tekniken bakom stÄr det:

Spindeln Àr en mÀklartjÀnst för federerad sökning i olika arkiv. Det bygger pÄ en teknik som innebÀr att sökningar sker direkt i flera olika arkiv. Dessa arkiv ingÄr i ett nÀtverk av arkiv som innehÄller digitala lÀrresurser. Det kan vara allt frÄn hela lÀromedel till enkla bilder, ljud och texter.

Man lovar ocksÄ bra trÀffsÀkerhet:

Alla resurser Àr beskrivna och kategoriserade pÄ ett enhetligt sÀtt vilket gör att trÀffsÀkerheten blir bra.

Det Àr aldrig helt rÀttvist att utvÀrdera en söktjÀnst utifrÄn nÄgra slumpmÀssiga sökfrÄgor men det ger i varje fall en fingervisning. En sökning pÄ Tornedalen historia ger tvÄ trÀffar. Klickar man pÄ första trÀffen hamnar man i KulturnÀts webbkatalog som pekar till Tornedalens bibliotek och andra trÀffen i SUNET:s webbkatalog under kategori offentlig förvaltning/kommuner pekar till Pajala kommun. Sökorden tornedalen och historia förekommer lÄngt ifrÄn varandra i dokumenten och trÀffarna blir rÀtt meningslösa.

En sökning pÄ matematik lÄgstadiet ger en trÀff pÄ en sida frÄn Tyska Ambassaden som handlar om Tyskland för elever. Varken ordet matematik eller lÄgstadiet förekommer pÄ sidan. Sidan har antagligen mÀrkts upp av Spindeln med dessa sökord. Sidan blandar dessutom tyska och svenska.

I det avancerade sökformulĂ€ret som heter Sök pĂ„ flera sĂ€tt kan man vĂ€lja att begrĂ€nsa sin sökning. Man kan begrĂ€nsa efter Ă€mne, Ă„lder, sprĂ„k, typ av resurs. Intressant Ă€r att man valt bloggar och wiki som resurs hĂ€r. Svarstiden Ă€r tyvĂ€rr bedrövlig och det stĂ„r dessutom förvirrande medan man vĂ€ntar tĂ„lmodigt: “0 söktrĂ€ffar. VĂ€ntar pĂ„ resultat!” Ibland tar det sĂ„ lĂ„ng tid att det inte Ă€r vĂ€rt att vĂ€nta. DĂ€rfĂ€r söker jag pĂ„ ordet och samt begrĂ€nsning till wiki. Det ger 2049 trĂ€ffar och mĂ€rkliga trĂ€ffar frĂ„n bland annat Rymdforum och Bup.nu och Web4health. Och var Ă€r wikisarna?

Det blir sÄ mÄnga konstiga trÀffar att det inte finns plats eller ork att redogöra för alla hÀr. Man kan undra hur man valt ut webbplatser ocksÄ? Finns nÄgon slags vÀrdering av informationen nÀr man inte har nÄgon stark algoritm som PageRank som kan göra det? Hittar ingen information som beskriver det mer tydligt.

Det tyngsta argumentet till Spindelns existens lÄter sÄ hÀr:

Digitala resurser som till exempel bilder, texter och filmer lagras ofta i digitala arkiv eller databaser. MÄnga av dessa innehÄller material som inte gÄr att söka med vanliga sökmotorer. Vissa arkiv fungerar dessutom sÄ att det inte gÄr att hitta enskilda resurser. Man hittar bara arkivet. Sökningen sker i flera olika leverantörers arkiv men Àr begrÀnsad till de arkiv som innehÄller material för skolarbete. SÄdana arkiv Àr till exempel Utbildningsradions mediearkiv LÀnkskafferiets arkiv och MultimediabyrÄns bildarkiv.

Intention Àr helt rÀtt eftersom bra specialiserade sökmotorer mÄnga gÄnger hittar mer Àn de stora sökmotorerna gör, men det Àr svÄrt att utvÀrdera hur Spindeln lyckas. Men en sökning i Google pÄ site:www.ur.se ger 23.000 trÀffar. En sökning pÄ ur.se i Spindeln ger 63 trÀffar. FrÄgan Àr om Spindeln verkligen lyckats fylla sin intention hÀr. Finns det sidor som Google inte indexerar pÄ ur.se men som Spindeln indexerar? LÀnksskafferiets arkiv nÀmns ocksÄ. Att kalla LÀnkskafferiet som Àr en webbkatalog för arkiv Àr tveksamt. Att indexera webbkataloger rakt av (se tidigare exemplet med KulturnÀt Sverige och Sunet:s webbkatalog) ger oftast inget mervÀrde, oftare bara förrvirrade svar om man dessutom inte fixar till det i relevansalgoritmen.

Idag finns ju Swicki-tjÀnster som Google Co-op dÀr man kan skapa egna specialiserade söktjÀnster. SÄ frÄgan Àr, med tanke pÄ hur Spindeln funkar just nu, om man skulle lyckas bÀttre om man jobbade fram en liknande tjÀnst med Google Co-op? Det Àr ÀndÄ kul med sÄdana hÀr initiativ frÄn det offentliga och jag stödjer försöket, men Spindeln har mycket att fila pÄ om man man inte vill gÄ samma vÀg som Safari gjorde en gÄng i tiden.

Safari var en specialiserad söktjĂ€nst frĂ„n högskoleverket. Redan november 1996 fick Högskoleverket (HSV) regeringens uppdrag att skapa:”…ett nationellt söksystem för lĂ€rosĂ€tenas Internet-baserade forskningsinformation”. Intentionerna frĂ„n regeringen lĂ€t pĂ„ följande sĂ€tt:

”UtgĂ„ngspunkten vid utformningen av systemet skall vara att allmĂ€nhet, skolor och andra utbildningsinstitutioner har intresse av att sĂ„vĂ€l orientera sig allmĂ€nt om forskning som att finna vĂ€gar att skaffa specifi k information om olika forskningsomrĂ„den.”

En utvÀrdering av Safari skrevs av Carl Jacobsson och Sara Billfalk 2002 dÀr kan man lÀsa bland annat följande slutsats:

“Det Ă€r naturligtvis en tilltalande tanke att pĂ„ nationell nivĂ„ ge en bred allmĂ€nhet tillgĂ„ng till universitetens och högskolornas samlade Internetbaserade utbud av forskningsinformation. UtvĂ€rderingen visar dock att SAFARI frĂ„n fl era olika synpunkter inte fungerar tillfredsstĂ€llande, att systemet inte anvĂ€nds i sĂ€rskilt stor utstrĂ€ckning och att det Ă€r tĂ€mligen kostsamt. Vid övervĂ€ganden om SAFARI:s framtid fi nns det goda skĂ€l för att koncentrera sig pĂ„ endast gruppen ”allmĂ€nhet/skola”. MĂ„lgruppen ”forskarsamhĂ€llet” Ă€r knappast intressant, eftersom forskarna har egna, för dem helt överlĂ€gsna internationella informations kanaler, till exempel Medline”.

I Internet Archive kan man se att fram till hösten 2001 fanns Safari pÄ Högskoleverket för att sedan överflyttas till VetenskapsrÄdet och idag lÀnkar safari.hsv.se till Forskningen.se som blev dess efterföljare.

Jag hittar ocksÄ en annan mycket intressant utvikning i rapporten med tanke pÄ att jag sjÀlv under en lÀngre tid plÀderat för (i min a förelÀsningar) att NE borde lÀggas ut fritt pÄ Internet:

Kostnaden för att fÄ Nationalencyklopedin att lÀgga ut en del av sitt material pÄ nÀtet, och dÀrmed göra det gratis tillgÀngligt för alla, Àr inte kÀnd och behöver sjÀlvfallet undersökas. Det kan dock hÀvdas att Nationalencyklopedin skulle fÄ en mycket effektiv reklam för att sÀlja hela verket.

Att lÀgga ut NE gratis för sökmotorerna vore en kunskapsrevolution för skolan och dess elever utan motstycke.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator