Paul Heymann, Georgia Koutrika, Hector Garcia-Molina vid Stanford University i USA har skrivit preprintartikeln “Can Social Bookmarking Improve Web Search?” [PDF], där man utvärderat den sociala bokmärkestjänsten Del.icio.us för att se om datan kan användas för att förbättra webbsökning.

I analysen har man de senaste åren samlat ihop 40 miljoner bokmärken från just Del.icio.us av existerande 115 miljoner. Särskilt har man tittat på de taggar som används och sett att taggar finns i 50% av alla sidor som annoterats och enbart i 20% av fallen existerar de inte i sidtexten, i texten på sidan från en inkommande länk eller i texten på en sida från en utgående länk. De konstaterar att sociala bokmärkestjänster kan bidra med data som inte finns via andra resurser, men att datan inte är av den storlek och mångfald av taggar som skulle kunna betyda betydande förbättring av webbsökningen. Slutsatsen är också att taggarna överraskande i de flesta fall var både relevanta och objektiva.

Intressant trots allt är att taggarna i viss omfattning (20%) ändå inte motsvarar de ord som finns i närliggande text. Det visar ändå på betydelsen av människors taggning och även professionell ämnesordsindexering för att förbättra informationssökningen. Om det i majoriteten av dessa 20% av fallen är bra beskrivande taggar, som de påstår, visar studien på att en text kan behandla ett ämne utan att de naturliga sökorden finns med. Inget frapperande, men ändå viktigt att konstatera.

Låt säga att man vill ha något om Tyskland men ordet Tyskland används aldrig på ett relevant dokument men däremot Stuttgart och Schwarzwald och bratwurst och tyskar. Om en människa, i detta fall en användare av Del.icio.us eller en bibliotekarie som bygger upp en databas, ser på dokumentet och ser att det handlar om Tyskland i bredare bemärkelse, förutom Stuttgart etc., kan de sätta dit ämnesordet Tyskland och vips blir det sökbart på ordet Tyskland.

Det visar på problematiken mellan fritext- och ämnesordssökning. Ta som exempel en medicinsk välstrukturerad referensdatabas som PubMed. I en fritextsökning (om vi skulle avaktivera mappningen som sker mot MeSH-termarna dvs. ämnesorden) kan de ord som används av användaren kanske inte existera i titel eller abstract men däremot i de ämnesord bibliotekarien lagt dit. (Men på samma sätt kan även ord som inte förekommer som ämnesord användas i titel och abstract och samtidigt vara sökord användaren skulle använda i vissa sökfrågor, men det är ett annat spår). Ämnesord och övrig text kompletterar varandra i informationssökningen. Om detta finns naturligtvis mycket skrivet i biblioteks- och informationsvetenskapen. Ett av många exempel är “Bibliographic database access using free-text and controlled vocabulary” av Jaques Savoy.

Google byggger inte upp sitt index utifrån ämnesord (förutom i den mån de förmodligen tar viss hänsyn till folksonomies i bl a del.icio.us och bloggar), vilket också är ogörligt på så stora mängder ostrukturerad information. Regelrätta ämnesord existerar helt enkelt inte på webbsidor. Google lyckas ändå presentera i de flesta fall åtminstone nån relevant träff eller så pass många träffar som en användare orkar bläddra och skrolla igenom. Det är dock svårt att veta vilka relevanta träffar som skulle ha kunnat finnas där om taggar och ämnesord användes mer konsekvent.

I Google vet man vad man får men sällan vad man också hade kunnat få ifall……. För många användare (därav Googles succé) är det naturligt inget problem. Det man inte vet om mår man inte dåligt av, som det brukar heta. Däremot för den användare som vill skrapa igenom ett område mer ordentligt kan det vara förödande. Strukturerade databaser kommer därför i överskådlig framtid att fylla sin roll. Det gäller bara att hålla fram dom i våran googlifierade värld. Kanske kan ändå folksonomies i framtiden tillsammans med professionell ämnesordsindexering bidra till förbättrad webbsökning. Eller som Heymann et al skriver:

“All is not doom and gloom however. Specifically, if social bookmarking continues to grow at the rate it has over the past several years (rather than the past several months) then it will rapidly reach the scale of the current web./—/We believe that the challenges outlined in this paper can be met in the future, but only time will tell”.

De skriver också i slutet:

Another approach might be to have domain-specific sites (e.g., photography) which might have
higher quality tags due to the shared context of the users.

Flickr är väl ett exempel men också Polar Rose är ett annat sätt att ta hjälp av både det maskinella algoritmiska och “wisdom of the crowds”-taggning.


5 Comments on “Kan sociala bokmärkestjänster förbättra sökningen?”

  1. Beta Alfa » Att hitta det man inte visste man letade efter says:

    [...] Internetbrus: Kan sociala bokmärkestjänster förbättra sökningen? [...]

  2. Relevanta sökresultat med hjälp av sociala bokmärkestjänster | Utvbloggen says:

    [...] Via Beta Alfa så hittade jag ett intressant inlägg av Lars Iselid på bloggen InternetBrus som handlar om hur sociala bokmärkestjänster kan förbättra sökresultaten. Läs hans intressanta inlägg här. [...]

  3. Peter Karlberg says:

    Kanske av intresse i sammanhanget är ett europeiskt projekt kallat MELT som bland annat undersöker just frågan om hur social tagging kan användas för att utöka metadatan om lärresurser (alltså inte på Internet generellt utan inom en domän). Riina Vuorikari är den som leder det arbetet och hon har nog skrivit en del.

  4. Lars Iselid says:

  5. Folk er flinke og vil vel « Nedrelid.com says:

    [...] Kan sociala bokmärkestjänster förbättra sökningen? | internetbrus Tord E. Nedrelid © http://www.nedrelid.com [...]