Kan sociala bokmärkestjänster förbättra sökningen?

Paul Heymann, Georgia Koutrika, Hector Garcia-Molina vid Stanford University i USA har skrivit preprintartikeln “Can Social Bookmarking Improve Web Search?” [PDF], där man utvärderat den sociala bokmärkestjänsten Del.icio.us för att se om datan kan användas för att förbättra webbsökning.

I analysen har man de senaste åren samlat ihop 40 miljoner bokmärken från just Del.icio.us av existerande 115 miljoner. Särskilt har man tittat på de taggar som används och sett att taggar finns i 50% av alla sidor som annoterats och enbart i 20% av fallen existerar de inte i sidtexten, i texten på sidan från en inkommande länk eller i texten på en sida från en utgående länk. De konstaterar att sociala bokmärkestjänster kan bidra med data som inte finns via andra resurser, men att datan inte är av den storlek och mångfald av taggar som skulle kunna betyda betydande förbättring av webbsökningen. Slutsatsen är också att taggarna överraskande i de flesta fall var både relevanta och objektiva.

Intressant trots allt är att taggarna i viss omfattning (20%) ändå inte motsvarar de ord som finns i närliggande text. Det visar ändå på betydelsen av människors taggning och även professionell ämnesordsindexering för att förbättra informationssökningen. Om det i majoriteten av dessa 20% av fallen är bra beskrivande taggar, som de påstår, visar studien på att en text kan behandla ett ämne utan att de naturliga sökorden finns med. Inget frapperande, men ändå viktigt att konstatera.

Låt säga att man vill ha något om Tyskland men ordet Tyskland används aldrig på ett relevant dokument men däremot Stuttgart och Schwarzwald och bratwurst och tyskar. Om en människa, i detta fall en användare av Del.icio.us eller en bibliotekarie som bygger upp en databas, ser på dokumentet och ser att det handlar om Tyskland i bredare bemärkelse, förutom Stuttgart etc., kan de sätta dit ämnesordet Tyskland och vips blir det sökbart på ordet Tyskland.

Det visar pÃ¥ problematiken mellan fritext- och ämnesordssökning. Ta som exempel en medicinsk välstrukturerad referensdatabas som PubMed. I en fritextsökning (om vi skulle avaktivera mappningen som sker mot MeSH-termarna dvs. ämnesorden) kan de ord som används av användaren kanske inte existera i titel eller abstract men däremot i de ämnesord bibliotekarien lagt dit. (Men pÃ¥ samma sätt kan även ord som inte förekommer som ämnesord användas i titel och abstract och samtidigt vara sökord användaren skulle använda i vissa sökfrÃ¥gor, men det är ett annat spÃ¥r). Ämnesord och övrig text kompletterar varandra i informationssökningen. Om detta finns naturligtvis mycket skrivet i biblioteks- och informationsvetenskapen. Ett av mÃ¥nga exempel är “Bibliographic database access using free-text and controlled vocabulary” av Jaques Savoy.

Google byggger inte upp sitt index utifrån ämnesord (förutom i den mån de förmodligen tar viss hänsyn till folksonomies i bl a del.icio.us och bloggar), vilket också är ogörligt på så stora mängder ostrukturerad information. Regelrätta ämnesord existerar helt enkelt inte på webbsidor. Google lyckas ändå presentera i de flesta fall åtminstone nån relevant träff eller så pass många träffar som en användare orkar bläddra och skrolla igenom. Det är dock svårt att veta vilka relevanta träffar som skulle ha kunnat finnas där om taggar och ämnesord användes mer konsekvent.

I Google vet man vad man fÃ¥r men sällan vad man ocksÃ¥ hade kunnat fÃ¥ ifall……. För mÃ¥nga användare (därav Googles succé) är det naturligt inget problem. Det man inte vet om mÃ¥r man inte dÃ¥ligt av, som det brukar heta. Däremot för den användare som vill skrapa igenom ett omrÃ¥de mer ordentligt kan det vara förödande. Strukturerade databaser kommer därför i överskÃ¥dlig framtid att fylla sin roll. Det gäller bara att hÃ¥lla fram dom i vÃ¥ran googlifierade värld. Kanske kan ändÃ¥ folksonomies i framtiden tillsammans med professionell ämnesordsindexering bidra till förbättrad webbsökning. Eller som Heymann et al skriver:

“All is not doom and gloom however. Specifically, if social bookmarking continues to grow at the rate it has over the past several years (rather than the past several months) then it will rapidly reach the scale of the current web./—/We believe that the challenges outlined in this paper can be met in the future, but only time will tell”.

De skriver också i slutet:

Another approach might be to have domain-specific sites (e.g., photography) which might have
higher quality tags due to the shared context of the users.

Flickr är väl ett exempel men ocksÃ¥ Polar Rose är ett annat sätt att ta hjälp av bÃ¥de det maskinella algoritmiska och “wisdom of the crowds”-taggning.

5 kommentarer på “Kan sociala bokmärkestjänster förbättra sökningen?”

  1. Beta Alfa » Att hitta det man inte visste man letade efter skriver:

    […] Internetbrus: Kan sociala bokmärkestjänster förbättra sökningen? […]

  2. Relevanta sökresultat med hjälp av sociala bokmärkestjänster | Utvbloggen skriver:

    […] Via Beta Alfa sÃ¥ hittade jag ett intressant inlägg av Lars Iselid pÃ¥ bloggen InternetBrus som handlar om hur sociala bokmärkestjänster kan förbättra sökresultaten. Läs hans intressanta inlägg här. […]

  3. Peter Karlberg skriver:

    Kanske av intresse i sammanhanget är ett europeiskt projekt kallat MELT som bland annat undersöker just frågan om hur social tagging kan användas för att utöka metadatan om lärresurser (alltså inte på Internet generellt utan inom en domän). Riina Vuorikari är den som leder det arbetet och hon har nog skrivit en del.

  4. Lars Iselid skriver:

    Antar att du menar detta:
    http://info.melt-project.eu/ww/en/pub/melt_project/welcome.htm

  5. Folk er flinke og vil vel « Nedrelid.com skriver:

    […] Kan sociala bokmärkestjänster förbättra sökningen? | internetbrus Tord E. Nedrelid © www.nedrelid.com […]

Skriv en kommentar