11 April 2008 av Lars Iselid
Förra veckan föreläste jag på Åbo Akademi under titeln: “From editors and authors to users and spammers - a look beyond the hype of web 2.0″. Där stötte jag bland annat på Isto Huvila och Kim Holmberg som är forskare respektive forskarstudent på Åbo Akademi i Finland. Isto forskar om information service 2.0 och har lagt ut en nätenkät om hur vi uppdaterar Wikipedia. Har du någon gång uppdaterat informationen i Wikipedia passa på att svara på Istos webbenkät.
Kim Holmberg forskar om webbometri och kan mycket om Second Life. Han har också lagt upp en webbenkät där han vill att bibliotekarier och bibliotekspersonal som använder eller planerar att använda Second Life svarar.
Här kan man läsa mer om den intressanta forskning som bedrivs på Institutionen för informationsvetenskap, på Åbo Akademi, i Åbo naturligtvis, som lika självklart ligger i Finland.
Kategori: Biblioteksfrågor | 2 kommentarer »
10 April 2008 av Lars Iselid

ReCAPTCHA är en snillrik idé för att hjälpa till i den OCR-baserade digitaliseringen. När tryckt material ska OCR-läsas för att digitaliseras blir avläsningen inte alltid hundraprocentig och måste alltså rättas av en livs levande människa.
CAPTCHA i sin tur är en teknik för att kunna skilja spammare från verkliga människor. Man får upp en “suddig” variant av ett ord som sedan ska skrivas in i och verifieras, vilket bara en människa kan avgöra, inte ett program. (Än så länge ska jag väl tillägga).
Det reCAPTCHA gör är att de presenterar två ord. Ett ord är ett vanligt captcha-ord (för att sortera bort spammare), det andra ett ord som OCR-programmet anser att den inte förstått. Genom att skriva in rätt andra ord har användaren hjälpt till att tolka det ord OCR-programmet inte klarade av. Detta andra ord som skrivs in verifieras dock med hur andra tolkat samma ord för att nå större säkerhet.
Om du installerar reCAPTCHA t ex på din blogg eller wiki så bidrar du till snabbare digitalisering. Vad är det som digitaliseras? reCAPTCHA samarbetar med ideella Internet Archive. En god sak med andra ord.
Men häromdagen framfördes klagomål mot reCAPTCHA på Matt Haughey’s personal blog:
“Last night I tried out the contact form and was surprised that in the first ten images presented to me (keep hitting the little refresh button, the top of the three buttons on the control), at least half were totally undecipherable”.
Eric Goldberg på Stumbleupon föreslår denna lösning i kommentarspåret:
“We have had a similar issue on StumbleUpon, so we added a prominent link that says ‘Can’t read this?’ which calls Recaptcha.reload() to fetch a new image”.
Och förtydligar:
“Also note that users need only answer one of the two words correctly”.
Skaffa reCAPTCHA nu! Eller så kan du gå in på deras sida och bidra med OCR-rättning direkt.
Kategori: Digitalisering | 0 kommentarer »
9 April 2008 av Lars Våge
Vid flera tillfällen har vi skrivit om EU:s Article 29 Working Party som jobbar med frågor kring dataskydd och den personliga integriteten. Nu har arbetsgruppen sammanträffat under två dagar i Bryssel och diskuterat bl.a. en opinion on search engines. Flera internationella medier har rapporterat efter mötet att man vill att sökmotorföretagens sökloggar ska raderas tidigare än vad man sagt förut. Åtminstone en av de här artiklarna länkar till en inofficiell version av vad som kallas Opinion on Data Protection Issues related to Search Engines från arbetsgruppen. Ett dokument som inte går att hitta med EU:s sökmotor RAPID eller på arbetsgruppens webbplats.
I det 29-sidiga PDF-dokumentet diskuteras en mängd olika aspekter av sökmotoranvändande och personlig integritet. Det som har lyfts fram är en rekommendation att sökloggar skulle raderas efter ett halvår. Förra våren och sommaren antog de största amerikanska sökmotorföretagen policydokument som stipulerade att de skulle radera eller anonymisera sökmotorloggar efter 18 månader. Då sade EU:s arbetsgrupp att det var ett bra steg i rätt riktning men nu vill man alltså dra ner tiden till en tredjedel:
In view of the initial explanations given by search engine providers on the possible purposes for collecting personal data, the Working Party does not see a basis for a retention period beyond 6 months. However, national legislation may require earlier deletion of personal data. In case search engine providers retain personal data longer than 6 months, they must demonstrate comprehensively that it is strictly necessary for the service.
Googles Peter Fleischer (Global Privacy Counsel) har uttalat sig i Googles Public Policy Blog om The European Commission’s data protection findings. Han säger bl.a. att:
We believe that data retention requirements have to take into account the need to provide quality products and services for users, like accurate search results, as well as system security and integrity concerns.
The Working Party’s findings also stated that IP addresses should be treated as personal information, with the full weight of data protection laws. Based on our own analysis, we believe that whether or not an IP address is personal data depends on how the data is being used.
Sammanfattningsvis kan man väl säga att det blir svårare att servera rätt annonser vid sökningar med mindre användardata. Så det är klart att inte Google gillar det här, i synnerhet inte i samband med deras kraftiga nedgång på börsen och rapporterna om en minskning i klickandet på deras annonser.
Kategori: Integritet | 0 kommentarer »
7 April 2008 av Lars Våge
De akademiska biblioteken har i stor utsträckning gått över till att prenumerera på vetenskapliga tidskrifter i elektronisk form. Praktiskt för biblioteken och för studenter och forskare. Men vi som jobbar på akademiska bibliotek har ju någonstans den här gnagande oron att vi i någon diskkrasch eller företagskonkurs ska bli av med delar av vårt elektroniska bestånd av tidskrifter. Frågan är alltså hur man som prenumerant ska kunna försäkra sig om en framtida tillgång till materialet ungefär som om de stod i tryckt form i någon källare.
Om detta har Golnessa Galyani Moghaddam vid Shaheh-universitet i Teheran skrivit ett paper om. Artikeln heter Preserve Scientific Electronic Journals: A Study of Archiving Initiatives och deponerades igår på E-LIS servern (E-prints in Library and Information Science). På denna server lagras både opublicerade och publicerade paper inom ämnet enligt Open Access-modellen. Artikeln ifråga har också publicerats i tidskriften The Electronic Librarys första nummer för i år.
Moghaddam beskriver i texten de olika försök som gjorts av olika institutioner och organisationer för att hitta hållbara lösningar. Nio olika initiativ tas upp: JSTOR, Portico, E-Print repositorier, Open Access-modellen, LOCKSS, OCLC Digital Archive, JISC, PubMed Central och KB e-Depot. En intressant läsning för alla som funderar över de här frågorna.
Kategori: Biblioteksfrågor, Informationshantering | 0 kommentarer »
2 April 2008 av Lars Våge
Jag vet inte riktigt när vem som helst kunde börja delta i det franska sökmotorföretaget Exaleads sociala nätverk/söktjänst Baagz. Igår lanserades i alla fall en blogg för Baagz. Vill man prova Baagz i den numera publika betaversionen är det bara att ägna någon minut åt att registrera ett konto. Det skadar heller inte att läsa FAQ:en eller läsa presentationen som finns från startsidan. Det gjorde jag men det var inte förrän jag testade själv som jag började begripa vad Baagz var menat att vara.
Baagz är en förvrängning av bags och så kan man uppfatta tjänsten, som en väska eller flera väskor som man kan ha på webben eller snarare på Baagz webbplats. En baag är som en skrivbordsyta i webbläsarens fönster. Lite grann liknar det de olika flikarna med RSS-strömmar och annat som man kan ha i Netvibes. Men man kan göra mer och lite andra saker i Baagz.
Så vad ska man göra då och vad kan man ha Baagz till? I en baag eller skrivbordsyta kan man lägga t.ex. bilder (uppladdade eller från webben), filmer (visas i inbäddade fönster från YouTube eller DailyMotion), valfria filer (max 5 MB), en MP3-spelare (som kan spela MP3-filer som man lagt till i sin baag), anteckningar, väderprognos för platsen man bor och inte minst helt enkelt länkar till webbsidor. Det sistnämnda kan tyckas trivialt men det är faktiskt ganska praktiskt och med preview-bilderna av webbplatserna som ikoner ser det riktigt trevligt ut. Man kan naturligtvis ha publika och privata baagz och ändra bakgrundsfärg, tema, bakgrundsbilder o.s.v.
Hur kommer sökningen in i bilden då? Jo i Baagz finns det en inbäddad version av Exaleads sökmotor. Med denna kan man söka i innehållet i alla publika baagz och i Exaleads olika index för webbsidor, bilder och video samt i Wikipedia. När man hittar något intressant kan man lätt lägga till det i någon av sina baagz. De flesta åtgärder kommer man åt genom att högerklicka. Har man lagt till en webbsida som har en RSS-ström kommer man åt rubrikerna genom att högerklicka och välja News.
När man lägger till något i sin baag kan man också sätta taggar (ämnesord) på det för att underlätta att andra hittar det via sökningen. Det är här Baagz blir en s.k. social sökmotor. Eftersom det är ett socialt nätverk också finns funktioner för att kommunicera med andra användare på flera olika sätt, om man nu har tid med det. Tanken är väl att man ska hitta likasinnade genom sökningen i “väskorna”.
Jag har på känn att jag kan komma att bli ganska biten av Baagz. Integrationen mellan Exaleads sökmotor och Baagz som gör det så lätt att spara saker i en baag för att återkomma till det kan göra att jag föredrar att använda Exalead bara för det.
Förresten har Exalead introducerat ett nytt filter i sin webbsökning - man kan filtrera på webbplatser som är commercial eller non-commercial. Låter som en bra idé (Yahoo har haft något liknande) men jag ycker att det fungerar sådär än så länge. Den funktionen verkar inte integrerad i Baagz.
Kategori: Exalead | 1 kommentar »
26 Mars 2008 av Lars Iselid
Vi brukar inte skriva så mycket om karttjänster här på Internetbrus, men ibland faller andan på. Flygfoton är inget nytt i kartsöktjänster, men tagna i 45-graders vinkel är inte lika vanligt. I november förra året lanserade Eniro visningsläget Utsikt som innehöll vinklade bilder möjliga att se från fyra väderstreck från sveriges tre storstäder: Stockholm, Göteborg och Malmö. Funktionen blev så populär att Eniro nu lagt till ytterligare 10 städer: Uppsala, Jönköping, Örebro, Gävle, Kalmar, Linköping, Västerås, Norrköping, Helsingborg och Umeå. Alla funktioner som vägkameror, trafikinformation och GPS-koordinater från de vanliga kartorna ska fungera också på utsiktsbilderna, enligt Eniro.
Här en usiktsbild från Medicinska biblioteket i Umeå och mitt fönster inrigat där jag sitter och bloggar:

När får vi se Lars Våges utsiktsbild från Mittuniversitets bibliotek i Sundsvall och när får vi se en utsiktsbild över Skellfteå Kraft Arena i Skellefteå? Tills vidare får man nöja sig med denna webbkamera över sveriges hockeytempel nr 1. Detta sista sagt i högst subjektiva ordalag.
Kategori: Eniro, Kartsöktjänster | 0 kommentarer »
19 Mars 2008 av Lars Våge
Förra veckan spreds nyheten att efter bokmässan i Paris (som inleddes i fredags) skulle den franska boksöktjänsten Gallica 2 visas för världen. Det var den franska kulturministern Christine Albanel som spred denna spännande nyhet. Gallica 2 är ett boksökprojekt som huvudsakligen tillgängliggör inskannade böcker från det franska nationalbiblioteket. 60 000 titlar ska det vara tal om men när alla dessa blir tillgängliga vet jag inte.
Det känns roligt att äntligen se något i drift från de europeiska inskanningsinitiativen som tog fart efter att Google Book Search dykt upp. Särskilt från franska nationalbiblioteket då deras tidigare ordförande Jean-Noel Jeanneney var särskilt framträdande i polemiken mot Google. För exakt tre år sedan idag skrev vi om president Chiracs önskan att se en europeisk (läs fransk) motsvarighet till Google Book Search och nu har den alltså gått i uppfyllelse.
I Gallica 2 finns både dokument som tillhör kulturarvet och sådana som är upphovsrättskyddade. Man kan söka antingen i en enkel sökruta eller använda det avancerade sökformuläret. I det senare finns det många sökval och begränsningar att göra som författare, titel, ISBN, innehållsförteckning, språk, ämne, dokumenttyp, samling, tillgänglighet. Träffarna kan sorteras efter relevans, datum stigande eller fallande, författare och titel. Vet man inte vad man ska söka efter kan man bläddra sig fram med hjälp av ämnen. Klicka då på Themes under Explore från startsidan. På det sättet hittade jag René Descartes Musicae Compendium från 1695 i fulltext t.ex.
Söker man på Jules Verne i Gallica 2 får man 51 träffar och kan titta på tidiga utgåvor av den kände författarens verk. Här har vi titelbladet till vad jag tror är förstautgåvan av Jorden runt på 80 dagar. Förutom att titta på böckerna i webbläsaren kan man ladda ner dem i pdf-format och spara dem eller skriva ut. Jag förutsätter att det inte går med det upphovsrättskyddade materialet. Slutligen ska det sägas att själva inskanningarna är av blandad kvalitet. Vissa är utomordentligt bra medan andra är mer svårläsliga.
Kategori: Boksökning och böcker | 1 kommentar »
13 Mars 2008 av Lars Våge

Europeiska kommissionen har bestämt sig för att godkänna att den franska staten går in med 99 miljoner euro i multimediasökmotorprojektet Quaero. Redan i augusti 2007 meddelade Frankrike sin avsikt att stödja projektet ekonomiskt. Så det är först efter moget övervägande som kommissionen har tillstyrkt att detta inte står i strid med konkurrenslagarna. Man åberopar det s.k. Community framework for state aid for R&D and innovation som antogs 2006. Konkurrenskommissionären Neelie Kroes säger i pressmeddelandet att
We are confident that the positive contribution the programme will make to European research will outweigh any distortion of competition caused by the aid.
Läs EU:s pressmeddelande
Kategori: Bild, ljud & videosökning | 1 kommentar »
7 Mars 2008 av Lars Iselid
Google förbättrar ständigt sin sökmotor och meddelar via sin officiella blogg att man nu har möjligheten att söka internt på vissa webbplatser utan att behöva gå till själva webbplatsen. Istället läggs sökrutan i själv träfflistan. Internetbrus har ju sedan tidigare fått sitelinks, men när får vi internsök direkt i träfflistan måntro? Viktigt att lägga märke till är att den interna sökningen är detsamma som att använda söksyntaxen site: Alltså inte någon direkt sökning via den aktuella webbplatsens egen sökmotor, utan baserat på hur Google indexerat webbplatsen ifråga.
Google pratar också om en sökstrategi som kallas teleporterande. Att en anävändare skriver in namnet på en webbplats t ex whitehouse utan att vara säker på toppdomän. Istället för att teleportera sig direkt till sidan (och ev. dess interna sökmotor) har Google upptäckt att användaren ofta vill ytterligare förfina sin sökning med ytterligare ord t ex whitehouse “barack obama”. Därav denna nya funktion med site-sökning i forma av en sökruta i träfflistan.

Apropå teleportera-begreppet inom sökning så för tankarna mig direkt till en artikel jag just läser inför ett föredrag jag ska hålla på konferensen: “Informationen anfaller”. Den heter: “The perfect searn engine is not enough” av Jaome Teevan m.fl. som gör en jämförelse mellan teleporterande sökning och orienterande sökning.
“When a person attempts to teleport, they try to jump directly to their information target. Teleporting represents the behavior many search engines try to support in their quest to be “perfect”. For example, if Jim, instead of browsing to Monroe’s office number, had performed a search for, “Connie Monroe, office number,” the perfect search engine would have brought him her office number”.
Har någon svensk sida blivit hedrad med denna funktion för intern sökning ännu? Jag har inte hittat någon men däremot följande engelskspråkiga: Nasa, Whitehouse, The Times, Amazon,
USPTO.
Kategori: Google | 0 kommentarer »
7 Mars 2008 av Lars Våge
I en dramatisk omorientering har ledningen för den fjärde största söktjänsten i USA, Ask.com, bestämt sig för att ge upp kampen mot Google, Microsoft och Yahoo. Under en följd av året har Ask innoverat och utvecklat sin webbsökning och vågat mer än någon av de andra, men till ingen nytta. Användarna har stannat hos Google. Därför ska man nu vad jag kan förstå släppa sin generella webbsökning och bli enbart en specialiserad frågesöktjänst. Målgruppen är utsedd och det är gifta kvinnor.
Jag är mycket för specialiserade söktjänster men tycker ändå att det är hemskt synd att det gick så här. Ask har genom användande av Teomas sökmotorteknologi och utvecklandet av många förbättringar av träfflistornas utformande på sitt diskreta sätt fört internetsökningen framåt. Jag skulle nog säga att Ask är min favorit bland de generella sökmotorerna och genom åren har vi skrivit mycket om Ask här på Internetbrus. Ursprungligen hette tjänsten AskJeeves och var en renodlad frågesöktjänst under slutet av 90-talet. 2001 köpte man sökmotorteknologi från Teoma som var ett forskningsprojekt som resulterat i en ämnesorienterad länkanalysmodell för relevansranking som redan då var mer träffsäker än Googles.
I samband med detta kommer 40 personer att sägas upp och ibland dem verkar söktjänstgurun Gary Price finnas. Hemskt tråkigt. Gary är en lysande föreläsare och jag tror inte det finns många som vet så mycket om internetsökning.
Kategori: Ask | 0 kommentarer »