Arkiv för kategorin ‘Digitalisering’

Enormt intresse för Europeana - det digitala europeiska biblioteket

21 November 2008 av Lars VÃ¥ge

Igår slogs portarna till det länge emotsedda europeiska digitala biblioteket Europeana upp av EU-kommissionären Viviane Reding. Redan i slutet av 2006 skrev vi om EU:s planer att realisera ett digitalt bibliotek på nätet med 10 miljoner sökbara objekt. I och med den första lansering som gjordes igår ska två miljoner finnas tillgängliga och till 2010 vill man alltså femdubbla denna siffra. Tillgängliga är ett ord som får tas med en nypa salt för igår var intresset för Europeana så stort att tjänsten gick på knäna och tidvis inte gick att nå. När jag skulle testa sökfunktionerna var svartiderna så långa att jag fick ge upp. Under dagen fördubblade man antalet servrar som Europeana kördes på från tre till sex men det förslog alltså inte alls.

Förhoppningsvis löser man problemen med dimensioneringen av hårdvaran snart. Egentligen är det ju bara roligt att så många människor tydligen är intresserade av att prova denna nya europeiska söktjänst. Om man vill ha mer information om Europeana kan man använda adressen dev.europeana.eu och undvika www.europeana.eu där själva söktjänsten ligger. Där är det som sagt svårt att komma fram just nu. I Europeana, som enligt New York Times domineras av franska bidrag, finns inskannade böcker, bilder, filmmaterial, ljudfiler, kartor, manuskript och mycket annat. Bland de 90 partnerorganisationer som bidrar till Europeana finns naturligtvis svenska Kungliga Biblioteket.

Med reCaptcha hjälper du till med digitaliseringen

10 April 2008 av Lars Iselid

reCAPTCHA
ReCAPTCHA är en snillrik idé för att hjälpa till i den OCR-baserade digitaliseringen. När tryckt material ska OCR-läsas för att digitaliseras blir avläsningen inte alltid hundraprocentig och måste alltså rättas av en livs levande människa.

CAPTCHA i sin tur är en teknik för att kunna skilja spammare frÃ¥n verkliga människor. Man fÃ¥r upp en “suddig” variant av ett ord som sedan ska skrivas in i och verifieras, vilket bara en människa kan avgöra, inte ett program. (Än sÃ¥ länge ska jag väl tillägga).

Det reCAPTCHA gör är att de presenterar två ord. Ett ord är ett vanligt captcha-ord (för att sortera bort spammare), det andra ett ord som OCR-programmet anser att den inte förstått. Genom att skriva in rätt andra ord har användaren hjälpt till att tolka det ord OCR-programmet inte klarade av. Detta andra ord som skrivs in verifieras dock med hur andra tolkat samma ord för att nå större säkerhet.

Om du installerar reCAPTCHA t ex på din blogg eller wiki så bidrar du till snabbare digitalisering. Vad är det som digitaliseras? reCAPTCHA samarbetar med ideella Internet Archive. En god sak med andra ord.

Men häromdagen framfördes klagomÃ¥l mot reCAPTCHA pÃ¥ Matt Haughey’s personal blog:

“Last night I tried out the contact form and was surprised that in the first ten images presented to me (keep hitting the little refresh button, the top of the three buttons on the control), at least half were totally undecipherable”.

Eric Goldberg på Stumbleupon föreslår denna lösning i kommentarspåret:

“We have had a similar issue on StumbleUpon, so we added a prominent link that says ‘Can’t read this?’ which calls Recaptcha.reload() to fetch a new image”.

Och förtydligar:

“Also note that users need only answer one of the two words correctly”.

Skaffa reCAPTCHA nu! Eller så kan du gå in på deras sida och bidra med OCR-rättning direkt.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator