Arkiv för kategorin ‘Internet Archive’

Open Content Alliance - nytt och bÀttre initiativ Àn Google Print?

3 Oktober 2005 av Lars VÄge

ocaIdag tillkĂ€nnagavs ett nytt stort projekt kallat Open Content Alliance som syftar till skapandet av ett internationellt digitalt arkiv med bl.a. inskannade böcker och filmer. Till skillnad frĂ„n Google Print kommer man att vara mycket noga med att respektera copyright-skyddat material. I start kommer man att utgĂ„ frĂ„n böcker som ligger inom “the public domain”, dĂ€r upphovsrĂ€tten har löpt ut, och copyright-skyddat material som de som Ă€ger rĂ€ttigheterna sjĂ€lva frivilligt vill bidra med. Detta kan i sĂ„ fall spridas med hjĂ€lp av en Creative Commons-licens dĂ€r upphovsrĂ€ttsĂ€garen kan bestĂ€mma vilka rĂ€ttigheter som ska gĂ€lla.

Google som tĂ€nker skanna in böcker frĂ„n tre mycket stora amerikanska bibliotek (Harvard, Stanford och Michigan) har blivit stĂ€mda av Author’s Guild för copyright-intrĂ„ng men verkar Ă€ndĂ„ gĂ„ vidare. Google har sagt att de författare/copyrightĂ€gare som har nĂ„got emot att deras upphovsrĂ€ttsligt skyddade verk skannas och görs sökbara mĂ„ste höra av sig innan den 1 november. Kritiken har vuxit pĂ„ sistone och man menar argumentet att bara ett par sidor visas Ă„t gĂ„ngen i Google Print inte Ă€r gott nog. Organisationer som Association of Learned and Professional Society Publishers och Association of American University Presses har uttalat sig positivt om OCA och tycker om att ledningen för det nya projektet vill jobba tillsammans med utgivare/författare.

Idag har det skrivits en del (t.ex. New York Times och Associated Press) om OCA men jag tycker att man har koncentrerat sig lite för mycket pÄ det faktum att Yahoo Àr inblandat i projektet. Man menar att det Àr ett drag för att konkurrera med Google pÄ just den hÀr sökarenan. Kanske det Àr en faktor men i sammanhanget Àr den av sekundÀr betydelse. Yahoo Àr ett av flera företag och organisationer som deltar i uppstarten av OCA. Men det Àr grundaren av Internet Archive Brewster Kahle som Àr mest inblandad och det Àr IA som skall administrera projektet.

I gruppen som deltar i uppbyggandet av OCA finns:
Internet Archive - kommer initiellt att delta i skanning och lagring
Yahoo - kommer att skapa sökmotorindexet för OCA och finansiera viss skanning
Adode och Hewlett-Packard - kommer att bidra med mjukvara
University of California, University of Toronto och bokförlaget O’Reilly - bidrar med böcker
National Archives (Storbritannien) och Prelinger Archives - bidrar med filmmaterial

De inblandade organisationerna och företagen har enats om sex principer. Bland dessa finns alltsÄ att de som bidrar med material till arkivet ska sjÀlva kunna bestÀmma i vilken grad det kan anvÀndas och spridas. Arkivet kommer nÀmligen att uppmuntra ÄteranvÀndning av materialet i alla sammanhang. Yahoo kommer dÀrför att göra det möjligt för andra sökmotorer att indexera arkivet om de sÄ skulle vilja (vilket inte Google gör). Arkivet Ätar sig att skapa metadata för materialet för att göra det lÀttare att hitta i. Det kommer ocksÄ att finnas flera kopior av arkivet som ska vara spridda internationellt för att sÀkerstÀlla tillgÀngligheten.

Mer information finns i pressreleasen och i Yahoo! Search Blog dÀr Brewster Kahle gÀstskrivit.

Internet Archive i blÄsvÀder?

17 Juli 2005 av Lars VÄge

Internet Archive med sin söktjÀnst The Wayback Machine med vilken man kan titta pÄ gamla versioner av webbsidor frÄn 1996 och framÄt tycks ha hamnat i klammeri med rÀttvisan. Om detta har det skrivits om i flera amerikanska medier och bloggar efter frÀmst en artikel pÄ New York Times webbplats den 12:e. Det hela rör sig om en stÀmning som inlÀmnats av företaget Healthcare Advcoates efter att enligt dem nÄgon eller nÄgra pÄ företaget Harding Early med hjÀlp av Internet Archive tittat pÄ gamla webbsidor frÄn Healthcare Advocates. Detta har gagnat Harding Early i en tvist om varumÀrken som de har med Healthcare Advocates. Resonemanget gÄr ut pÄ att eftersom Healthcare Advocates i juni 2003 placerat en robots.txt-fil pÄ sin webbplats för att hindra att sökmotorer indexerar dem sÄ var det fel att det gick att komma Ät deras (Àldre) webbsidor via Internet Archive.

Problemet med det stĂ€mmande företagets agerande Ă€r att Ă„tlydandet av kommandon i en robots.txt-fil Ă€r en frivillig handling frĂ„n sökmotorernas sida och har dĂ€rför ingen rĂ€ttslig relevans. Trots detta menar man i stĂ€mningen som gĂ„r att lĂ€sa i fulltext att Internet Archive har gjort sig skyldiga till brott mot bl.a. Digital Millenium Copyright Act och Computer Fraud and Abuse Act. Det verkar inte vara sĂ„ mĂ„nga som tror att det ska bli nĂ„got av detta och det missriktade i stĂ€mningen beskrivs bra av en advokat vid namn William Patry som New York Times talat med: “no real contract exists between the nonprofit Internet Archive and any of the historical Web sites it preserves”. Mannen som uppfann robots.txt-filen 1994, Martijn Koster, i sin tur sĂ€ger att: “It is designed to let Web site owners communicate their wishes to cooperating robots. Robots can ignore robots.txt.”. SĂ„ Internet Archive Ă€r ju egentligen de som har gjort rĂ€tt i det att de faktiskt följer robots.txt-filen.

Det som jag tycker Ă€r knepigast av allt Ă€r att Healthcare Advocates hĂ€vdar att folk pĂ„ Harding Early vid 92 tillfĂ€llen i juli 2003 har genom Internet Archive tittat pĂ„ Healthcare Advocates gamla webbsidor. Hur kan de veta det och ange de exakta tiderna dĂ„ detta hĂ€nt? De har vĂ€l inte Internet Archives loggar? Menar de att nĂ€r de aktuella webbsidorna inte funnits pĂ„ Internet Archive sĂ„ har hackarna som de kallas blivit omdirigerade till liveversionen av webbplatsen av Internet Archive (vilket Ă€r vad som brukar hĂ€nda)? Men dĂ„ finns ju sidorna dĂ€r live och dĂ„ kan ju vem som helst titta pĂ„ dem som jag ser det. Hur kan det vara fel och hur kan Internet Archive skyllas för detta? Är det inte Healthcare Advocates eget fel att de inte tagit bort sidorna ifrĂ„ga som de inte vill att folk ska titta pĂ„?

Google och Internet Archive skannar in böcker frÄn biblioteken

14 December 2004 av Lars Iselid

Biblioteken vid Harvard University, Stanford University, Michigan University och Oxford University samt New York Public Library planerar att lÄta Google skanna in deras böcker. Google har sedan tidigare ett samarbete med förlagen i och med Google Print dÀr man skannar in delar av böcker som lyder under upphovsrÀtten.

“Googles mĂ„l Ă€r att organisera vĂ€rldens information och vi Ă€r intresserade av att samarbeta med biblioteken för att uppfylla detta mĂ„l”, sĂ€ger Googles Larry Page i ett pressmeddelande.

De böcker som fortfarande lyder under upphovsrĂ€tten kommer man bara att kunna lĂ€sa ett par sidor av i fulltext och i övrigt kommer bibliografisk information som titel, författare, ISBN osv. vara sökbart. Övriga upphovsrĂ€ttsfria böcker kommer att skannas in allra först av Google och lĂ€ggas ut i fulltext möjliga att lĂ€sa med begrĂ€nsningen att inte kunna skriva ut.

Google har inga planer pÄ att göra en sÀrskild söktjÀnst för inskannade böcker i Google Print. IstÀllet visas boktrÀffar frÄn Google Print som första trÀff i ordinarie trÀfflistan nÀr sökfrÄgan Àr relaterad, ungefÀr som sökvÀgar (eng. search shortcuts). Ett exempel Àr en sökning pÄ Mastering digital photography.

Samtidigt meddelar det ideella projektet Internet Archive att man samarbetar om att skanna in böcker frĂ„n flera olika bibliotek frĂ„n 5 olika lĂ€nder. Bland annat gĂ€ller det Zhejiang University, China (Professor Zhao), University of Toronto, Canada (Carole Moore), Library of Congress American Memory Project, USA (Deanna Marcum). Över 1 miljon böcker ska göras sökbara och för tillfĂ€llet finns över 27.000 tillgĂ€ngliga och ytterligare 50.000 planeras finnas under första kvartalet 2005.

Gratis e-böcker pÄ Internet, bÄde de som lyder och inte lyder under upphovsrÀtten, Àr inte pÄ nÄgot sÀtt nytt. Vi har det internationella projektet Gutenberg och det svenska projektet Runeberg för Àldre böcker som inte lyder under upphovsrÀtten. NÀtbokhandeln Amazon har en mÀngd inskannade nyare böcker tillgÀngliga helt utan kostnad bara man anger sitt kreditkortsnummer i Amazon. FrÄgan Àr om det inte Àr en mer rÀtt vÀg att gÄ för biblioteken att samarbeta med ideella Internet Archive Àn en sÄn dominerande kommersiell aktör som Google ÀndÄ Àr? Utan tvivel kommer mycket att hÀnda vad gÀller e-boksökning i framtiden.

LĂ€s mer om Googles samarbete med biblioteken.

Sök med vanliga ord bland mer Àn 11 miljarder webbsidor i Internet Archive

7 September 2003 av Lars VÄge

Anna Patterson frĂ„n Stanforduniversitet i Kalifornien har skapat sökmotorn Recall för de sparade kopiorna av gamla webbsidor i Internet Archive. Förut kunde man bara söka i Internet Archive med hjĂ€lp av en URL i söktjĂ€nsten som kallas The Wayback Machine. Nu kan man alltsĂ„ anvĂ€nda vanliga sökord för att söka i en delmĂ€ngd av Internet Archive. Den delmĂ€ngden Ă€r pĂ„ över 11 miljarder webbsidor vilket Ă€r över tre gĂ„nger mer Ă€n nĂ„gon annan sökmotor nĂ„gonsin har haft ett index över! Indexets storlek Ă€r pĂ„ 2 terabyte och Recall har tillgĂ„ng till 312 datorer med 1/2 GB minne sĂ„ denna betatestversion saknar inte datorkraft. Sökmotorn jobbar med relevansranking baserad pĂ„ sökorden och inte lĂ€nkanalys som t.ex. Google. I trĂ€ffbilderna presenteras ocksĂ„ klustrade grupper förutom den vanliga trĂ€fflistan. Dessutom finns en personalisering som innebĂ€r att Recall anvĂ€nder sig av dina tidigare sökningar för att styra rankingen senare under en söksession. Man kan begrĂ€nsa sin sökning till webbsidor frĂ„n olika Ă„r och olika mĂ„nader. Man fĂ„r ocksĂ„ en grafisk presentation hur antalet trĂ€ffar pĂ„ ett sökuttryck förĂ€ndrats med tiden. Mer information finns i en PowerPoint-presentation av Anna Patterson och i kortare form pĂ„ hjĂ€lpsidan. Det finns nu ocksĂ„ en gemensam startsida för Wayback Machine och Recall. Ännu sĂ„ lĂ€nge Ă€r Recall som det verkar bara tillgĂ€nglig periodvis men det tar sig sĂ€kert efter hand sĂ„ kom tillbaka senare om ni inte fĂ„r kontakt med Recall direkt.

Konvertera gamla webbsidor i Internet Archive till pdf

27 Juni 2003 av Lars VÄge

I Internet Archives sökgrĂ€nssnitt Wayback Machines avancerade sökformulĂ€r betatestas just nu en ny funktion. Genom att klicka i rutan “Convert to PDF” innan man utför sökningen kommer man att fĂ„ smĂ„ PDF-ikoner till vĂ€nster om varje arkiverad version av en webbsida man söker efter. Klickar man pĂ„ en sĂ„dan ikon fĂ„r man en popup-ruta dĂ€r man fĂ„r fylla i sin epostadress. NĂ„gon minut senare fĂ„r man ett mail med webbsidan ifrĂ„ga som en PDF-fil som bilaga till mailet. Konverteringen stĂ„r ett företag som heter 2Convert för. Fördelen med PDF-formatet Ă€r ju att det Ă€r lĂ€ttare att spara enstaka filer Ă€n en hel drös som det blir om man vĂ€ljer “Spara som webbsida” i webblĂ€saren. Sedan slipper man ju ocksĂ„ att fĂ„ delar av texten bortklippt nĂ€r webblĂ€saren inte förmĂ„r skriva ut korrekt.

Hur blir konverteringen dĂ„? Ganska bra faktiskt men nĂ„gon visuellt exakt kopia blir det ju inte. Om det Ă€r detta man Ă€r ute efter fĂ„r man manuellt göra skĂ€rmdumpar och spara som bildfiler. Dessa gĂ„r dock att senare konvertera till en pdf-fil med hjĂ€lp av National Library of Medicines gratisverktyg DocMorph och MyMorph. Om man gör flera dumpar av innehĂ„llet (med Alt + PrintScreen) i webblĂ€sarfönstret allt eftersom man scrollar och sparar undan dessa dumpar i ett bildfilsformat genom att klistra in dem i ett bildbehandlingsprogram kan man sedan lĂ„ta DocMorph klistra ihop dem och stoppa in dem i en enda PDF-fil. Är det inte nödvĂ€ndigt att det ska se pĂ„ pricken ut som pĂ„ skĂ€rmen duger det gott med de PDF-filer som 2Convert producerar. Vill man utnyttja deras tjĂ€nster utanför Wayback Machine Ă€r det bara att gĂ„ till deras hemsida. TillĂ€ggas bör att MyMorph Ă„ sin sida kan konvertera ett 50-tal filformat till PDF gratis som bilder, ordbehandlingdokument, kalkylblad och presentationer. Rekommenderas varmt!

Internet Archive valde DocuComp till The Wayback Machine

13 November 2002 av Lars VÄge

I september skrev vi om testet av en ny funktion i Internet Archives sökgrĂ€nssnitt The Wayback Machine, som gick ut pĂ„ att man pĂ„ ett smidigt sĂ€tt skulle kunna jĂ€mföra versioner av samma webbsida frĂ„n olika datum. I förra veckan gick företaget Advanced Software och Internet Archive ut med att programvaran DocuComp som möjliggör dessa dokumentjĂ€mförelser nu blir en ordinarie del i The Wayback Machine. Varje gĂ„ng man söker och fĂ„r upp trĂ€fflistor med olika dokumentversioner finns i det blĂ„ fĂ€ltet (som omger sökrutan) en lĂ€nk som heter “Compare archive pages”. Efter att ha klickat pĂ„ denna fĂ„r alla datum en box man klicka i. NĂ€r man valt tvĂ„ datum kan man klicka pĂ„ lĂ€nken “Compare two dates”, sĂ„ kommer den sammansatta bilden av dokumentversionerna fram med samma fĂ€rgscheman som vi beskrivit tidigare. En visuell förklaring finns pĂ„ Internet Archives webbplats liksom pressreleasen om funktionen. Denna nyhet finns inte tillgĂ€nglig i kopian av databasen som finns pĂ„ Biblioteket i Alexandrias webbplats.

Sök i The Wayback Machine hos Biblioteket i Alexandria

17 Oktober 2002 av Lars VÄge

För de som tycker om att titta pÄ gamla versioner av webbsidor i The Wayback Machine kan det vara bra att veta att det finns en alternativ ingÄng som man kan anvÀnda nÀr den amerikanska versionen gÄr pÄ knÀna p.g.a. alla entusiastiska sökare. I slutet av april tillkÀnnagavs att en fullstÀndig kopia av hela databasen med 10 miljarder webbsidor frÄn Ären 1996-2001 donerades till det nya Biblioteket i Alexandria. För att komma Ät de gömda skatterna i The Internet Archive kan man numera alltsÄ ocksÄ anvÀnda adressen archive.bibalex.org.

JÀmför automatiskt Àldre kopior av webbsidor i Wayback Machine

18 September 2002 av Lars VÄge

Internet Archive och företaget DocuComp vĂ€lkomnar oss att prova en ny spĂ€nnande funktion i Wayback Machines avancerade sökning. Med denna nyhet kan man jĂ€mföra tvĂ„ Ă€ldre versioner av samma webbsida. För att göra detta skall man skriva in en URL i sökrutan “Find this URL” och klicka i bĂ„de “List all pages that match search criteria” under URL Matching samt “Comparision” innan man utför sökningen. NĂ€r trĂ€ffbilden med de olika dokumentversionerna som finns i Internet Archive dyker upp finns det boxar bredvid dessa som man kan klicka i. Efter att pĂ„ detta sĂ€tt valt ut tvĂ„ gamla kopior startar man jĂ€mförelsen med knappen “Compare”. Inom ett par sekunder visas resultatet som en hopfogning av bĂ€gge versionerna. I denna Ă€r nya stycken markerade med grön text, medan borttagna partier visas med röd överstruken text. Tekniken verkar redan mycket stabil och fort gĂ„r det ocksĂ„!

GenvÀgar i The Wayback Machine

22 November 2001 av Lars VÄge

Det finns flera sÀtt att snabbt hitta sparade webbsidor i det nyöppnade internetarkivet The Wayback Machine som vi skrev om i slutet av oktober. Genom att sjÀlv konstruera en URL enligt mönstret
http://web.archive.org/web/YYYYMMDDMMSS/www.cnn.com
kan man söka efter olika mÀngder av kopior för i det hÀr fallet CNN:s webbplats. YYYY stÄr för Är, MM för mÄnaden, DD för dagen, MM för minuter och SS för sekunder. Var som helst i tidsangivelsen kan man skriva en asterisk för att hitta alla under en viss tid. Exempel:

New York Times den 11 september i Ă„r i alla “upplagor” blir
http://web.archive.org/web/20010911*/nytimes.com

Journalisten John Pilgers hemsida under november mÄnad blir
http://web.archive.org/web/200111*/pilger.carlton.com

Alla kopior av Altavistas hemsida frÄn Är 1996 blir http://web.archive.org/web/1996*/altavista.digital.com

Alla sparade versioner av internetbrus.com blir http://web.archive.org/web/*/internetbrus.com

Som en liten godbit avslutar vi med att titta pÄ den
tidigaste inkarnationen av Google.

10 miljarder gamla webbsidor Äterupplivade

26 Oktober 2001 av Lars VÄge

Ett femÄrigt projekt drivet av Brewster Kahle i samarbete bl.a. med Library of Congress, National Science Foundation och Alexa har nu resulterat i öppnandet av the Internet Archive den 24 oktober. I detta oerhört stora arkiv kallat Wayback Machine finns sparade kopior av alla webbsidor man kunnat hitta sÄ lÄngt tillbaka som 1996. Genom att söka pÄ en URL kan du titta pÄ hur den sidan sÄg ut med jÀmna mellanrum i versioner som för lÀnge sedan upphört att existera. Kasta t.ex. en blick pÄ hur Aftonbladets hemsida den 23:e oktober 1996 sÄg ut. Forskare och privatpersoner har fÄtt en fullstÀndigt fantastisk resurs som Àr helt gratis att anvÀnda. Internet Archive sÀgs redan innehÄlla fem gÄnger sÄ mycket text som hela Library of Congress.

LĂ€s mer>>

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator