Nu är det klart - Microsoft köper FAST Search & Transfer

30 April 2008 av Lars VÃ¥ge

I fredags kom beskedet i form av ett pressmeddelande frÃ¥n Microsoft att mjukvarujätten köper norska sökteknologifirman FAST Search & Transfer. Vi skrev om det när det först blev känt att Microsoft skulle lämna ett bud pÃ¥ FAST och nu är det alltsÃ¥ klart. Enl. pressmeddelandet kommer FAST att bli ett dotterbolag med huvudkontor och utvecklingsavdelning i Oslo men med kontor och verksamheter utspridda i världen. FAST starke man John Lervik kommer att fÃ¥ titeln Vice President of Enterprise Search. Redan nu stÃ¥r det pÃ¥ FASTs hemsida “a Microsoft subsidiary”.

Äntligen sökresultat som RSS i Microsofts nyhetssökning

28 April 2008 av Lars VÃ¥ge

Egentligen skulle vi vilja skriva en längre artikel om nyheter i Windows Live News Search men de har inte kommit till Sverige än. Så just nu nöjer vi oss med att konstatera att det i alla fall har lanserats träffar i RSS-format. För oss RSS-junkies som har femtioelva sökbevakningar är det verkligen på tiden. Länken till träfflistan i RSS-format är sannerligen inte påträngande - tre bokstäver i en vit öken till höger långt upp på sidan.

Tyvärr verkar det inte gå att sortera träffarna efter datum snarare än relevans vilket gör RSS-funktionen mindre intressant för nyhetsbevakning - man vill ju ha det nyaste överst. Men det kommer med de andra nyheterna som redan lanserats i den amerikanska versionen. Andra saker som kommer är gruppering av artiklar med samma innehåll (som i Google News), inbäddade multimedia-träffar, lokalisering/filtrering och förslag på relaterade söktermer.

Sök efter citat i Google News

24 April 2008 av Lars Iselid

Nu kan man söka fram olika citat för en viss person i Google News. Sök t ex på Zlatan Ibrahimovic och längst upp i en grå ruta ser man ett utvalt citat. Klickar man sen på namnet Zlatan Ibrahimovic kan man se fler citat.

Google news zlatan citat

Vill man ytterligare söka vidare bland dessa citat finns en liten sökruta till vänster där man kan skriva in ytterligare sökord att precisera sin sökning med. Den text som är sökbar i citaten är den som är svart och fetat. Den gråa texten ligger utanför själva citatet. Inom parentes ser man också hur många likadana uttalande som han gjort, men det finns bara länk till en av källorna och en uppgift om när källan indexerades av Google news. Det går också att sortera citat utifrån relevans och datum. Även begränsa till att se senaste timmen, dagen, veckan, månaden.

Tyvärr verkar det inte fungera på svenska Google news. Varken Zlatan Ibrahimovic eller Frerik Reinfeldt genererar citat. De får man luska fram själv.

EMI-stämda MP3tunes lanserar AutoSync

23 April 2008 av Lars Iselid

MP3tunes
MP3tunes.com som sedan tidigare blivit stämda av EMI lanserar AutoSynyc. Med AutoSync är det enkelt att flytta musik-filer mellan olika enheter. Vill man synka mellan datorer är det gratis men vill man integrera andra enheter som mobiler så måste man ha ett betalkonto.

Angående stämingen så påstår EMI att MP3tunes tjänst för musiklagring är ett intrång mot upphovsrätten. Michael Robertson och MP3tunes hävdar å sin sida att man på inget sätt kan dela musik mellan varandra i tjänsten och det käver ett unikt användarnamn och lösenord. MP3tunes har motsatt sig stämningen framför allt för att dom anser att det är ett intrång mot individens rättighet att lagra data. Så här skriver VD Michael Robertson i ett mejl utskickat till alla användare:

“…if you don’t have the right to store your own music online then you won’t have the right to store ebooks, videos and other digital products as well. The notion of ownership in the 21st century will evaporate. The idea of ownership is important to me and I want to make sure I have that right and my kids do too”.

I samma mejl vädjar han till användare att upgradera till ett större konto som kostar. Han menar:

“This will not only help us pay for the costs of our service (machines, storage and bandwidth) but a portion will go to cover our legal costs in our case with EMI”.

Man kan tolka det som försäljningstricks eller en chans att stödja frågan om individens rättighet att lagra data. Han uppmanar användare att diskutera frågan med vänner, reportrar, på bloggar. Han förtydligar:

“We don’t promote sharing of music in any manner. We want people to legally acquire their music. But once they do, we think it’s important that you be able to use it how you want for your personal use”.

Michael Robertson är känd internetentreprenör och startade en gång både MP3.com och Lindows.com. Med tanke på Lindows.com som blev stämda av Microsft för varumärkesintrång 2002 så har Michael minst sagt en viss vana vid att hantera detta med att bli stämd.

Läs mer om RIAA och EMI.

Sökmotoranvändarnas beteende undersökt av iProspect

21 April 2008 av Lars Iselid

I en ny undersökning från iProspect [PDF] utförd i samarbete med Jupiter Research har man undersökt sökmotoranvändarnas nyttjande av specialiserade sökresurser samt hur man använder träfflistorna.

35% av användarna av Google, Yahoo och MSN har inte använt specialiserade sökresurser (de senaste 6 månaderna) och 25% vet inte om de har använt dessa. 26% klickar på bildsökning, 17% på nyheter och 10% på videosökning. Då ska man komma ihåg att för att nå video i Google måste man klicka vidare i flikarna på more för att nå Video. För att nå News i Yahoo måste man också klicka på more. Yahoo.se däremot gömmer undan video istället för nyheter. MSN.se gömmer undan video.

Numer blandas träffar från bl.a. nyheter, bilder och video in i själva träfflistorna i Google, Yahoo och MSN. Klickar på nyheter i det blandade sökresultatet gör 36%, vilket är nästan dubbelt så ofta som i flikarna. För bildsökning är det 31% , för video 17%. Man ska också komma ihåg att olika sökord triggar olika specialsökningar olika mycket. En sökning på en vetenskaplig titel kan i Google t ex trigga Google Books eller Google Scholar. 19% uppger att de aldrig klickat på specialiserade resurser i det blandade resultatet. Alltså att jämföra med 35% som aldrig klickat på flikarna.

iProspect uppger också att 68% tittar bara på första resultatsidan innan de klickar på en träff och 92% klickar på en träff inom de tre första resultatsidorna. Att jämföra med 2006 62%, 2004 60%, 2002 48%. Färre och färre klickar bortom tredje resultatsidan: 2008 8%, 2006 10%, 2004 13%, 2002 19%.

49% av användarna byter sökmotor eller överger sökfrågan om de inte hittat vad de letat efter på första resultatsidan. 2006 var det 41%, 2004 42%, 2002 28%. Färre och färre tittar bortom tredje resultatsidan: 2008 9%, 2006 12%, 2004 17%, 2002 22%.

På frågan om användaren anser att om de ser ett företag högt upp i träfflistorna så hör de till de ledande inom sitt gebit så svarade 39% ja. 2006 var det 36%, 2002 33%.

Vad är kontentan av detta? Som man frågar får man naturligtvis svar. Undersökningen bygger inte på observationer av användarna utan på en webbenkät där 2.404 vuxna amerikanska internetanvändare svarade under december 2007 och januari 2008.

Det är viktigt att synas med sitt innehåll inte bara i det vanliga sökmotorindexet utan även i nyheter, bilder och video. Även viktigt att synas åtminstone bland de 30 första träffarna. Själv brukar jag ställa in Google att visa 50 träffar på första resultatsidan och mycket sällan tittar jag på mer än 50 träffar. Hur beter du dig? Kommentera gärna!

Förbättrade sökfunktioner i YouTube

17 April 2008 av Lars Iselid

YouTubeYouTube har länge haft väldigt sparsmakat med sökfunktioner. Äntligen har man lagt till rättstavning, avancerade sökoperatorer, relaterade sökningar och frågeexpansion (eng. query expansion).

Som om det inte vore nog har man nu ocksÃ¥ en dublettkontroll. MÃ¥nga uppladdade videor är desamma. YouTube identifierar dessa och visar den populäraste i sökträffarna, följt med en länk till dubletterna under: “See duplicate videos”. Videor som är uppdelade i tvÃ¥ eller flera sekvenser länkas till varandra ocksÃ¥: “Part 1 - Part 2″ etc.

Här på bilden ser man ett exempel på sökningen: parrot dancing snowball cockatoo.

Parrot dancing YouTube

Webbenkäter om Wikipedia och Second Life

11 April 2008 av Lars Iselid

Förra veckan föreläste jag pÃ¥ Ã…bo Akademi under titeln: “From editors and authors to users and spammers - a look beyond the hype of web 2.0″. Där stötte jag bland annat pÃ¥ Isto Huvila och Kim Holmberg som är forskare respektive forskarstudent pÃ¥ Ã…bo Akademi i Finland. Isto forskar om information service 2.0 och har lagt ut en nätenkät om hur vi uppdaterar Wikipedia. Har du nÃ¥gon gÃ¥ng uppdaterat informationen i Wikipedia passa pÃ¥ att svara pÃ¥ Istos webbenkät.

Kim Holmberg forskar om webbometri och kan mycket om Second Life. Han har också lagt upp en webbenkät där han vill att bibliotekarier och bibliotekspersonal som använder eller planerar att använda Second Life svarar.

Här kan man läsa mer om den intressanta forskning som bedrivs på Institutionen för informationsvetenskap, på Åbo Akademi, i Åbo naturligtvis, som lika självklart ligger i Finland.

Med reCaptcha hjälper du till med digitaliseringen

10 April 2008 av Lars Iselid

reCAPTCHA
ReCAPTCHA är en snillrik idé för att hjälpa till i den OCR-baserade digitaliseringen. När tryckt material ska OCR-läsas för att digitaliseras blir avläsningen inte alltid hundraprocentig och måste alltså rättas av en livs levande människa.

CAPTCHA i sin tur är en teknik för att kunna skilja spammare frÃ¥n verkliga människor. Man fÃ¥r upp en “suddig” variant av ett ord som sedan ska skrivas in i och verifieras, vilket bara en människa kan avgöra, inte ett program. (Än sÃ¥ länge ska jag väl tillägga).

Det reCAPTCHA gör är att de presenterar två ord. Ett ord är ett vanligt captcha-ord (för att sortera bort spammare), det andra ett ord som OCR-programmet anser att den inte förstått. Genom att skriva in rätt andra ord har användaren hjälpt till att tolka det ord OCR-programmet inte klarade av. Detta andra ord som skrivs in verifieras dock med hur andra tolkat samma ord för att nå större säkerhet.

Om du installerar reCAPTCHA t ex på din blogg eller wiki så bidrar du till snabbare digitalisering. Vad är det som digitaliseras? reCAPTCHA samarbetar med ideella Internet Archive. En god sak med andra ord.

Men häromdagen framfördes klagomÃ¥l mot reCAPTCHA pÃ¥ Matt Haughey’s personal blog:

“Last night I tried out the contact form and was surprised that in the first ten images presented to me (keep hitting the little refresh button, the top of the three buttons on the control), at least half were totally undecipherable”.

Eric Goldberg på Stumbleupon föreslår denna lösning i kommentarspåret:

“We have had a similar issue on StumbleUpon, so we added a prominent link that says ‘Can’t read this?’ which calls Recaptcha.reload() to fetch a new image”.

Och förtydligar:

“Also note that users need only answer one of the two words correctly”.

Skaffa reCAPTCHA nu! Eller så kan du gå in på deras sida och bidra med OCR-rättning direkt.

EU vill att sökloggar raderas efter ett halvår

9 April 2008 av Lars VÃ¥ge

Vid flera tillfällen har vi skrivit om EU:s Article 29 Working Party som jobbar med frågor kring dataskydd och den personliga integriteten. Nu har arbetsgruppen sammanträffat under två dagar i Bryssel och diskuterat bl.a. en opinion on search engines. Flera internationella medier har rapporterat efter mötet att man vill att sökmotorföretagens sökloggar ska raderas tidigare än vad man sagt förut. Åtminstone en av de här artiklarna länkar till en inofficiell version av vad som kallas Opinion on Data Protection Issues related to Search Engines från arbetsgruppen. Ett dokument som inte går att hitta med EU:s sökmotor RAPID eller på arbetsgruppens webbplats.

I det 29-sidiga PDF-dokumentet diskuteras en mängd olika aspekter av sökmotoranvändande och personlig integritet. Det som har lyfts fram är en rekommendation att sökloggar skulle raderas efter ett halvår. Förra våren och sommaren antog de största amerikanska sökmotorföretagen policydokument som stipulerade att de skulle radera eller anonymisera sökmotorloggar efter 18 månader. Då sade EU:s arbetsgrupp att det var ett bra steg i rätt riktning men nu vill man alltså dra ner tiden till en tredjedel:

In view of the initial explanations given by search engine providers on the possible purposes for collecting personal data, the Working Party does not see a basis for a retention period beyond 6 months. However, national legislation may require earlier deletion of personal data. In case search engine providers retain personal data longer than 6 months, they must demonstrate comprehensively that it is strictly necessary for the service.

Googles Peter Fleischer (Global Privacy Counsel) har uttalat sig i Googles Public Policy Blog om The European Commission’s data protection findings. Han säger bl.a. att:

We believe that data retention requirements have to take into account the need to provide quality products and services for users, like accurate search results, as well as system security and integrity concerns.

The Working Party’s findings also stated that IP addresses should be treated as personal information, with the full weight of data protection laws. Based on our own analysis, we believe that whether or not an IP address is personal data depends on how the data is being used.

Sammanfattningsvis kan man väl säga att det blir svårare att servera rätt annonser vid sökningar med mindre användardata. Så det är klart att inte Google gillar det här, i synnerhet inte i samband med deras kraftiga nedgång på börsen och rapporterna om en minskning i klickandet på deras annonser.

Om arkiverandet av vetenskapliga e-tidskrifter

7 April 2008 av Lars VÃ¥ge

De akademiska biblioteken har i stor utsträckning gått över till att prenumerera på vetenskapliga tidskrifter i elektronisk form. Praktiskt för biblioteken och för studenter och forskare. Men vi som jobbar på akademiska bibliotek har ju någonstans den här gnagande oron att vi i någon diskkrasch eller företagskonkurs ska bli av med delar av vårt elektroniska bestånd av tidskrifter. Frågan är alltså hur man som prenumerant ska kunna försäkra sig om en framtida tillgång till materialet ungefär som om de stod i tryckt form i någon källare.

Om detta har Golnessa Galyani Moghaddam vid Shaheh-universitet i Teheran skrivit ett paper om. Artikeln heter Preserve Scientific Electronic Journals: A Study of Archiving Initiatives och deponerades igår på E-LIS servern (E-prints in Library and Information Science). På denna server lagras både opublicerade och publicerade paper inom ämnet enligt Open Access-modellen. Artikeln ifråga har också publicerats i tidskriften The Electronic Librarys första nummer för i år.

Moghaddam beskriver i texten de olika försök som gjorts av olika institutioner och organisationer för att hitta hållbara lösningar. Nio olika initiativ tas upp: JSTOR, Portico, E-Print repositorier, Open Access-modellen, LOCKSS, OCLC Digital Archive, JISC, PubMed Central och KB e-Depot. En intressant läsning för alla som funderar över de här frågorna.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator