Arkiv för kategorin ‘Nyhetssökning’

Äntligen sökresultat som RSS i Microsofts nyhetssökning

28 April 2008 av Lars VÃ¥ge

Egentligen skulle vi vilja skriva en längre artikel om nyheter i Windows Live News Search men de har inte kommit till Sverige än. Så just nu nöjer vi oss med att konstatera att det i alla fall har lanserats träffar i RSS-format. För oss RSS-junkies som har femtioelva sökbevakningar är det verkligen på tiden. Länken till träfflistan i RSS-format är sannerligen inte påträngande - tre bokstäver i en vit öken till höger långt upp på sidan.

Tyvärr verkar det inte gå att sortera träffarna efter datum snarare än relevans vilket gör RSS-funktionen mindre intressant för nyhetsbevakning - man vill ju ha det nyaste överst. Men det kommer med de andra nyheterna som redan lanserats i den amerikanska versionen. Andra saker som kommer är gruppering av artiklar med samma innehåll (som i Google News), inbäddade multimedia-träffar, lokalisering/filtrering och förslag på relaterade söktermer.

Sök efter citat i Google News

24 April 2008 av Lars Iselid

Nu kan man söka fram olika citat för en viss person i Google News. Sök t ex på Zlatan Ibrahimovic och längst upp i en grå ruta ser man ett utvalt citat. Klickar man sen på namnet Zlatan Ibrahimovic kan man se fler citat.

Google news zlatan citat

Vill man ytterligare söka vidare bland dessa citat finns en liten sökruta till vänster där man kan skriva in ytterligare sökord att precisera sin sökning med. Den text som är sökbar i citaten är den som är svart och fetat. Den gråa texten ligger utanför själva citatet. Inom parentes ser man också hur många likadana uttalande som han gjort, men det finns bara länk till en av källorna och en uppgift om när källan indexerades av Google news. Det går också att sortera citat utifrån relevans och datum. Även begränsa till att se senaste timmen, dagen, veckan, månaden.

Tyvärr verkar det inte fungera på svenska Google news. Varken Zlatan Ibrahimovic eller Frerik Reinfeldt genererar citat. De får man luska fram själv.

Die Zeit i fulltext gratis ända från 1946

13 Januari 2008 av Lars VÃ¥ge

Dags att plocka fram sina skolkunskaper i tyska igen. Den tyska veckotidningen Die Zeit som är välkänd för sin goda journalistik har nämligen lagt ut ett gratis fulltextarkiv och vilket arkiv sedan. I själva verket kan man läsa artiklar ända sedan tidningen startade 1946! Allt material som gavs ut innan tidningen trädde in i den digitala världen 1994 är inskannat och kört genom OCR-program. Det innebär att det kan finnas “stavfel” dÃ¥ programmet misslyckats men pÃ¥ det hela taget verkar det ha fungerat mycket bra. Den som är intresserad av hur textextraheringen skett kan läsa om det här.

Hur är det med möjligheten att orientera sig i dessa textmassor nu då? Först ska konstateras att det går att klicka sig fram årsvis och nummer för nummer. Dessutom kan man gå in i ett register över skribenter och klicka fram alla artiklar från dessa. Varje skribent har t.om. en egen RSS-ström.

För att övergå till sökningen så går det både att göra fulltextsökning eller om man så vill begränsa sökningen efter några olika kriterier. Man kan söka på artiklarnas titlar, vilken avdelning de förekommit i och vem som skrivit och vilket år och nummer. Dessutom kan man ange ett exakt datumintervall om man vill det. I fulltextsökningen kan man kombinera sökord med relationerna och, inte samt eller.

Jag skulle säga att sökmöjligheterna är fullt tillräckliga och bra är också att träfflistorna går att sortera både efter relevans och datum. Jag saknar dock möjligheten att datumsortera bakvänt så att den tidigaste artikeln kommer överst. Inte heller går det att på ett lätt sätt navigera till den sista sidan med träffar, utan man kan bara växla stegvis mellan träffsidor. Men detta är bara småsaker, att få gratis tillgång till en sådan här högkvalitativ nyhetskällas arkiv för sex decennier är ju helt fantastiskt.

När jag sökte lite ostrukturerat för att se hur det fungerade hittade jag en underbar artikelserie som tydligen pÃ¥börjades redan i februari 2006 och som fortfarande är aktiv. Den heter “100 Klassiker der Moderne” och handlar om klassiker inom den moderna musiken. Här samsas musikskapare frÃ¥n alla musikaliska genrer vilket gör artikelserien mycket spännande om man har bred musiksmak. Den första artikeln tar upp John Cages ökända komposition 4:33 som inte innehÃ¥ller en enda ton, nästa handlar om Coltranes tidlösa mästerverk A Love Supreme, den tredje om Igor Stravinskys VÃ¥roffer, den fjärde om Elvis The Sun Sessions… Den sist publicerade artikeln frÃ¥n i torsdags handlar om Albert Aylers Spirital Unity och är nr 93 i serien.

Nytt i Google News

3 Januari 2008 av Lars VÃ¥ge

I slutet av december lanserades ett par nyheter i Google News. Det är inte så ofta så det är alltid välkommet. En tycker jag är riktigt bra och det känns skönt att för en gångs skull få skriva något om Google och sökfunktionalitet. Det handlar om möjligheten att söka efter nyhetsartiklar i specifika källor. Genom det avancerade sökformuläret har man kunnat göra det i ett par år men nu har det blivit lättare.

Om man placerar markören i fältet Nyhetskälla (eller Source i det engelskspråkiga) i det avancerade formuläret och börjar skriva in bokstäver så dyker det upp förslag på källor medan man skriver. Ingen ny teknik precis men effektiv när det inte finns någon lista över källor. Det fungerar i svenska Google News också, inte bara i de engelskspråkiga varianterna. Kombinera sökningen med vanliga sökord och hugg RSS-adressen och vips har man en sökbevakning styrd mot en specifik nyhetskälla.

Som sagt inget nytt men alltid roligt när giganten Google gör något i sökväg nuförtiden. En annan lösning är förstås att som Eniros Nyhetssök ha alla källorna i en lång rullgardin. Det fungerar dock knappast med de 4500 källorna i engelskspråkiga Google News.

En annan nyhet är att man kan skriva en del av ett namn på en nyhetskälla. T.ex. kan man skriva source:dagens i den vanliga sökrutan i Google News och få träffar från t.ex. Dagens Industri och Dagens Medicin. Inte lika användbart kanske.

Frisim planerar ny version

21 September 2007 av Lars Iselid

Svenska nyhetssöktjänsten Frisim planerar en större uppdatering som har det tillfälliga namnet “Frisim 2″. Hoppsan, inte 2.0 alltsÃ¥ :-) Eventuellt kan det till och med innebära att Frisim fÃ¥r ett nytt namn. Clas pÃ¥ Frisim meddelar att 50% av alla javakod mÃ¥ste skrivas om frÃ¥n början. Han nämner Svenska Sesams nyhetssökning som en inspirationskälla för hur han vill att det ska se ut. Fokuseringen kommer fortfarande att vara pÃ¥ svenska nyheter och gratis sÃ¥dana pÃ¥ nätet ska tilläggas. En betaversion planeras redan komma om nÃ¥gon mÃ¥nad och vi uppmanas gissa under vilket namn.

Frisim eller bröstsim eller ryggsim. Namnet kommer inte att vara det avgörande för att lyckas även om jag kan förstå att Clas vill byta till ett mer associativt namn än Frisim. För oss som redan känner till Frisim lär det kvitta. Vi vill se ytterligare förbättringar av funktioner t.ex. mer förfinad kategorisering och relevans. Varför inte ge sig in i branschen av svenska nyheter som inte är fria på nätet och konkurrera med t.ex. Mediearkivet som stagnerat i sin utveckling.

New York Times artikelarkiv delvis gratis

19 September 2007 av Lars Iselid

Att på ett enkelt och kostnadseffektivt sätt rekvirera artiklar från utländska nyhetstidningar har alltid varit ett mer eller mindre komplicerat projekt för biblioteken när låntagarna efterfrågat detta. Därför bockar och niger man varje gång det lanseras tjänster på Nätet som underlättar detta. New York Times annonserade i veckan att de släpper stora delar av sitt arkiv gratis. Enligt AFP via Yahoo News rör det sig om följande:

Now, the entire site will be accessible for free, including archives from 1987 to the present as well as those from 1851 to 1922. Some charges will remain for archival work between 1923 to 1986, and some will be free, it said.

Tydligen har New York Times insett att man fÃ¥r in tillräckligt via annonser för att kunna släppa stora delar av arkivet fritt. Det är bara att hoppas att fler större aktörer inser att gratis kan innebära trafik=annonser=pengar. Jag söker pÃ¥ aids och New York Times i Google News Archive som visar att artikeln “Ignored AIDS Drug Shows Promise in Small Tests” skulle kosta 4,95 USD att rekvirera:

New York Times

…men klickar man pÃ¥ länken är den gratis. Tack för det, Old Grey Lady! Undrar när Google News ocksÃ¥ upptäcker detta ;-)

Äntligen klustring av träffarna i Google News

4 September 2007 av Lars VÃ¥ge

Jag kunde aldrig förstÃ¥ varför Google News inte använde klustring av träffarna frÃ¥n början. Deras startsidor har hela tiden använt dublettdetektion och samsorterat artiklar som var i grunden samma “story”. Detta gällde bara den autogenererade startsidan dock, sÃ¥ fort du sökte slogs funktionen av. Nu har man äntligen valt att aktivera den vid själva sökningen i Google News. T.om. pÃ¥ svenska Google Nyheter är detta aktivt nu. Det här innebär att träffarna inte nödvändigtvis kommer i kronologisk ordning. Vill man kan man emellertid slÃ¥ av dublettdetektionen och det känns bra att man har det valet.

En annan nyhet är att Google nu har ett aktivt samarbete med fyra viktiga nyhetsbyråer. Det är franska Agence France Press, amerikanska Associated Press, brittiska Press Assocation och Candian Press. Eftersom ingen av de fyra nyhetsbyråerna har haft en egen webbplats där deras artiklar publicerats har Google inte kunnat länka till originalversioner av deras material vilket missgynnat dem. Jämför med Reuters som har en egen webbplats till vilken Google har drivit trafik via Google News. Samarbetet går ut på att Google lagrar nyhetsbyråernas artiklar på Googles egna servrar. Här är ett exempel: en AFP-artikel på en Google-server.

Detta att Google “hostar” nyhetsbyrÃ¥ernas artiklar har naturligtvis en rad implikationer. Skälet att detta sker är väl delvis rättstriderna med bl.a franska AFP. Men det här kan ju inte vara en lösning som gagnar dagstidningar som köper t.ex. AFP:s artiklar och publicerar dem. När nu en AFP via Google-version finns att läsa behöver man ju inte surfa till en tidning som för AFP:s artikel. Hmmm. Om sedan Google börjar placera annonser pÃ¥ de här sidorna med nyhetsbyrÃ¥ernas artiklar…

Google har äntligen gjort upp med nyhetsbyrån AFP

10 April 2007 av Lars VÃ¥ge

För två år sedan startade en rättsprocess mellan Google och den franska nyhetsbyrån Agence France Press. Först nu har man lyckats komma till en slutpunkt. Det var i mars 2005 som AFP stämde Google för att man ansåg att Google News användande av nyhetsbyråns rubriker, sammanfattningar och foton utgjorde ett copyrightintrång. Som bekant har liknande processer drivits t.ex. i Belgien. Hur som helst har man nu enats och hädanefter kommer AFP:s material åter användas och bli sökbart i Google News. Inte bara det vad det verkar. Så här säger AFP:s ordförande Pierre Louette nämligen:

“The agreement will allow uses of AFP’s content in ways that go beyond its typical use of content in Google’s services, which features just headlines and snippets of text to provide just a taste of what an article offers”

Det sägs också i uttalandet att uppgörelsen:

“will enable the use of AFP’s newswire content in innovative, new ways that will dramatically improve the way users experience newswire content on the Internet”

Vad i hela världen har de kokat ihop frågar man sig. Under alla omständigheter är det väldigt bra att AFP syns igen i Google News, deras artiklar har ofta andra och intressantare perspektiv än Reuters och AP tycker jag.

AFP:s eget pressmeddelande

Google förlorade mot de belgiska tidningarna

13 Februari 2007 av Lars VÃ¥ge

I slutet av september skrev vi om belgiska Google News som hade fÃ¥tt mothugg av franskprÃ¥kiga tidningar i landet. Det blev rättssak av det hela och Google News i Belgien fick plocka bort citat frÃ¥n tidningarna i frÃ¥ga plus att man fick lägga ut en informationstext om “affären” pÃ¥ sin startsida. Problematiskt för Google var ju att en belgisk domstol hade bestämt att de mÃ¥ste ta bort artikelsammanfattningarna inom en relativt kort tidsrymd och att Google överhuvudtaget inte hört talas om domen förrän mycket sent (man skickade ingen representant till rättegÃ¥ngen…). SÃ¥ man hann inte tillgodose kraven och överklagade därför kraven pÃ¥ att de skulle betala böter för detta.

Nu har den belgiska domstolen kommit fram till att Google bröt mot upphovsrättslagen i landet och att branschorganisationen Copiepresses stämning var helt i sin ordning. Retroaktivt har man också dömt att Google ska betala 25 000 euro per dag för den tiden man fortsatte att använda textsnuttar från de aktuella dagstidningarna. Vilket var mycket mindre än vad man hade fruktat att få betala.

Intressantast är kanske att i framtiden måste copyrightägarna själva ta kontakt med Google via e-post om de vill att sökmotorn ska plocka bort deras material från belgiska Google News. Därefter har Google 24 timmar på sig att plocka bort innehållet och först därefter utgår böter på 1000 euro per dag. Praktiskt för Google.

Angående själva huvudfrågan om det var fel av Google att använda tidningarnas texter så rapporterar Associated Press att domstolsbeslutet fastslog att:

“We confirm that the activities of Google News, the reproduction and publication of headlines as well as short extracts, and the use of Google’s cache, the publicly available data storage of articles and documents, violate the law on authors’ rights”

Det här är ju onekligen nÃ¥got att fundera över. Reproducerande av rubriker och textutdrag och lagrande av cachade kopior är alltsÃ¥ i strid med belgisk lag. Men det här är ju det som alla nyhetssöktjänster gör. LÃ¥t vara att vissa nyhetssöktjänster inte har automatiskt renderade startsidor utan bara har en sökruta. Men vad är träfflistorna som visas i alla typer av sökmotorer världen över om inte just ” the reproduction and publication of headlines as well as short extracts”?

För de som är bra på franska finns domen i fulltext (publicerad på Copiepresses webbplats).

Studie av svenska verktyg för omvärldsbevakning

30 Januari 2007 av Lars VÃ¥ge

Idag försvarar Daniel Nyhlén och Thomas Sand som studerar vid Institutionen för Data- och systemvetenskap på KTH sin magisteruppsats En jämförande studie av omvärldsbevakningssystem. Den 64 sidor långa studien (som jag inte läst än) borde vara högintressant läsning för alla som är intresserade av omvärldsbevakning i Sverige. Det är viktiga spelare på business intelligence-marknaden som Aitellu, Affärsdata, Agent25, Findagent, Infopaq, Observer och Retriever som läggs under lupp och analyseras. Internetbrus särskilde vän (vi skrev en bok tillsammans) Hercules Dalianis är handledare för Daniel och Thomas och skriver att det inte finns någon självklar vinnare bland de här systemen utan att det är beroende på vilka krav man som användare ställer på dem.

När jag bläddrat fram och tillbaka i uppsatsen hittar jag bl.a. den här slutsatsen:

Framtiden kan komma att påverka hela branschen på allvar genom upphovsrättsliga frågor. Det kan komma att bli så att ett omvärldsbevakningsföretag inte fritt får länka till en nyhetssidas artiklar, utan måste i så fall betala för att få rätten att göra så. Det innebär sannolikt ökade kostnader för användarna och i värsta fall ett sämre utbud av källor för omvärldsbevakningsföretagen att kunna erbjuda sina användare.

Det vore tråkigt om det blev så tycker jag. Det här är ju en av de mest återkommande knäckfrågorna när det gäller nyhetssöktjänsterna. Ett annat citat:

En annan reflektion som uppkommit via intervjuerna är att de företag som tillhandahåller tjänster för omvärldsbevakning ofta inte har en klar definition på nyttan av omvärldsbevakning.

Låter skumt men är kanske inte så förvånande. Det är naturligtvis väldigt subjektivt och varierande hos kunderna vad som upplevs som nyttan av tjänsten. Det kan inte vara lätt för företagen som erbjuder tjänsterna att avgöra, huvudsaken är ju att tjänsterna faktiskt efterfrågas.

I pressmeddelandet beskrivs vad omvärldsbevakningssystem är så här:

En användare av omvärldsbevakningssystem kan sätta upp s. k. nyhetsagenter som bevakar vissa söktermer, och när dessa dyker upp i en nyhet får användaren information via ett SMS eller e-postmeddelande.

En bra beskrivning tycker jag, men ett av problemen med att skriva uppsatsen var tydligen att det inte fanns några liknande tidigare studier och det beror på att:

I den utländska litteraturen definieras omvärldsbevakning ofta som ett sätt för företag att behandla och förädla den data som redan existerar i företagets verksamhet.

En sista tanke: vore det inte spännande att jämföra det som de studerade företagen erbjuder sina kunder med vad som kan göras av en händig användare med hjälp av nyhetssöktjänster som indexerar svenska nyhetskällor och som kan leverera träfflistor som RSS-strömmar. Bland dessa söktjänster finns Yahoo! News, Google Nyheter, Sesam Nyhetssök, Newsdesk och Frisim.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator