Arkiv för kategorin ‘SprÃ¥ktekniker’

Clusty introducerar remixad klustring - vad finns under ytan?

23 Januari 2008 av Lars VÃ¥ge

Vivisimo har under flera år visat att det går att skapa meningsfulla automatiska kategorier eller kluster av sökmotorträffar. Poängen är att stoppa in de första par hundra träffarna i mappar med liknande träffar. Det största problemet med detta var inte att hitta likheterna, det finns det matematisk-statistiska metoder för. Utmaningen låg snarare i att hitta bra namn eller etiketter på klustren av sökmotorträffar. Här krävdes också en språklig intelligens i programvaran. Vivisimo lyckades väldigt väl med detta och har lyckats sälja sin teknik till många stora kunder samtidigt som internetanvändarna kunnat använda deras publika metasöktjänst Clusty för att prova på.

Nu har man lanserat ett nytt koncept som man (naturligtvis…) kallar Clustering 2.0. Det handlar om att kunna remixa träffarna för att fÃ¥ nya kluster. Raul Valdes-Perez, Vivisimos CEO, förklarar det hela sÃ¥ här:

Although clustering reveals the major topics in the top 200, 500, or more search results, there are always more topics than can be shown, without overloading the user with a very long list. There hasn’t been any better approach, until now.

With a single click, remix clustering answers the question: What other, subtler topics are there? It works by clustering again the same search results, but with an added input: ignore the topics that the user just saw. Typically, the user will then see new major topics that didn’t quite make the final cut at the last round, but may still be interesting.

Så genom att i en remix undvika de ämnen som redan extraherats och som användaren sett ska man kan kunna hitta mindre självklara spår i träffmängden. Jag är inte klar över om detta betyder att alla tidigare genererade kluster som man sett eller alla som genererats i den första klustringen (även sådana man inte sett) används på ett negerat sätt i remixen. Man har ju redan tidigare kunnat få se fler kluster (med allt färre träffar i) genom att klicka på More clusters. Men den viktigaste frågan är trots allt om man tycker att man hitter mer av intresse genom att klicka på Remix-länken.

I Clusty måste man först och främst tänka på att söka med engelska sökord eftersom klustringstekniken misslyckas med att ge begripliga namn på klustren om den t.ex. använder svenska sökträffar. När man sökt får man förutom en vanlig träfflista till vänster en ruta till höger där man hittar klustren. I denna visas dessutom träffar efter söktjänst och efter webbplatser. Clusters är det som är aktivt som standard. När man tittat igenom namnen på klustren som genererats i den första omgången och vill gräva djupare ska man alltså klicka på Remix-länken till höger.

Lecture Browser från MIT med taligenkänning

15 November 2007 av Lars Iselid

Lecture Browser från MIT med taligenkänning
MIT (Massachusetts Institute of Technology ) i Boston har med taligenkänning (eng. speech recognition) skapat en sökmotor under namnet Lecture Browser som indexerar tal i föreläsningar. En sökning på ordet linux och kategorin Technology and Innovation ger tre träffar. Bland annat föreläsningen The Future of Work av Thomas Malone. Där kan man se när han säger ordet linux och spela upp just det partiet.

Lecture Browser

Cirka 200 föreläsningar har indexerats från MIT World och MIT OpenCourseWare. Tjänsten har utvecklats av Spoken Language Systems Group at the MIT Computer Science och Artificial Intelligence Laboratory. Lecture Browser leds av Regina Barzilay och James Glass.

Sökfunktionen på MIT World är inte särskilt avancerad. Man kan begränsa till ett visst antal ämnesområden och även efter institution/enhet etc. Med Lecture Browser är det meningen att man ska kunna söka djupare på ord som nämns i föreläsning och därigenom förbättra sökmöjligheterna. Ambitionen är att man i framtiden ska kunna lansera en funktion för automatisk textsammanfattning också. Läs mer om Lecture Browser i MIT News.

Tyska sökmotorprojektet THESEUS får EU-pengar

26 Juli 2007 av Lars VÃ¥ge

Som en del läsare kanske minns så splittrades det fransk-tyska samarbetet om den planerade sökmotorn Quaero i december förra året. Den franska kontingenten behöll namnet Quaero medan tyskarna började planera ett eget sökmotorprojekt med arbetsnamnet THESEUS. Nu har det hänt att Europeiska Kommissionen i förra veckan beviljade THESEUS sammanlagt 120 miljoner euro fram till år 2011.

Inledningsvis går pengarna tilll ett mindre antal större företag som Siemens, SAP, Empolis m.fl. för att dessa ska starta upp projektet. I ett senare skede ska små- och medelstora företag få pengar för att bygga vidare på resultaten av den initiella satsningen. Målet med THESEUS är alltså att utveckla och testa nya söktekniker för att skapa fungerande verktyg, tjänster och affärsmodeller som så småningom kan ge ekonomisk utdelning.

THESEUS ska drivas som ett konsortium med intressenter både från industriföretag och forskningsinstitutioner. Bland de senare finns flertalet större tyska universitet och inte mindre än nio institut inom det kända Fraunhofersällskapet. Mer information om vilka som deltar i samarbetet finns i THESEUS pressmeddelande, se nedan.

Vad ska man då försöka åstadkomma inom ramen för det här samarbetet mellan näring och forskning? Fokus är i första hand på semantiska tekniker som ska möjliggöra automatiskt upptäckande av innehåll som sedan kan automatklassificeras. Avgörande är komponenter som ska kunna förstå meningen av innehållet i den förekommande språkliga kontexten. Men även bilder och andra medieobjekt ska kunna analyseras på samma sätt och systemet ska kunna länka textobjekt till dessa när det finns relevanta kopplingar emellan dem. Om man vill läsa mer om visionerna ska man besöka projektets hemsida.

Jag undrar när det kommer ut något av allt detta som vi kan ta del av? Det lär säkert dröja. Under tiden söker även det franska Quaero-projektet EU-pengar på samma sätt som THESEUS. Det finns ju dessutom ett tredje sökmotorprojekt med EU-anknytning som är inriktat på audiovisella objekt - PHAROS.

Läs mer:

Pressmeddelandet från Europeiska Kommissionen
THESEUS-konsortiets pressmeddelande
Artikel i FORBES från AP
Ekonominyheternas artikel
VÃ¥r artikel om Quaero-projektets splittrande

Xerox nya FactSpotter söker djupare?

21 Juni 2007 av Lars VÃ¥ge

Vid Xerox Research Center Europe i Grenoble har man utvecklat en sökprogramvara som sägs kunna söka djupare och intelligentare än de vanliga sökmotorerna. Nu är det ju brukligt att man skriver så i pressmeddelanden som ska väcka intresse så det är svårt att veta vad man ska tro. Programvaran kallas FactSpotter och ska användas för det som på engelska kallas text mining. FactSpotter går längre än vanlig nyckelordssökning och tar sökningen till nästa nivå genom att analysera ordens mening och dess kontexter sägs det. Nästan poetiska är de ordalag som används för att beskriva programvaran: den gör att man kan hitta de en eller två guldklimparna på stranden full med stenar.

FactSpotter ska lanseras nästa år som en del av Xerox Litigation Services och det känns osannolikt att vi vanliga användare ska få tillgång till en gratis sökmotor som använder tekniken. Om man läser pressmeddelandet får man i stort sett bara reda på hur fantastiskt det här är men inte så mycket verklig information. Det enda jag hittar är de här passusarna:

FactSpotter looks not only for the keywords contained in a query but also the context of the document those words contain. For example, if searching for documents that reference Angelina Jolie, FactSpotter will also return results where the pronoun “she” is used instead of Jolie’s full name.

FactSpotter takes into account the context of the entire document instead of just a cluster of nearby words. It introduces the concept of “relation,” searching within and across sentences and paragraphs.

Sedan står det också att man ska kunna söka med naturligt språk men det är ju knappast något nytt. En annan sak är att man inte nödvändigtvis ska få hela dokument som svar utan bara de relevanta delarna. Det kan ju vara bra ibland men andra gånger vill man nog se texten i hela dokumentets kontext.

Google Universal Search del två - tvärsökning mellan språk

28 Maj 2007 av Lars VÃ¥ge

Förra veckan beklagade jag mig över en del av Googles satsning mot vad de kallar Universal Search. Den andra delen som kom några dagar senare tycker jag är klart intressantare. Allt har väl att göra med vilken inställning man har till maskinöversättning. För det är vad det handlar om i den här delen. Att sökmotorer gör automatöversättningar av webbsidor är i och för sig inget nytt, det började ju Altavista med i samarbete med Babelfish för mer än tio år sedan.

Att söka på ett språk och få träffar på andra språk är däremot inte så många som gjort och inga av de stora sökmotorerna. Däremot finns det ett nordiskt projekt med en sökmotor där man kan söka på ett nordiskt språk och få träffar på alla de nordiska språken. Det är Tvärsök som vi skrivit om tidigare och sedan hösten 2006 finns en demo av Tvärsökmotorn på Nordiska Ministerrådets webbplats. Hercules Dalianis på KTH har en sida med förslag på sökuttryck som illustrerar tvärsökningen. Prova t.ex. att tvärsöka på hållbar utveckling.

Åter till Google då som nu gjort en egen tvärsökning. Denna hittar man under Google Translate och har rubriken Search websites in another language. Fast hur man ska hitta till Google Translate kan man fråga sig. Inte från hemsidan, inte under Language Tools, inte under Google Labs. Hur som helst finns det tolv språk att utgå ifrån och förutom engelska är det europeiska språk som tyska, franska, spanska, portugisiska och italienska. Därutöver finns ryska, arabiska, kinesiska, japanska och koreanska. Tyvärr inte svenska alltså. Utgår man från engelska kan man få träff på vilket som helst av de tolv språken. Om man däremot utgår från något av de andra kan man bara få träffar på engelska och i två fall franska eller tyska också.

Maskinöversättning är inte en felsäker teknik, mycket långt därifrån. Inte så sällan får man helt oläsliga texter men ibland blir det ganska hyggligt. Det viktigaste är att tekniken är som Googles tekniker skriver i utvecklarbloggen:

usually good enough for you to obtain the gist of information in a language you might otherwise be unable to access

Ibland kan det räcka, ibland inte.

Jott översätter tal till text

23 Januari 2007 av Lars Iselid

JottSka erkänna att tjänsten Jott inte är helt purfärsk(släpptes i beta 7 december förra Ã¥ret) utan har gÃ¥tt förbi mig men jag upptäckte den när jag läste att Niklas Zennström (ni vet, mannen bakom Skype och Kazaa) investerat i det Seattle-baserade bolaget. Jott översätter tal till text som sedan skickas som e-post. Tyvärr finns tjänsten bara för dom som har amerikanskt telefonnummer men i artiklen: Venture Capital: Look, no hands — voice delivered to text frÃ¥n The Seattle Post-Intelligencer, December 8, 2006 har John Cook testat tjänsten. Följande talade text:

“Jott Networks is a new startup that converts your voice into text and delivers it via e-mail.”

tolkades av Jott som:

“Jott now works as a new startup that converts your voice and ___ delivers it via E-mail”.

Varför är då Jott intressant enligt Internetbrus? Det skulle t ex kunna användas av oss med musarmsbesvär när man vill mejla eller delta i diskussionsforum eller chatta. Men det gäller då som i mitt fall att de förstår västerbottniska ;-) till åtminstone 80% korrekthet annars kommer man snarare att betraktas som slarvig eller ordblind när man mejlar vidare sånt.

Ska också tilläggas att taligenkänning inte är något nytt. Ni kanske har testat Telias automatiska nummerupplysning och fått konstiga svar som: Sa du Korpilombolo?, när man egentligen sa Koskuskulle. Men taligenkänning har så vitt jag vet aldrig använts i sammanhang med informationssökning på internet.

Quintura for Kids - avancerad sökteknik för barn

16 Januari 2007 av Lars VÃ¥ge

Vi har under 2006 vid ett par tillfällen skrivit om den ryskproducerade visuella sökmotorn Quintura med sina ordmoln. I slutet av året dök en specialversion inriktad mot barn upp - Quintura for Kids. Här finns samma typ av sökteknik som Quintura kallar See and Find som används i den fullvuxna versionen. För att få de unga sökarna att lättare komma igång finns det ett ordmoln med 15 vanliga ord som animals, music, science o.s.v. att starta med. Dessutom finns det i den tecknade bakgrundsbilden fem animerade bilder som om man klickar på dem resulterar i utförda sökningar. Klickar man på den svansviftande hunden så söker man t.ex. på animals.

Det speciella med Quinturas teknik är ju att om man söker på ett ord placerar sig detta i mitten av ett moln med relaterade ord. När man för musen över något av de relaterade orden så förändras träfflistan och reflekterar hur träffarna skulle bli om man klickade på detta ord. Så man kan föra musen över flera ord i molnet och se i förväg hur de skulle påverka sökningen innan man väljer att verkligen utöka sökningen med ordet genom att faktiskt klicka på det. Jag tycker att det är mycket intuitivt och trevligt men har svårt att bedöma om barn kan ta till sig det här söksättet på ett lätt sätt. Träffarna som man får i Quintura for Kids kommer från Yahoo! Kids.

KunskapsExtraktionsAgent - nytt svenskt sökprojekt

30 November 2006 av Lars VÃ¥ge

Vår särskilde vän Hercules Dalianis på KTH är på nytt involverad i ett intressant sökteknikprojekt. Den här gången rör det sig om KunskapsExtraktionsAgent eller kort och gott KEA. Projektet har fått stöd från den statliga myndigheten VINNOVA som sorterar under näringsdepartementet och som skall stödja innovationsarbete inom forskning och utveckling. 2,2 miljoner kronor har VINNOVA beviljat för det treåriga projektet.

Projektet ska arbeta med två helt olika typer av informationssystem. Det ena är Stockholms läns landstings spridda journalföringssystem och det andra är kopplat till omvärldsbevakaren Agent25. Man kommer att erbjuda användarna avancerade sökmöjligheter byggda på tekniker som automatisk klustring, meningsfullt etiketterande av funna kluster, automatisk textsammanfattning med utgångspunkt från en eller flera texter, kopplingar till liknande information på andra språk och naturligtvis tips på synonymer och relaterade termer. Spännande.

Quintura lanserar webbversion av sin visuella sökning

4 November 2006 av Lars VÃ¥ge

Jag har tidigare i år skrivit entusiastiskt om det spännande sökverktyget Quintura. Tills nu har det bara funnits som ett program man laddat ner och installerat på sin dator. Nu har deras visuella sökteknik lanserats i ett webbgränssnitt och det gör det ju enklare för fler att prova Quintura. Chefen och utvecklaren Yakov Sadchikov skickade ett mail till oss om den nya versionen som lanserades i förrgår på deras egen webbplats.

Att söka med Qiuntura gÃ¥r till ungefär sÃ¥ här: I det övre blÃ¥ fältet skriver man in sökord i sökrutan. Som resultat fylls det blÃ¥ fältet med ord där egna sökord är markerade med rött och är nära mittten. Molnet av ord liknar ett taggmoln med de populäraste ämnesorden som folk använt som i en del Web2.0-tjänster. Men orden är i Quinturas moln istället framtagna genom sprÃ¥ktekniker och algoritmer som utnyttjar neurala nät (vad det nu innebär egentligen). Det är genom ordmolnet som man “visuellt” kan manipulera med sin sökning.

För man musen över ett ord i molnet uppdateras den linjära träfflistan under det gröna strecket som om man skulle lagt till det sökordet. Är man nöjd med förändringen klickar man på ordet som då läggs till sökningen på riktigt. Om man tvärtemot ogillar förändringen kan man plocka bort ordet från ordmolnet genom det röda krysset. Då förändras ordmolnet och nya ord dyker upp. Sedan kan man också lägga till ett nytt valfritt ord till molnet genom att dubbelklicka i rutan. Man får då upp en sökruta där man kan skriva in fler sökord.

Det roliga med Quintura är att se hur träfflistan förändras när man jobbar med ordmolnet och lägger till och tar bort eller framhäver vissa ord. Samma sökteknik kan utnyttjas med bildsökning men jag vet inte hur väl det passar för detta. Webbsökningen utnyttjar Yahoos sökmotorindex så det är därifrån träffarna kommer. Det finns mycket fler möjligheter om man laddar ner Quinturas program och installerar det men jag tycker att man kommer långt med webbversionen.

Mnemomap - intelligent och social sökning?

8 Juli 2006 av Lars VÃ¥ge

mnemomap
Idag ska vi titta på en vad jag kan förstå alldeles färsk söktjänst från Tyskland kallad Mnemomap. Att döma av utvecklarbloggen blev Mnemomap tillgänglig i början av juli och befinner sig ännu bara i alpha-stadiet. Mnemomap har skapats av företaget Send | receive i Aachen som enligt sin hemsida har som mål att förena estetik, teknik och social kontext. Visualisering av digital information är deras specialitet vilket är tydligt i Mnemomap.

Det finns tre huvudfönster i Mnemomaps gränssnitt. Överst finns ett fält där en sökruta placerats i mitten. Under detta finns ett tillsvidare tomt fält som kallas Query List. Under detta i sin tur finns till vänster ett fält med flikar som kallas Tabs. Bredvid detta till höger finns länkar som har med navigeringen i den bloggbaserade webbplatsen att göra men inte med sökningen. För att förstå vad Mnemomap går ut på måste man skriva in något sökord i rutan i det övre fältet och klicka på Mnemo It-knappen.

När man har skrivit in ett sökord och skickat iväg detta händer flera saker. I det övre fönstret öppnar sig vad utvecklarna kallar ett atomiskt träd med tre huvudgrenar markerade med blå rutor - synonyms, tags och translations. På dessa grenar kan det finnas mindre kvistar som markeras med vita fält och innehåller ord som är menade att användas för att utöka och/eller precisera sökningen. Samtidigt har det första sökordet lagt sig i Query List-fältet. Om man vill lägga till något ord från det atomiska trädet ska man klicka på de små pilarna så läggs ordet till sökningen och hamnar också i Query List-fältet. Väl i detta fält kan man avaktivera (klicka på ordet), bygga ett atomiskt träd runt det (klicka på pilen) eller ta bort sökordet (klicka på krysset).

Tanken är alltså att man ska kunna prova sig fram och laborera med olika sökord på ett intuitivt sätt. Själva träffarna som genereras av de olika sökorden hamnar i det nedre vänstra fältet med flikarna. Fliken som är aktiverad som standard heter Yahoo och det är alltså träffar från den sökmotorns index som utgör huvudresultaten. Till detta kommer två flikar som lägger till den sociala komponenten i sökningen. Det är nämligen träffar från bildlagringstjänsten Flickr och från videolagringstjänsten YouTube. Jag föreställer mig att input till Tags-delen av de atomiska träden kommer från dessa båda tjänster.

Jag tycker att gränssnittet känns modernt och fungerar bra och svarstiderna är fullt acceptabla. Hur mycket nytta man fÃ¥r av de atomiska träden är nog mycket beroende av vilka sökord man använder. Egennamn genererar naturligtvis inte sÃ¥ mycket här utan det är främst när man söker pÃ¥ substantiv och verb som de atomiska träden blir till hjälp. Det skulle vara bra om det fanns fler flikar med träffar frÃ¥n fler källor och om dessa vore valbara. Det skulle vara intressant med fler “sociala” träffar frÃ¥n t.ex. del.icio.us eller nÃ¥gon podcastsökmotor och varför inte Wikipedia.

Bloggtoppen.se

Blogglista.se

Global Voices Online - The world is talking. Are you listening?

Creeper

Nowhere North

↑ Grab this Headline Animator



iselid info

↑ Grab this Headline Animator