Magnus Höij, chefredaktör för den alltid pigga internettidningen Internetworld, skriver i ledaren från nummer 1 2007:

“Ännu har vi inte verktyg som i bilder, ljud eller filmer kan hitta relevant information. Ännu kan vi inte söka information genom att mata in en egen bild och hitta liknande innehÃ¥ll i andra bilder. Jag vet inte när dessa verktyg kommer, eller vilka frÃ¥gor de besvarar”.

Jag skulle vilja påstå att detta definitivt redan finns. Ta Podzinger, Podscope och Blinx som förvandlar tal i ljud och video till text och gör det sökbart. Det finns videosöktjänster som använder sig av att indexera text close captioning. En bildsöktjänst som Cobion hade tidigare en funktion för att söka i text gömda i bildfiler tack vare OCR-teknik och Findsounds som funnits sedan oktober 2000 kan söka efter ljudtyper och kallar sin teknik content-based audio retrieval. Både Polar Rose, ImBrowse, Cydral och Riya jobbar med bl a tekniker för ansiktsigenkänning. ImBrowse kallar t ex sin teknik content-based image retrieval och baserar bildanalysen på färg, struktur, form.

Riya har något de kallar Likness search som innebär att Riya uppfattar t ex ett objekt i form av en väska och söker på andra bilder som innehåller andra väskor. Om man registrerar sig på Riya och laddar upp bilder kan Riya uppfatta bilder med ansikten och hör och häpna söka på liknande bilder om man bl a tränar och taggar Riya.

Med andra ord finns redan dessa verktyg Höij önskar sig, fast i vissa delar ej i officiell version (Cydral, Polar Rose), i betastadiet (Riya) eller i annan skepnad (Cobion). En bit på väg är vi ändå i mina ögon sett.


2 Comments on “Sökverktyg för relevant information i bilder, ljud eller filmer - finns dom?”

  1. Johan Ljung says:

    Jag hÃ¥ller med! Visst finns det teknik för innehÃ¥llsbaserad sökning i bild-, ljud- och video-filer. Ur ett svenskt perspektiv är problemet med just taligenkänning (som ger mest vad gäller tv/video) att den tekniken inte är alls lika mogen som taligenkänning pÃ¥ engelska. När jag gjorde mitt exjobb om “Content-Based Filtering of Television News” för ett par Ã¥r sedan sÃ¥ verkade Speech-gruppen pÃ¥ KTH ha kommit längst, men de lÃ¥g fortfarande pÃ¥ en helt annan nivÃ¥ än motsvarande forskning i England och USA. I min exjobbsrapport (http://www.johanljung.se/docs/LjungMScThesis.pdf) skriver jag en del om underliggande teknik och kommersiella tillämpningar.

  2. Lars Iselid says:

    Intressant! Läste förresten att Niklas Zennström (Skype-Kazaa-mannen) investerar i Jott.com som jobbar med taligenkänning: http://www.affarsvarlden.se/art/161099