Svenska Virtual Genetics lab har släppt sin sökmotor Sentensa som open source under licenserna GNU GPL och LGPL. Sentensa är precis som open source-sökmotorn Lucene programmerad i Java. Sentensa har en funktion som heter Similarity search, liknade funktioner finns i många sökmotorer och databaser, men i Sentensas fall kan man kopiera hela textsjok som sedan analyseras för att kunna presentera liknande träffar. Tyvärr finns ingen inbyggd rättstavning eller något försök med stemming eller lemmatisering, däremot jobbar man med probabilistiska metoder, dvs. sannolikhetsmetoder, i relevansalgoritmen. En annan funktion är att Sentensa automatiskt konverterar PDF-filer till HTML- eller XML-filer som sedan görs sökbara. Sentensa har ett eget API (programmeringsgränssnitt) som bygger på protokollet SOAP. I övrigt utlovas snabba sökningar i stora mängder av information, vilket vi inte kan verifiera i dagsläget eftersom vi inte har installerat och testat Sentensa. Om någon av våra läsare händelsevis har testat Sentensa får ni gärna skriva en bloggkommentar.

Märk väl att vill man ha tillgång till Sentensas alla möjligheter krävs ändå att man köper en kommersiell version eller att man prenumererar på ett s.k. “support scheme”.


2 Comments on “Nya svenska sökmotorn Sentensa släpps som open source”

  1. dikatlon says:

    Hua, det där låter mysigt. Beagle använder ju b la lucene, ja vet inte om ja minns rätt men Kat gör väl det också. Iaf detta låter intressant. Hoppas att någon börjar på ett projekt och använder sig utav detta :=)

    Miguel D Icaza och Nat Throwbridge’s Dashboard såg ju så lovande ut - men vart det tagit vägen , vem vet????

  2. Joakim Cöster says:

    Kul med kommentarer!

    Sentensa är faktiskt två projekt: gränsnittet och server som Virtual Genetics / Sentensa har gjort och själva indexerings- och sökmotorn som kallas xir (för eXtreme Information Retrieval) som Asimus gjort. Server + gui är i GPL, motorn är i LGPL. Sökmotorn kommer i senare versioner att innehålla synsetsökningar, dvs probabilistiska synonymer med fördefinierade synonymblibliotek i flera språk. Lemmatisering som nämns ovan finns faktiskt redan i xir - dock bara på engelska. Att indexera stora mängder (t ex minst 10 miljoner poster) medför visst handhavande, ett sådant är att vid indexering och uppsättning av ett index så specas att t ex lemmatisering skall ske. Algoritmen som fn används är Porter. Vi har givetvis även andra som vi senare kommer att offentliggöra (också på flera språk). Vi måste hela tiden överväga open source gentemot icke open source i varje ansats. Vidare ansatser bedömer i varje fall jag (som grundare av Asimus och huvudkonstruktör av xir i sin 1a utgåva) som riktade mot bl a synsetsökningar och sådant (givetvis flerspråkigt). Vi har redan väl fungerande metoder för detta. När vi tycker att vår fördefinierade synsetbas är tillräcklig så släpper vi det. Se fram emot en intermediär version - version 1.5 av xir - inom två till tre veckor!

    Ge gärna synpunkter - antingen till sentensa.com eller asimus.se (siten kommer upp den 25:e oktober). Until then…

    Mvh Joakim