Textutvinning - vad är det?

Universitetsbiblioteket vid Karolinska Institutet drev mellan 1999 och 2002 ett projekt som undersökte om textutvinning (text mining) skulle kunna vara en teknik som kan ge forskare och studenter bättre möjligheter att hantera den enorma mängd material som finns i elektronisk form. Grundtanken i textutvinning är att man genom att analysera en mängd dokument med ostrukturerad text ska kunna få fram hur innehållet i vissa dokument förhåller sig till innehållet i andra dokument och kanske få fram nya samband, eller som det ibland kallas, "ny kunskap".

 

Mängden biomedicinsk information som finns lagrad i digital form är mycket stor och tillväxten är exponentiell. På grund av detta är traditionella verktyg för att strukturera och återvinna dokumenterad kunskap och information otillräckliga. De är alltför tids- och resurskrävande för att det ska vara möjligt att hantera mer än en bråkdel av den information som produceras idag.

Att hitta information som döljer sig i en stor mängd elektroniskt lagrade dokument av olika slag, att få fram vad som är den väsentliga informationen i dessa dokument och inte minst att finna hittills okända samband mellan olika dokuments innehåll är en svår utmaning. Särskilt svårt är det när det gäller ostrukturerad text, dvs text som inte är sorterad i t ex en databas. En hel del användbar information ligger idag dold i texter av olika slag utan att kunna återvinnas på ett effektivt sätt. Textutvinning kan eventuellt vara en möjlighet att komma åt även denna typ av information.

Textutvinning innebär att text i elektroniska dokument som t.ex. webbsidor, pdf-filer, ordbehandlingsdokument, e-brev eller liknande analyseras med hjälp av ett datorprogram. Analysen resulterar i att dokumentets information extraheras till en kort representation av dokumentet. Utifrån denna kan man sedan få en automatiserad sortering av dokumenten i grupper (kluster eller kategorier) och även visa på samband mellan dokumenten som annars vore svåra att finna.

En styrka hos textutvinningsprodukter är att de kan hjälpa till att plocka fram centrala begrepp i en viss samling dokument, samt ge en överblick över en mycket stor mängd material, något som kan användas för omvärldsbevakning eller för att sätta sig in i ett helt nytt område. Även den forskare som vill bevaka de forskningsresultat som publiceras inom det egna specialområdet bör kunna ha stor nytta av textutvinningsprodukter, i synnerhet när publiceringen, enligt den medicinska databasen Medline, inom ett forskningsområde som biomedicin kan uppgå till så mycket som 1 000 artiklar per vecka. Genom att samla in allt det intressanta materialet, oberoende av format, och låta det analyseras av ett textutvinningsprogram kan forskaren snabbt få en överblick över vilka begrepp som är centrala i dokumentsamlingen och hur de förhåller sig till varandra.

Genom att analysera en mängd dokument med ostrukturerad text med textutvinnings-produkter kan man också få fram hur innehållet i vissa dokument förhåller sig till innehållet i andra dokument och eventuellt få fram helt nya samband, eller som det ibland kallas, "ny kunskap" eller "hidden links". Detta kan leda till att nya hypoteser kan uppställas eller till att tidigare helt outforskade områden kan upptäckas.

En del av projektet har varit inriktat på att testa befintliga textutvinningsprogram. En tillämpning som genomförts med programmen Semio Map och Semio Taxonomy/Semio Skyline på ett material bestående av referenser till KI-publikationer finns tillgängligt på adressen textutvinning.kib.ki.se/semiodemo_se.html

Textutvinningsprojektet har finansierats av Teknikbrostiftelsen i Stockholm. Licensen för produkterna Semio Map och Semio Taxonomy delas med docent Jan-Eric Litton, institutionen för medicinsk epidemiologi, Karolinska Institutet. Om du vill ha mer information om KIB:s textutvinningsprojekt, eller om du har frågor, kontakta Catharina Rehn.

Sidan uppdaterad av Catharina Rehn 17 Feb 2003