|
Mängden biomedicinsk information
som finns lagrad i digital form är mycket stor och tillväxten
är exponentiell. På grund av detta är traditionella verktyg
för att strukturera och återvinna dokumenterad kunskap och
information otillräckliga. De är alltför tids- och resurskrävande
för att det ska vara möjligt att hantera mer än en bråkdel
av den information som produceras idag.
Att hitta information som döljer
sig i en stor mängd elektroniskt lagrade dokument av olika slag,
att få fram vad som är den väsentliga informationen i
dessa dokument och inte minst att finna hittills okända samband mellan
olika dokuments innehåll är en svår utmaning. Särskilt
svårt är det när det gäller ostrukturerad text, dvs
text som inte är sorterad i t ex en databas. En hel del användbar
information ligger idag dold i texter av olika slag utan att kunna återvinnas
på ett effektivt sätt. Textutvinning kan eventuellt vara en
möjlighet att komma åt även denna typ av information.
Textutvinning innebär
att text i elektroniska dokument som t.ex. webbsidor, pdf-filer, ordbehandlingsdokument,
e-brev eller liknande analyseras med hjälp av ett datorprogram. Analysen
resulterar i att dokumentets information extraheras till en kort representation
av dokumentet. Utifrån denna kan man sedan få en automatiserad
sortering av dokumenten i grupper (kluster eller kategorier) och även
visa på samband mellan dokumenten som annars vore svåra att
finna.
En styrka hos textutvinningsprodukter
är att de kan hjälpa till att plocka fram centrala begrepp i
en viss samling dokument, samt ge en överblick över en mycket
stor mängd material, något som kan användas för omvärldsbevakning
eller för att sätta sig in i ett helt nytt område. Även
den forskare som vill bevaka de forskningsresultat som publiceras inom
det egna specialområdet bör kunna ha stor nytta av textutvinningsprodukter,
i synnerhet när publiceringen, enligt den medicinska databasen Medline,
inom ett forskningsområde som biomedicin kan uppgå till så
mycket som 1 000 artiklar per vecka. Genom att samla in allt det intressanta
materialet, oberoende av format, och låta det analyseras av ett
textutvinningsprogram kan forskaren snabbt få en överblick
över vilka begrepp som är centrala i dokumentsamlingen och hur
de förhåller sig till varandra.
Genom att analysera en mängd
dokument med ostrukturerad text med textutvinnings-produkter kan man också
få fram hur innehållet i vissa dokument förhåller
sig till innehållet i andra dokument och eventuellt få fram
helt nya samband, eller som det ibland kallas, "ny kunskap"
eller "hidden links". Detta kan leda till att nya hypoteser
kan uppställas eller till att tidigare helt outforskade områden
kan upptäckas.
En del av projektet har varit
inriktat på att testa befintliga textutvinningsprogram. En tillämpning
som genomförts med programmen Semio Map och Semio Taxonomy/Semio
Skyline på ett material bestående av referenser till KI-publikationer
finns tillgängligt på adressen textutvinning.kib.ki.se/semiodemo_se.html
Textutvinningsprojektet
har finansierats av Teknikbrostiftelsen
i Stockholm. Licensen för produkterna Semio Map och Semio
Taxonomy delas med docent Jan-Eric Litton, institutionen för
medicinsk epidemiologi, Karolinska Institutet. Om du vill ha mer
information om KIB:s textutvinningsprojekt, eller om du har frågor,
kontakta Catharina Rehn.
|