Etablering af en dansk term- og vidensbase
DanTermBank Fase 1: etablering af en dansk term- og vidensbase
En dansk term- og vidensbank, hvor parallelsproglig viden inden for fagdomæner kan indsamles, struktureres og formidles er en nødvendig forudsætning for, at vi kan sikre fastholdelse og udvikling af et dansk fagsprog til formidling af viden. For at kunne etablere en dansk term- og vidensbank af et tilstrækkeligt omfang og med indhold af en tilstrækkeligt høj kvalitet, er der brug for at udvikle metoder der kan sikre automatisk ekstraktion af viden fra tekster og automatisk kvalitetssikring.
I DanTermBank-projektets første fase skal der udvikles metoder og værktøjer, der kan bearbejde store mængder af tekst og uddrage den viden, som skal indgå i term- og vidensbanken. Denne fase af projektet får støtte fra
VELUX-fonden
1. Vidensindsamling.
a. Automatisk vidensekstraktion fra tekster. Her udvikles metoder og værktøjer som på baggrund af en samling af tekster inden for et fagområde kan udtrække relevante begreber og information om relationer mellem dem, således at der kan opbygges udkast til terminologiske ontologier (begrebssystemer). Disse informationer viderebearbejdes under delprojekt 2.
b. Automatisk samkøring og kvalitetssikring af eksisterende terminologiske data. Der er to meget vanskelige problemstillinger forbundet med at konvertere og indlæse terminologidata fra forskellige kilder: For det første kan materialene have forskellig struktur, være lagret i forskellige formater og være af meget forskellig kvalitet. For det andet er det mindst lige så problematisk, når flere forskellige indgange fra hver sin kilde i virkeligheden dækker over det samme begreb, men med flere forskellige udtryk og definitioner tilknyttet. Sådanne dublerede indgange, kaldet ’falske dubletter’, reducerer kvaliteten af en termbank. Der vil i projektet blive arbejdet med løsninger på begge problemkomplekser.
2. Videnstrukurering.
Der vil blive arbejdet med metoder og værktøjer til optimering og validering af de terminologiske ontolgier der kommer ud af den automatiske vidensekstraktion. Arbejdet tager udgangspunkt i en tidligere udviklet prototype beregnet til computerstøttet ontologibygning baseret på terminologiske principper.
3. Vidensformidling.
Dvs. brugergruppetilpasset adgang til termbanken. Term- og vidensbanken vil indeholde mange oplysninger om hvert enkelt begreb, men forskellige brugergrupper har forskellige behov mht. udvalget af oplysninger og præsentationen af disse. Et delprojekt beskæftiger sig med tilpasning til forskellige brugergrupper.
Sidst opdateret af Linda Støckel, Anna Elisabeth Odgaard 24.02.2012