Beretning 2002: Institut for Datalingvistik (ID)
Bernhard Bangs Allé 17B
2000 Frederiksberg
Institutleder: Sabine Kirchmeier-Andersen
Telefon: 38 15 31 36
Fax: 38 15 38 20
E-mail:
ln.id@cbs.dk
Bestyrelse: Sabine Kirchmeier-Andersen, Hanne Erdman Thomsen, Steffen Leo Hansen, Lene Nissen
|
Forskningsmedarbejdere
|
|
Professorer:
|
|
Bodil Nistrup Madsen
|
|
Lektorer:
|
|
Steffen Leo Hansen
|
|
Sabine Kirchmeier-Andersen
|
|
Bjarne Ørsnæs
|
|
Hanne Erdman Thomsen
|
|
Henrik Selsøe-Sørensen (50% resten på FIRST)
|
|
Daniel Hardt (fra 1.10.)
|
|
Forskningslektorer:
|
|
Daniel Hardt (indtil 1.10.)
|
|
Adjunkter:
|
|
Peter Juel Henrichsen
|
|
Forskningsadjunkter:
|
|
Stig W . Jørgensen (fra 1.11.) (50%)
|
|
Peter Rossen Skadhauge (fra 1.4.)
|
|
Forskningsassistenter:
|
|
Jette Drost (fra 1.9.) (84%)
|
|
Carsten Hansen (fra 1.10.) (41%)
|
|
Matthias Trautner Kromann (fra 1.3.)
|
|
Anne Mette Saro Jensen (fra 15.8.)
|
|
Systemadministrator:
|
|
Kåre Hviid
|
|
Rodrigue Mompelat (indtil 1.7.)
|
|
Udviklingschef:
|
|
Bo Krantz Simonsen (fra 1.7.)
|
|
Ph.d.-stud.:
|
|
Nina Frederiksen
|
|
Tina Nielsen (50%)
|
|
Tina Nielsen
|
|
Ekaterina Mhaanna
|
|
Lone Bo Sisseck (1.5.) (Barselsorlov fra 4.11.)
|
|
Andre:
|
|
Prof. Carl Vikner er efter sin fratrædelse tilknyttet instituttet som ekstern ph.d.-vejleder og som deltager i projekterne OntoQuery og Caos.
|
|
Sekretariat AC-fuldmægtige:
|
|
Ellinor Hansen (fra 1.9. ansat som program-director på MLA-uddannelsen)
|
|
Sekretariat Kontorfuldmægtige:
|
|
Lene Nissen (32 timer)
|
|
Gitte Jørgensen (25 timer)
|
|
Merete Ørslev Christensen (35 timer fra 1.11.)
|
|
Kontorassistent:
|
|
Rie Astrup (25 timer)
|
Forskningsmidler
Basismidler 3,8 ÅV
|
Pargram:
|
Frikøb/Udlån/Forskningsassistent
|
|
498.000 kr
|
|
DANTERMcentret:
|
Ph.d.stip (½ tid)
|
|
150.000 kr
|
|
EU-Socrates (IGLO):
|
Frikøb af forsker fra Institut for Engelsk
|
79.000 kr
|
|
|
Forskningsstyrelsen (STVF) (OntoQuery):
|
Ph.d. stip. (6 mdr).
|
|
150.000 kr
|
|
Forskningsstyrelsen (STO):
|
Forskningsadjunkt/-assistenter
|
|
396.000 kr
|
|
I alt
|
ÅV
|
2,8
|
1.273.000 kr
|
|
Forskningsudvalg:
|
Grammatiktjekkere
|
|
60.000 kr.
|
|
Ledelsespulje:
|
Caos
|
|
165.000 kr
|
|
|
CMOL
|
|
653.000 kr
|
|
|
professorløn forskningsandel
|
|
225.000 kr
|
|
|
|
|
|
|
Egne forskningsmidler:
|
IT-satsning
|
|
1.000.000 kr
|
|
i alt
|
ÅV
|
4,6
|
2.103.000 kr
|
|
Forskningsårsværk i alt
|
ÅV
|
7,4
|
3.376.000 kr
|
Historie
Instituttet, som blev oprettet den 1.8.1985, har til opgave at udvikle det faglige grundlag for undervisningen i datalingvistik, at planlægge og gennemføre denne undervisning, samt at udføre datalingvistisk forskning, specielt inden for følgende områder: formel syntaktisk og semantisk analyse af fagsprog, modellering og repræsentation af fagsprogsrelevant viden, natursprogsgrænseflader, automatisk oversættelse, datamatisk terminologi og leksikologi. Inden for disse områder er fokus først og fremmest på datalingvistiske problemstillinger som involverer dansk.
Instituttets forskningsmedarbejdere deltager i tværinstitutlige og tværinstitutionelle forskningsprojekter og har igennem en årrække haft et nært samarbejde med DANTERMcentret med henblik på formidling af instituttets forskningsresultater i fælles projekter med et antal danske virksomheder.
Instituttet gennemfører undervisning på cand. ling. merc. niveau i datalingvistik, bachelorniveau i IT og Engelsk, masterniveau med Master of Language Administration (MLA), samt i enkeltfag på sprog på BA-studiet. Desuden afholdes ph.d.-kurser og kurser på sprogstudiernes 1. og 2. del. samt Åben Uddannelse. Instituttet udgiver løbende en publikationsserie med titlen LAMBDA.
Beretning for år 2002
Forskningsmålsætning
Institut for Datalingvistik satser på inden for de kommende år at blive det centrale sted i Danmark, hvor der forskes i sprog (med hovedvægt på dansk) på formelt grundlag, og hvor resultaterne udnyttes i datalingvistiske systemer.
IDs kerneområder er:
- Formelle beskrivelser af sprogs syntaks og semantik
- Fagsproglig videns- og datamodelleringmed henblik på:
med henblik på:
- sproglige databaser
- informationssøgning
- natursprogsgrænseflader
- maskinoversættelse
- korpuslingvistik
ID satser på at have et stærkt ph.d.-miljø og har som målsætning hele tiden at have mindst 3 ph.d.-er tilknyttet, heraf mindst en med ekstern finansiering.
Instituttet ønsker:
- at konsolidere sin rolle som Danmarks største uddannelsessted for datalingvister.
- at fastholde og udbygge uddannelserne på alle niveauer BA - Master - CLM - Ph.d.
- at satse på forskningsbaseret undervisning.
- at udbygge sin rolle som et af de centrale steder for datalingvistisk forskning og som pålidelig partner i danske og udenlandske forskningsprojekter,
- at profilere sig klart på sine kerneområder
Denne målsætning ønsker vi at konkretisere gennem følgende tiltag:
- at fortsætte de igangsatte aktiviteter med uformindsket styrke.
- at etablere et center for grundforskning i datalingvistik enten gennem midler fra grundforskningsfonden eller andre finansieringskilder
- at fortsætte det institutinterne forskningsprojekt DIALOG (Datalingvistiske Initiativer til Analyse af Lingvistiske og Ontologiske Grundforskningsproblemer). Projektet har til formål at sikre ressourcer til grundforskning inden for områder hvor der pt. ikke er mulighed for at trække på eksterne projektmidler, og at skabe bedre vidensudveksling blandt instituttets medarbejdere
- at gå i dialog med relevante virksomheder om fælles forsknings- og udviklingsprojekter
- at fortsætte samarbejdet med DANTERMcentret med henblik på videreformidling af forskningsresultater til erhvervslivet.
- at udvide aktiviteterne inden for forskningsformidling gennem arrangement af internationale konferencer, workshops, foredrag og udgivelse af publikationer.
- at øge medarbejdernes faglige niveau gennem deltagelse i faglige kurser og konferencer.
- at udvikle et dimittendnetværk for MLA og CLM dimittender for at styrke samarbejdet med erhvervslivet med henblik på både forskning og undervisning.
- i samarbejde med VISTA at udbygge aktiviteterne inden for korpus- og sprogteknologi på det sproglige fakultet.
Succeskriterier for forskningen
- Kvalitet og omfang af publicerede og fremlagte forskningsresultater.
- Evne til at tiltrække udenlandske forskere.
- Kvalitet, funktionsdygtighed og dækningsgrad af implementerede datamatiske systemer.
- Produktion af ph.d.-er
- Værtskab for konferenceaktiviteter.
- Samarbejde med erhvervslivet og andre forskningsinstitutioner.
Målopfyldelse 2002
I modsætning til de forudgående år, hvor instituttet ikke har kunnet rekruttere tilstrækkeligt mange medarbejdere til at udnytte de givne bevillinger fuldt ud, er det i 2002 for første gang lykkedes at besætte alle ledige forskningsstillinger, med undtagelse af professorat nr.2 som forventes besat i august 2003.
En gruppe medarbejdere ved instituttet (Peter Juel Henrichsen, Dan Hardt og Matthias Trautner Kromann) indsendte i slutningen af 2001 en ansøgning om oprettelse af et Center for Computational Modelling of Language (CMOL) til Grundforskningsfonden. Ansøgningen var meget tæt på at blive imødekommet; men blev afvist i sidste runde. Centret blev i foråret alligevel realiseret ved hjælp af dels en ledelsespuljebevilling, dels bidrag fra IDs særlige forskningsbevilling. CMOL omfatter 4 forskere med 75% forskningstid. Bevillingerne løber foreløbigt til foråret 2004, og instituttet satser på at projektet i denne periode vil kunne skaffe tilstrækkelig ekstern finansiering, således at det kan videreføres.
Bjarne Ørsnes modtog i begyndelsen af 2002 en bevilling på 498.000 kr. fra Nordisk Sprogteknologisk Forskningsprogram under Nordisk Forskerakademi (NORFA) til projektet Parallelle datamatiske grammatikker for Dansk og Norsk (ParGram). Projektet indgår i et internationalt samarbejde omkring formalismen LFG (Lexical Functional Grammar) og involverer bl.a. implementering af grammatikker.
Instituttets eksterne finansiering er lidt lavere end i 2001. Det skyldes dels at projekterne under DANTERMcenteret er afsluttet, dels at to ph.d. er gået hhv. på deltid og på barsel. Antallet af eksternt finansierede årsværk er således faldet fra 3,2 til 2,8 årsværk.
Instituttet har modtaget 3 priser i 2002: Bodil Nistrup Madsen har modtaget Hedorfs Fonds pris for Erhvervssproglig Forskning.
Bodil Nistrup Madsen har modtaget Hedorfs Fonds pris for Erhvervssproglig Forskning.
Peter Juel Henrichsen har modtaget FUHUs undervisningspris.
Master of Language Administration har modtaget Electronic Document Science Foundations Excellence in Education Award.
Forskningsprojekter
Nedenfor beskrives instituttets forskningsprojekter. Nye projekter beskrives mere fyldigt, mens der for igangværende projekter henvises til forskningsberetninger fra de forudgående år.
EU-PROJEKTER
IGLO (Intercomprehension in the Germanic Languages Online) Projektet, som løber under Sokrates programmets afdeling LINGUA D i perioden 2000-2002 sigter mod at udvikle WEB-baseret software til styrkelse af sprogtilegnelse af germanske sprog. Den grundlæggende tanke er at udnytte slægtskabet mellem sprogene i indlæringsprocessen. I projektet deltager forskere fra Universitetet i Tromsø, Fernuniversität - Gesamthochschule in Hagen, Lunds universitet, Universität Salzburg, Universiteit Antwerpen samt Háskóla Íslands. Fra HHK deltager Magrethe Mondahl (Engelsk Institut) og Sabine Kirchmeier-Andersen. Projektet blev afsluttet i december 2002. Resultaterne er beskrevet på
www.hum.uit.no/a/svenonius/lingua/
PROJEKTER MED ANDEN EKSTERN FINANSIERING
PARGRAM
Projektets mål er at analysere og beskrive en række centrale sproglige fænomener på dansk og norsk inden for sprogteorien Lexical-Functional Grammar (LFG) og at implementere beskrivelserne i et state-of-the-art-grammatikudviklingsmiljø. Målet er ad den vej at tilvejebringe formelle lingvistiske specifikationer som afdækker forskelle og ligheder mellem de to sprog, og at udvikle datamatiske lingvistiske ressourcer for dansk og norsk som kan anvendes i konkrete datamatiske applikationer samt i forsknings- og undervisningsøjemed.
Der er i 2002 opbygget en større dansk LFG-baseret grammatik. Implementeringen er baseret på den nyeste udvikling inden for LFG og at tilstræber sammenlignelighed med den store norske grammatik i dækningsgrad og analyse af de sproglige fænomener. Den danske grammatik er stort set udviklet fra grunden og baserer sig på de lingvistiske specifikationer som beskrevet i Butt et al:1999. Udviklingen har koncentreret sig om de gængse frasetyper: Sætningsfraserne (CP og IP), verbalfrasen (VP), adjektivfrasen (AP), præpositionalfrasen (PP), nominalfrasen (DP, da den her behandles som en determinantfrase) og i mindre grad adverbialfrasen (ADVP). I særdeleshed har det været arbejdet med en ny analyse af komplekse verbalformer (Wedekind & Ørsnes:under udarbejdelse), relativsætninger og kasusmarkering i dansk (Ørsnes:under udgivelse). Sideløbende med grammatikudviklingen har der været arbejdet med de leksikalske specifikationer og der har været foretaget mindre eksperimenter med en automatisk konvertering af STO-ordbogen (Braasch:2002) til et LFG-leksikon.
I projektet deltager Helge Dyvik/Universitetet i Bergen, Nina Sværke Hansen/Handelshøjskolen i København, Nicolai Hartvig Sørensen/Center for Sprogteknologi, Anne Mette Saro Jensen / Handelshøjskolen i København, Victoria Rosén/Universitetet i Bergen, Jürgen Wedekind/Center for Sprogteknologi og Bjarne Ørsnes/Handelshøjskolen i København som er projektleder for den danske gruppe.
ONTOQUERY Det tværvidenskabelige forskningsprojekt Ontology-based Querying (
http://www.ontoquery.dk
), har deltagere fra: Laboratoriet for Intelligente Systemer på Roskilde Universitets Center (4 personer), Institut for Informationsteknologi på Danmarks Tekniske Universitet (3), Center for Sprogteknologi (2), Institut for Erhvervssproglig Informatik og Kommunikation på Syddansk Universitet (1) og Institut for Datalingvistik på HHK (4). Fra ID deltager Bodil Nistrup Madsen, Ekaterina Mhaana, Lone Bo Sisseck (p.t. barselsorlov) og Hanne Erdman Thomsen, sidstnævnte deltager i projektledelsen.
Projektet støttes af Statens Teknisk-Videnskabelige Forskningsråd, programmet Informationsteknologi, for perioden 1999 - 2004, og har en supplerende bevilling til delvis finansiering af et ph.d-stipendium som løber fra 1.5.2002 (stipendiaten er p.t. på barselsorlov). Dermed er der i alt 5 ph.d.-studerende knyttet til projektet, fordelt på de deltagende uddannelsesinstitutioner.
Formålet med projekt OntoQuery er at udvikle teorier og metoder til indholdsbaseret informationssøgning i tekstdatabaser, og der arbejdes i projektet parallelt med emnerne søgning, ontologi, syntaks / semantik samt prototypeudvikling.
Med udgangspunkt i regler udtrykt i Ontologisk grammatik er der i 2002 specielt blevet arbejdet med udviklingen af en såkaldt ontoparser i LKB-systemet for at opnå analyser der inkluderer relationer imellem begreber i det såkaldte Ontolog beskrivelsessprog. Beskrivelser udledt af parseren er grundlag for evaluering af forespørgsler og specielt har etablering af mål for nærhed eller "similaritet" imellem beskrivelser og "regning" med disse mål været i fokus. Bl.a. har afstand baseret på skridt i syntaktiske afledninger været undersøgt.
Specielt på ID er der arbejdet med automatisering af ontologi-konstruktionen, herunder formalisering af nedarvningen af karakteristiske træk og automatisk ekstraktion af relationer, samt med spørgsmålet om hvilke semantiske relationer der er relevante i en ontologi, der skal anvendes som projektet skitserer.
I projektets regi er der afholdt konferencen Fifth International Conference on Flexible Query-Answering Systems (
www.fqas2002.org
), 27.-29. oktober 2002, på Handelshøjskolen i København med publikation på Springer. Hanne Erdman Thomsen var lokal vært for konferencen, der havde ca. 100 deltagere. Der viste sig på konferencen at være stor interesse for OntoQuery-projektet, bl.a. havde flere konference-deltagere konkrete forslag til samarbejde som vi nu overvejer.
Ligeledes i projektets regi blev der 30.10-1.11.2002 afholdt internationalt ph.d.-kursus, Ph.D. Course on Representation Formalisms for Ontologies (www.ontoquery.dk/phd-course). Kurset havde ca. 27 deltagere fordelt på projektdeltagere, internationale ph.d.-studerende, samt flere særligt interesserede senior-forskere. Hanne Erdman Thomsen var medarrangør. En kursusdeltager fra USA har siden fremsat ønske om at blive indskrevet som ph.d.-studerende i datalingvistik på HHK, finansieret af sin virksomhed.
STO
Instituttet deltager i udviklingen af STO (Sprogteknologisk Ordbog) der har som formål at udvikle en orddatabase på 50.000 ord indeholdende morfologisk, syntaktisk og til dels semantisk information som kan bruges i udviklingen af sprogteknologiske programmer. Projektet er iværksat under Forskningsministeriets arbejdsgruppe 'IT på dansk', som har afsat i alt 8 mio kr. til projektet i 3 år. Arbejdet koordineres af Center for Sprogteknologi.
STO-gruppen på ID har i løbet af 2002 især ydet en forskningsmæssig indsats ved at etablere en metodologi for struktureret indsamling af domænespecifikke korpora og udvælgelse af lemmaer fra disse.
SWEDANES
Projektet handler om komparativ talesprogslingvistik mellem dansk og svensk og udføres i samarbejde med Institutionen for Lingvistik, Göteborg Univ., prof. Jens Allwood, prof. Elisabeth Ahlsén m.fl. Projektet finansieres af NorFA. Fra ID deltager Peter Juel Henrichsen.
NORDTALK
Projektet drejer sig om oparbejdelse, udveksling og udnyttelse af talesprogskorpora. Der deltager repræsentanter for samtlige nordiske lande + Estland. Projektet finansieres af NorFA. Fra ID deltager Peter Juel Henrichsen. I de to NorFA-projekter NordTalk og SweDanes har Peter Juel Henrichsen udviklet en algoritme til automatisk (n-gram based) oversættelse af spontan tale (i ortografisk transskription,). Metoden, som tager sigte på taleteknologiske anvendelser, er korpusbaseret og tager udgangspunkt i to transskriptionskorpora (K-1 og K-2, begge >250.000 ord) på to forskellige, men beslægtede sprog. Output er en 1:1 oversættelse af de mest højfrekvente ord (op til ca. rank 300, dvs især funktionsordene). Forsøg er gennemført med det store svenske korpus Göteborg Corpus of Spontaneous Speech og det store danske korpus BySoc. Foreløbige resultater er lovende: Blandt de 100 mest frekvente svenske talesprogsord oversættes ca. 90% korrekt ('måste' -> 'skal', fx), og resten nær-korrekt.
Der er i forbindelse med disse projekter etableret samarbejde med Dansk Videnscenter for Ordblindhed - om oprettelse af en lydbaseret ordbog målrettet mod ordblindes behov.
Peter Juel Henrichsen har arbejdet med (i) metoder til automatisk grammatisk annotation, (ii) metoder til semantisk repræsentation på dynamisk-logisk grundlag, (iii) statistisk/korpusbaseret sammenligning mellem talt og skreven dansk, samt dansk-svenske komparative studier i tale/skrift, (iv) algoritmiske metoder til aut. oversættelse mellem dansk og svensk spontan tale (formalismerne Siblings og Cousins).
FORSKNINGSPROJEKTER I SAMARBEJDE MED DANTERMCENTRET
DANTERMcentrets overordnede mål er at sikre en dansk kompetenceopbygning inden for det terminologiske og sprogteknologiske område og at udvikle metoder og værktøjer til oprettelse og drift af virksomhedsinterne termbanker. Via DANTERMcentret har instituttet forbedret sine muligheder for at etablere et godt og konstruktivt samarbejde med et antal danske virksomheder. Instituttet har medvirket aktivt i bestræbelserne for at videreføre DANTERMcentret, bl.a. gennem deltagelse i møder og seminarer samt gennem ansøgninger om midler til fælles forskningsprojekter.
Forskningsprojekterne under DANTERMcentret blev foreløbigt afrundet med en DANTERM-workshop den 14. maj og en afsluttende rapport (Viden om viden, Del 2 - Forskning. Slutrapport for projektet Udvikling af metoder og værktøjer til oprettelse og drift af virksomhedsinterne terminologibaser. DANTERMcentret, 2002). Projekterne er dog fortsat og fortsætter stadig som samarbejdsprojekter mellem DANTERMcentret og instituttet og der er kommet flere nye projekter til.
Bodil Nistrup Madsen har i DANTERMcentrets regi bl.a. beskæftiget sig med principper for indhold, struktur og funktioner af en web-baseret database til virksomheder. Der er indledt arbejde med udvikling af metoder og værktøjer til udvikling af en internetbaseret ordbogsdatabase og website til Blinkenberg & Høybyes dansk-fransk og fransk-dansk ordbøger.
IT-TERMINOLOGI-PROJEKTET
Har til formål at oprette en database og hjemmeside til rådgivning i forbindelse med dansk IT-terminologi, og gennemføres i samarbejde med DANTERMcentret, Dansk Sprognævn, IT-Højskolen, Datalogisk Institut KU, IT-brancheforeningen m.fl. Der er offentliggjort en foreløbig ordliste på Sprognævnets hjemmeside, www.dsn.dk. I dette projekt har Bodil Nistrup Madsen i 2002 deltaget i udviklingsarbejdet med henblik på oprettelse af en ny web-baseret database, herunder principper for indhold, struktur og funktioner.
DATABASE TIL LYKEION TESAURUS
er et projekt vedrørende oplysninger om centrale begreber i forbindelse med systemanalyse og systemkonstruktion. Der er i 2002 opnået en bevilling fra Lillian og Dan Finks Fond til DANTERMcentret til igangsætning af projektet. Bodil Nistrup Madsen er hovedansvarlig for projektet.
CAOS
CAOS. Computer-Aided Ontology Structuring (Bodil Nistrup Madsen, Hanne Erdman Thomsen og Carl Vikner, Bo Krantz Simonsen), sigter på at udvikle et system til halvautomatisk opbygning af begrebssystemer ved hjælp af trækstrukturer på grundlag af brugerindtastede oplysninger.
I CAOS-projektet er der udarbejdet en detaljeret struktur for en ontologisk database, og denne er i 2002 blevet implementeret i ORACLE. Der er udført et omfattende arbejde med design og implementering af CAOS-grænsefladens vinduer. Desuden er der i 2002 bl.a. arbejdet videre med forskellige måder at implementere nedarvning af trækspecifikationer, anvendelse af inddelingskriterier. Udarbejdelse af altgoritmer til håndtering af polyhierarkiske begrebssystemer samt indsættelse og fjernelse af begreber og delhierarkier er påbegyndt.
Et særligt problem som bl.a er blevet behandlet i 2002 - er sondringen mellem datamodellering og begrebsmodellering.
CAOS-systemet er blevet demonstreret ved flere lejligheder ved workshops og seminarer. Der er udarbejdet såvel danske som internationale publikationer. I efteråret 2002 begyndte Institut for Datalingvistik at anvende CAOS i undervisningen i datamatisk terminologi. I 2002 har projektet modtaget 165.000 fra ledelsespuljen og 140.000 IDs forskningspulje. Midlerne er gået til programmeringsassistance samt aflønning af prof. emer. Carl Vikner, som er særdeles aktiv i projektet. Projektet forventes afsluttet medio 2003.
FORMEL TERMINOLOGISK BEGREBSANALYSE
Arbejdet med CAOS har givet anledning til formulering af et nyt projekt: Formel terminologisk begrebsanalyse. Formålet med dette projekt er at udvikle teorier og metoder til formel beskrivelse af terminologiske begrebssystemer (ontologier). I terminologisk begrebsanalyse er det ikke tilstrækkeligt at strukturere begrebssystemer alene ved hjælp af den generiske begrebsrelation mellem overordnede og underordnede begreber. Det er nødvendigt også at anvende begrebsrelationer som fx del-helheds-relation, kausal relation, og resultatrelation. Det formelle apparat skal derfor kunne gøre rede for sådanne polyrelationelle begrebssystemer. De teoretiske resultater, der opnås i projektet, vil løbende blive testet og integreret i CAOS-systemet. Der er i 2002 udarbejdet en ansøgning til SHF om støtte til projektet. Projektet blev kendt støtteværdigt, men opnåede desværre ikke ressourcer. Vi arbejder derfor p.t. på andre fondsansøgninger.
PARAT
Parallelle Tekster (Sabine Kirchmeier-Andersen), omfatter udvikling af metoder til automatisk parallelisering af tekster og værktøjer til håndtering af parallelle tekster, opbygning af parallelle korpora samt forskning i anvendelse af parallelle tekster i datalingvistiske sammenhænge, f.eks. i oversættelseshukommelsessystemer. Arbejdet med videreudviklingen af korpusset har ligget stille til fordel for udviklingen af en webgrænseflade til visning af parallelle korpora på internettet samt en robot til automatisk opbygning af korpora.
INTERNT FINANSIEREDE PROJEKTER
CMOL
Center for Computational Models of Language (CMOL) (Peter Juel Henrichsen, Dan Hardt, Matthias Trautner Kromann, Peter Rossen Skadhauge)er finansieret af ledelsespuljen. Centret har til hensigt at være ramme for grundforskningsprojekter, som har til sigte at udvikle modeller for processering af sprog ikke mindst ud fra psykolingvistiske og korpusmæssige kriterier. Centret omfatter tre projekter, nemlig "Grammar Acquisition", som har til hensigt at udvikle metoder til automatisk sprogtilegnelse ud fra store korpora, "Discontinuous Parsing", som har til hensigt at udvikle metoder til repræsentation og processering i forhold til teorien "Discontinous Grammar", samt "Interpretation", som har til hensigt at udvikle metoder til repræsentation og processering af ekstrasententielle sproglige fænomener.
Danish Grammar Checking Systems
Danish Grammar Checking Systems (Daniel Hardt, Steffen Leo Hansen, Peter Juel Henrichsen) . Formålet med projektet er at udvikle pålidelige grammatiktjekkere for en bred vifte af af grammatiske problemer. Der er udviklet en teknik til at udlede grammatiske principper automatisk gennem avancerede maskinlæringsprincipper som anvendes på syntaktisk annoterede korpora. Denne teknik anvender principperne for ordklassetagging på grammatiske problemer. Gennem anvendelse af en kendt teknik på en ny måde, bliver det muligt at udvikle grammatiktjekkere hurtigt og med stor præcision. Projektet som løber i perioden 2001-2003, er finansieret af Forskningsudvalget.
Der er udviklet en webside til projektet og udviklet værktøjer til automatisk generering af grammatiktjekkere. Endvidere er der holdt foredrag og publiceret artikler om Dansk Grammatikontrol med Transformation-Based Learning.
VIA
Sabine Kirchmeier-Andersen arbejder med videreudvikling og testning af programmet VIA: 1998 fremkom den første prototype af programmet VIA indeholdende i alt 1000 øvelser for 7 sprog. Programmet anvendes i lingvistikundervisningen på IT-ENG og i gymnasieskolen. Der er stor interesse for programmet, men for få ressourcer til videreudvikling. Der arbejdes pt. på at integrere programmet i Sitescape.
Multimedia in the Home
Projektet har som mål at undersøge mulighederne for automatisk at opmærke informationer om musik og gøre disse såvel som de tilhørende indspilninger tilgængelige for alle som ønsker at lytte til, downloade, anskaffe eller blot orientere sig om eksisterende indspilninger af klassisk musik. Deltagere i projektet har i bevillingsperioden været adjunkt Mette Nelson, Syddansk Universitet, Kolding, samt lektor Steffen Leo Hansen, Institut for Datalingvistik, HHK (projektansvarlig).
Der er i beretningsperioden arbejdet videre med prototypen FYNBO der har som mål at undersøge og afprøve metoder og principper for opmærkning og brug af opmærkningssproget XML og XML-baserede værktøjer (RDFS, XSL(T), DOM o.a.) med henblik på at eksplicitere informationer, informationsstrukturer og relationer mellem informationer således at de bliver tilgængelige for søgning. Deltagere i projektet er adjunkt Mette Nelson, Syddansk Universitet, Kolding, samt lektor Steffen Leo Hansen, Institut for Datalingvistik (projektansvarlig).
FYNBO kan kort beskrives som et system der ved hjælp af Information Extraction uddrager informationer fra CD-tekster og opmærker disse i XML. Ved CD-tekster forstås de informationer som findes som covertekst til en musik-CD. Det er disse tekster der, opmærket i XML, skal gøres tilgængelige i et større Information Retrieval system.
IDs Korpusinitiativ
IDs KORPUSINITIATIV. (Steffen Leo Hansen, Peter Juel Henrichsen, Dan Hardt, Anders Thøgersen, Henrik Selsøe Sørensen, Sabine Kirchmeier-Andersen, Tina Nielsen). For at sikre en optimal udyttelse af instituttets IBM-sponsorerede servere og for at sikre overførsel af resultater fra ParaT-projektet og andre projekter hvori der indgår korpora, arbejder instituttets medarbejdere med oprettelsen af fælles korpusressourcer på det sproglige fakultet.
Initiativet vedrører dels organisering og tilgængeliggørelse af korpusmateriale på serverne, installation af XKWIC og BNCs SARAH som søgeprogrammel samt morfosyntaktisk opmærkning af de danske tekster. I beretningsperioden er den første web-grænseflade som giver adgang til alle IDs korpora blevet færdig. Programmet stilles til rådighed for det sproglige fakultet til forskning og undervisning i foråret 2002.
Antallet af korpora er blevet væsentligt forøget og der er arbejdet intensivt med oprettelsen af en dansk tree-bank (se DDT nedenfor).
Korpusserverne huser endvidere materiale og programmel fra SENSUS-projektet.
ID fik ved udgangen af år 2001 et sponsorat fra firmaet Software AG på XML-databaseprogrammet Tamino. Databasen skal anvendes til håndtering af XML-opmærkede korpora og til undervisning i XMLog databaser på CLM og BA-niveau, men på grund af tekniske problemer har systemet først fungeret tilfredsstillende i slutningen af 2002. Den planlagte afprøvning bliver derfor først iværksat i 2003.
ID har været en af initiativtagerne til oprettelsen af en Dansk Sprogbank som skal sikre standardiseret tilgængelighed af danske korpusressourcer og andre sprogteknologiske ressourcer til udvikling af sprogteknologi. Et forprojekt til sprogbanken er under udarbejdelse ledet af Dansk Standard med støtte fra ministeriet for videnskab og teknik.
Andre forskningsprojekter
Stanlex
Bodil Nistrup Madsen leder et projekt vedrørende klassificering og strukturering af leksikalske data. Projektet er startet i 1995 og har til formål at udarbejde dels en taksonomi til indholdsbeskrivelse af leksikalske data i databaser og natursprogssystemer, dels modeller for strukturbeskrivelse af leksikalske data ved hjælp af SGML.
Arbejdet foregår inden for rammerne af en arbejdsgruppe under Dansk Standard, som består af personer der arbejder med forskning og udvikling inden for bl.a. leksikografi, terminologi og datalingvistik. Første del af en standard, som vedrører en taksonomi til klassifikation af leksikalske oplysningstyper udkom i november 1998. Arbejdet med den anden del som omhandler strukturbeskrivelse af leksikalske data vha. entitets-/relationsdiagrammer og SGML, forventes afsluttet i 2003.
Repræsentation af transskriberet talesprog
I samarbejde med projekt NordTalk, Institutionen for Lingvistik (Göteborg Univ.) og Institut for Dialektforskning (KU) arbejder Peter Juel Henrichsen på værktøj til oversættelse mellem de mest udbredte skandinaviske formater til repræsentation af transskription (spontan tale) - p.t. især formaterne CorDiale, MSO06, BySoc og Dansk Standard 2.
Der er udarbejdet en grammatisk annoteret (PAROLE-tags) version af BySoc (stort dansk talesprogskorpus) og foretaget parsning og www-publikation af det store danske dialektkorpus CorDiale (godt 1 mio løb. ord, spontan tale), samt videreudvikling af korpus TT2 (danske sætninger i kontrolleret lydskrift til anv. i taleteknologi).
Den Danske Dependenstræbank (DDT)
Projektet ledes af Matthias.T. Kromann assisteret af 2 forskningsassistenter: Line H. Mikkelsen (1 måned), Stine Kern Lynge (3 måneder), samt et advisory board bestående af Steffen Leo Hansen, Daniel Hardt, Peter Juel Henrichsen og Sabine Kirchmeier-Andersen.
Formålet med projektet er at opbygge en dansk dependenstræbank med ca. 50-100.000 dependensopmærkede ord, baseret på det danske PAROLE-korpus. Et sekundært formål er at forfatte en tagging-manual for dansk, der angiver de lingvistiske principper bag træbanken, herunder hvordan en lang rækkelingvistiske konstruktioner analyseres i dansk inden for Diskontinuert Grammatik, den dependensformalisme som projektet benytter sig af.
Formålet med træbanken er at den skal kunne bruges af almene lingvister i deres korpuslingvistisk baserede grundforskning, samt af datalingvistiske forskere og virksomheder til at udvikle sprogteknologiske applikationer vha. træbanksbaserede maskinindlæringsmetoder.
De første 60.000 ord i træbanken er blevet opmærket, men korrekturlæsning mangler. Store dele af taggingmanualen, som pt. er 75-100 sider lang, er færdiggjort. Vi har præsenteret vores arbejde på et fælles-nordisk træbankssymposium ved Växjö Universitet. Arbejdet med tagging-manualen og selve træbanken vil blive fortsat i 2003, hvor vi også regner med at præsentere træbanken ved LINC-2003 (en workshop om træbanker under EACL 2003). Resultaterne kan ses på:
http://www.id.cbs.dk/~mtk/treebank
. Projektet udløber i september 2003.
Dependency annotation tool (DTAG)
Matthias T. Kromann arbejder med at udvikle en dependensbaseret syntaksformalisme med tilhørende algoritmer til parsing og indlæring af et leksikon ud fra en træbank. Teorien bliver afprøvet i praksis i et program (DTAG) som skal bruges til opbygning af store træbanker. Programmet skal kunne håndtere:
- manuel dependensopmærkning af store korpora
- visning af dependensgrafer som bue-grafer
- constraint-baseret søgning efter syntaktiske strukturer i en dependenstræbank
- automatisk dependensopmærkning vha. lokal optimalitetsparsing, ud fra et givet leksikon
- automatisk opbygning af et leksikon ud fra et ordklassehierarki og en dependenstræbank opmærket med typer fra ordklassehierarkiet.
- "error highlighting" som markerer hvor en dependensgraf er i modstrid med et underliggende leksikon, til brug ved manuel verifikation af en træbank
Projektet ligger i naturlig forlængelse af M.T. Kromanns tidligere ph.d.-projekt om Diskontinuert Grammatik. Der er skrevet 6000 liniers programkode, som gør DTAG til et fuldt brugbart værktøj mht. manuel dependensopmærkning (a), visning af dependensgrafer (b) og syntaktisk søgning (c). Dennee del af DTAG har dannet basis for tagningen af de første 60.000 ord i Den Danske Dependenstræbank. Derudover er der udviklet algoritmer til automatisk parsing og og leksikonopbygning. Resultaterne kan ses på:
http://disgram.sf.net
og
http://www.id.cbs.dk/~mtk/dg
Ph.d. - projekter
Tina Nielsen undersøger i sit ph.d.-projekt, som udføres med finansierering fra SHF i tilknytning til DANTERMcenteret, computermedieret undervisning inden for sprogteknologiske værktøjer. Formålet med undersøgelsen er at opstille, diskutere og afprøve konstruktionsprincipper for Computer Assisted Learning i forbindelse med undervisning i fagsprog og sprogteknologi på universitetsniveau. Der er i årets løb især arbejdet med de pædagogiske aspekter ved computermedieret undervisning og disses indvirkning på konstruktion af undervisningsprogrammer. Fra marts måned er Tina Nielsen overgået til at være ph.d.-studerende på halvtid.
Nina Sværke Hansen (tidl. Frederiksen) arbejder i sit ph.d.-projekt på et kontrastivt studie mellem dansk og fransk af fænomenet 'extraction' med henblik på implementering i Lexical Functional Grammar (LFG) og er tilknyttet PARGRAM-projektet.
Ekaterina Mhaanna arbejder i sit ph.d.-projekt med ontologiers formelle egenskaber og er tilknyttet OntotQuery-projektet.
Lone Bo Sisseck arbejder i sit ph.d.-projekt med automatisk generering af ontologier.
Andre faglige aktiviteter i 2002
Instituttets medarbejdere har en lang række andre faglige aktiviteter og har deltaget i mange seminarer, konferencer og kurser. Oplysninger herom er kun medtaget i det omfang de falder inden for de fem underpunkter: ph.d.-uddannelse, eksternt rettede aktiviteter, gæsteforelæsninger og konferencer og fagudvikling. Aktiviteter som f.eks. deltagelse i udvalg på Handelshøjskolen i København, fagansvar og -koordination, vejledning og bedømmelse af stillingsansøgere er således ikke medtaget.
Last updated by Anders Krag 09/02/2005