Beretning 2001: Institut for Datalingvistik (ID)

Bernhard Bangs Allé 17B
2000 Frederiksberg
Institutleder: Sabine Kirchmeier-Andersen
Telefon: 38 15 31 36
Fax: 38 15 38 20
E-mail: ln.id@cbs.dk
Bestyrelse: Sabine Kirchmeier-Andersen, Bodil Nistrup Madsen, Steffen Leo Hansen, Lene Nissen
Forskningsmedarbejdere
Professorer:
Bodil Nistrup Madsen (fra 1.8.)
Docenter:
Bodil Nistrup Madsen (indtil 31.7.)
Finn Sørensen (indtil 17.10.)
Lektorer:
Steffen Leo Hansen
Sabine Kirchmeier-Andersen
Bjarne Ørsnæs
Hanne Erdman Thomsen
Forskningsadjunkter:
Peter Juel Henrichsen (fra 1.1.)
Stig W . Jørgensen (fra 1.11.)
Gæstelektorer:
Daniel Hardt
Forskningsassistenter:
Jette Drost (fra 1.9.)
Carsten Hansen (fra 1.9)
Systemadministrator:
Kåre Hviid (fra 1.9.)
Programmør:
Rodrique Mompelat (fra 1.9.)
Systemmedkonsulent:
Bo Krantz Simonsen (Progresso A/S)
Ph.d.-stud.:
Nina Frederiksen (fra 1.10.)
Matthias Trautner Kromann
Tina Nielsen
Andre:
Prof. Carl Vikner er efter sin fratrædelse tilknyttet instituttet som ekstern ph.d. vejleder og som deltager i projekterne OntoQuery og Caos.
Sekretariat
Kontorfuldmægtige:
Lene Nissen (32 timer)
Gitte Jørgensen (25 timer)
Merete Ørslev Christensen 37 timer (fra 1.5.)
Kontorassistent:
Rie Astrup (25 timer)

Forskningsmidler

Ekstern finansiering
DANTERMcentret:
Frikøb/Udlån
 
197.000 kr
EU- Socrates (IGLO):
Frikøb af forsker fra Institut for Engelsk
70.000 kr
 
Forskningsstyrelsen (STVF) (OntoQuery):
Frikøb
 
35.000 kr
Forskningsstyrelsen (SHF):
Ph.d.-stip.:
 
380.000 kr
Forskningsministeriet STO
Forskningsadjunkt/assistenter
 
396.000 kr
i alt
ÅV
3,47
1.388.000 kr
Sponsorat
Tamino XML-database
 
300.000 kr
       
Intern finansiering
Forskningsudvalg
Grammatiktjekkere
 
60.000 kr
Ledelsespulje
Caos
 
189.000 kr
 
Korpus
 
30.000 kr
 
Via
 
20.000 kr
 
Carl Nielsen XML
 
30.000 kr
Egne forskningsmidler
Forskningsadjunkt/assistenter
 
396.000 kr
i alt
   
1.329.000 kr

Historie

Instituttet, som blev oprettet den 1.8.1985, har til opgave at udvikle det faglige grundlag for undervisningen i datalingvi-stik, at planlægge og gennemføre denne undervisning, samt at udføre datalingvistisk forskning, specielt inden for følgende områder: formel syntaktisk og semantisk analyse af fagsprog, modellering og repræsentation af fagsprogsrelevant viden, natursprogsgrænseflader, automatisk oversættelse, datamatisk terminologi og leksikologi. Inden for disse områder er fokus først og fremmest på datalingvistiske problemstillinger som involverer dansk.
Instituttets forskningsmedarbejdere deltager i tværinstitutlige og tværinstitutionelle forskningsprojekter og har igennem en årrække haft et nært samarbejde med DANTERMcentret med henblik på formidling af instituttets forskningsresultater i fælles projekter med et antal danske virksomheder.
Instituttet gennemfører undervisning på overbygningsuddannelsen i datalingvistik, Sprogteknologi og Specialisering i IT og sprog på BA-studiet samt på de nyoprettede uddannelser BA i IT og Engelsk og Master of Language Administration (MLA). Desuden afholdes ph.d.-kurser og kurser på sprogstudiernes 1. og 2. del. samt Åben Uddannelse. Instituttet udgi-ver løbende en publikationsserie med titlen LAMBDA.

I. Beretning for år 2001

Forskningsmålsætning

Institut for Datalingvistik satser på inden for de kommende år at blive det centrale sted i Danmark, hvor der forskes i sprog (med hovedvægt på dansk) på formelt grundlag, og hvor resultaterne udnyttes i datalingvistiske systemer.
IDs kerneområder er:
  • Formelle beskrivelser af sprogs syntaks og semantik
  • Formelle beskrivelser af sprogs syntaks og semantikmed henblik på:

Succeskriterier for forskningen

  • Kvalitet og omfang af publicerede og fremlagte forskningsresultater.
  • Evne til at tiltrække udenlandske forskere.
  • Kvalitet, funktionsdygtighed og dækningsgrad af implementerede datamatiske systemer.
  • Produktion af ph.d.er.
  • Værtsskab for konferenceaktiviteter.
  • Samarbejde med erhvervslivet og andre forskningsinstitutioner.

Målopfyldelse 2001

I begyndelsen af 2001 fik instituttet tildelt 1 mio. kr. af de ekstra forskningsmidler som HHK har afsat til IT-satsningsområdet. Endvidere fik ID mulighed for at oprette endnu et professorat, således at der nu kan tilknyttes en pro-fessorstilling til begge instituttets kerneområder: (1) formelle beskrivelser af sprogs syntaks og semantik og (2) fagsprog-lig videns- og datamodellering. Med disse bevillinger ser instituttet gode muligheder for at kunne leve op til sin målsæt-ning. Professoratet under område 2 er blevet besat pr. 1.8.01 med Bodil Nistrup Madsen. Professoratet under område (1) er pt. under opslag og forventes besat pr.1.1.2003. Desværre har det ikke været muligt at få det fulde udbytte af bevillin-gen i løbet af 2001, da det først lykkedes at finde egnede medarbejdere til de planlagte stillinger pr. 1.9.01.
Instituttets medarbejdere har i 2001 været engageret i 21 forskningsprojekter (i 2000 var der 10). Heraf 9 med ekstern finansiering (i 2000 var der 5), 5 med intern finansiering (ledelsespuljen, forskningsudvalg eller egne midler) (i 2000 var der 4) samt 7 projekter som er udført inden for de allokerede basisforskningsårsværk (suppleret med egne midler) (i 2000 var der 2). 8 af projekterne involverer samarbejde med udenlandske forskningsinstitutioner (i 2000 var der 3), 8 involve-rer samarbejde med danske virksomheder eller med andre danske forskningsinstitutioner (i 2000 var der 3).
Det kan diskuteres hvad en sådan kvantificering af forskningsaktiviteter i grunden kan bruges til, men der er næppe nogen tvivl om at aktiviteten på de fleste områder er mere end fordoblet i løbet af 2001 hvilket er særdeles glædeligt, og tegn på at de tildelte midler er faldet i god jord. At antallet af internt finansierede projekter og projekter udført inden for de alloke-rede basisårsværk ikke er steget i samme takt som de eksternt finansierede projekter, afspejler at instituttets medarbejdere i høj grad har brugt kræfterne på at søge ekstern finansiering. Det har givet gode resultater, selvom der også har været mange afslag på ansøgninger.
Instituttet er fortsat repræsenteret i projektledelsen for projektet ONTOQUERY som har fået en bevilling for peri-oden 1999-2004 fra Statens Teknisk-Videnskabelige Forskningsråd, programmet Informationsteknologi. Projektet har til formål at udvikle teorier og metoder til indholdsbaseret informationssøgning. Projektet har fået en supple-rende bevilling til delvis finansiering af et ph.d.-stipendium med start snarest muligt i 2002.
Medarbejdere fra Institut for Datalingvistik har deltaget i projektet NORDSEM, som er startet i 1997, og som har fået en bevilling for perioden 1998-2000 fra NOS-H til et komparativt studium af semantiske fænomener i de skandinaviske sprog og engelsk. Projektet er blevet afsluttet ved udgangen af 2001.
Instituttet er repræsenteret i 3 forskernetværk under NORFA (Nordisk Forskeruddannelsesakademi):
  • Corpus Based Research On Spoken Language
  • SPINN - SProgteknologi og INformationssøgning i Norden
  • Formel Semantik
Instituttetes medarbejdere deltager i forskningsprojekterne som gennemføres i tilslutning til DANTERMcentrets center-kontraktprojekt heriblandt udvikling af termbaser, datamatstøttet konstruktion af begrebssystemer i forbindelse med term-baser og anvendelse af parallelle korpora i forbindelse med oversættelseshukommelsessystemer. Instituttets medarbejdere deltager endvidere i styregrupperne for delprojekterne under DANTERMcentret. Via disse projekter er det blevet muligt at etablere et godt og konstruktivt samarbejde med et antal danske virksomheder. Projekterne afsluttes med udgangen af 2001. Instituttet har medvirket aktivt i bestræbelserne for at videreføre Dantermcentret, bl.a. gennem deltagelse i møder, seminarer samt gennem ansøgninger om midler til fælles forskningsprojekter.
Instituttet har været repræsenteret i Forskningsministeriets arbejdsgruppe "IT på dansk" som har haft til opgave at iværk-sætte udviklingen af en stor sprogteknologisk ordbog og at udarbejde en strategi for udviklingen af dansk sprogteknologi. Arbejdet påpegede behov for styrkelse inden for etablering af basale ressourcer som korpora og ordbøger, samt nødven-digheden af at der sker en udviklingen inden for området maskinoversættelse med henblik på oversættelse til og fra dasnsk. Gruppens drøftelser har resulteret i en anbefaling til forskningsministeren til brug ved finanslovsforhandlingerne.
Instituttet deltager endvidere i udviklingen af den Sprogteknologiske Ordbog (STO).
En gruppe medarbejdere ved instituttet (Peter Juel Henrichsen, Dan Hardt og Matthias Trautner Kromann) har indsendt en ansøgning om oprettelse af et Center for Basic Research in Computational Linguistics (BRICL) til Grundforsknings-fonden. Ansøgning har fået en god modtagelse og der forhandles pt. om de nærmere betingelser for oprettelse af Centeret i tilknytning til instituttet.
For en mere detaljeret fremstilling af instituttets målopfyldelse henvises pkt. II Afrapportering for år 2001 i forhold til udviklingskontrakten.

Forskningsområder

Nedenfor beskrives instituttets forskningsprojekter. Nye projekter beskrives mere fyldigt, mens der for igangværende projekter henvises til forskningsberetninger fra de forudgående år.
EU-PROJEKTER
IGLO (Intercomprehension in the Germanic Languages Online). Projektet, som løber under Sokrates programmets afde-ling LINGUA D i perioden 2000-2002 sigter mod at udvikle WEB-baseret software til styrkelse af sprogtilegnelse af germanske sprog. Den grundlæggende tanke er at udnytte slægtskabet mellem sprogene i indlæringsprocessen. I projektet deltager forskere fra Universitetet i Tromsø, Fernuniversität - Gesamthochschule in Hagen, Lunds universitet, Universität Salzburg, Universiteit Antwerpen samt Háskóla Íslands. Fra HHK deltager Magrethe Mondahl (Engelsk Institut) og Sa-bine Kirchmeier-Andersen. Der er i perioden udarbejdet grammatiske beskrivelser, tekster og øvelser for alle tilknyttede sprog og projektets resultater er blevet fremlagt på en international konference i Hagen.
PROJEKTER MED ANDEN EKSTERN FINANSIERING
NORDSEM. Samarbejdet med universiteterne i Göteborg og Oslo om projektet NORDSEM er fortsat. Projektet sigter mod en komparativ beskrivelse af udvalgte semantiske fænomener bl.a. aspekt og modalitet i dansk, svensk, norsk og engelsk. Deltagere fra Institut for Datalingvistik var Finn Sørensen. Projektet blev finansieres af de nordiske forskningsråd og blev afsluttet med udgangen af 2001.
ONTOQUERY. Det tværvidenskabelige forskningsprojekt Ontology-based Querying, har deltagere fra: Laboratoriet for Intelligente Systemer på Roskilde Universitets Center (4 personer), Institut for Informationsteknologi på Danmarks Tekniske Universitet (3), Center for Sprogteknologi (2), Institut for Erhvervssproglig Informatik og Kommunikation på Syddansk Universitet (2) og Institut for Datalingvistik på HHK (2). Fra ID deltager Bodil Nistrup Madsen og Hanne Erdman Thomsen.
Formålet med projekt OntoQuery er at udvikle teorier og metoder til indholdsbaseret informationssøgning i tekst-databaser.
Projektdeltagerne fra ID har i 2001 arbejdet med videreudvikling af prototypen, særligt datastrukturen samt delta-get i udvikling af grænseflade til leksikon og ontologi. Arbejdet med semantiske relationer er fortsat i mindre målestok, men intensiveres nu hvor der er ansat en ph.d.-stipendiat pr.1.1.2002.
Projektets midtvejsrapport resulterede i en meget positiv midtvejsevaluering, og der arbejdes nu intensivt på inter-nationale publikationer.
Projektet har fået støtte fra Statens Teknisk-Videnskabelige Forskningsråd, programmet Informationsteknologi, for perioden 1999 - 2004, og har modtaget en supplerende bevilling til delvis finansiering af et ph.d-stipendium. Dermed vil der være i alt 5 ph.d.-studerende knyttet til projektet, så der er basis for at etablere en forskerskole inden for området ontologibaseret søgning.
STO. Instituttet deltager i udviklingen af STO (Sprogteknologisk Ordbog) der har som formål at udvikle en orddatabase på 20.000 ord indeholdende morfologisk, syntaktisk og til dels semantisk information som kan bruges i udviklingen af sprogteknologiske programmer. Projektet er iværksat under Forskningsministeriets arbejdsgruppe IT på dansk, som har afsat i alt 8 mio kr. til projektet i 3 år. Arbejdet koordineres af Center for Sprogteknologi.
SWEDANES. Projektet handler om komparativ talesprogslingvistik mellem dansk og svensk og udføres i samarbejde med Institutionen for Lingvistik, Göteborg Univ., prof. Jens Allwood, prof. Elisabeth Ahlsén m.fl. Projektet finansieres af NorFA. Fra ID deltager Peter Juel Henrichsen. Proj. SweDanes er næsten færdig med sin første forskningsrapport, med et katalog over de mest signifikante forskelle og ligheder mellem da. og sv. spontan tale. Kompendium
NORDTALK. Projektet drejer sig om oparbejdelse, udveksling og udnyttelse af talesprogskorpora. Der deltager repræsentanter for samtlige nordiske lande + Estland. Projektet finasieres af NorFA. Fra ID deltager Peter Juel Henrichsen.I de to NorFA-projekter NordTalk og SweDanes har Peter Juel Henrichsen udviklet en algoritme til automatisk (n-gram based) oversættelse af spontan tale (i ortografisk transskription,). Metoden, som tager sigte på taleteknologiske anvendelser, er korpusbaseret og tager udgangspunkt i to transskriptionskorpora (K-1 og K-2, begge >250.000 ord) på to forskellige, men beslægtede sprog. Output er en 1:1 oversættelse af de mest højfrekvente ord (op til ca. rank 300, dvs især funktionsordene). Forsøg er gennemført med det store svenske korpus Göteborg Corpus of Spontaneous Speech og det store danske korpus BySoc. Foreløbige resultater er lovende: Blandt de 100 mest frekvente svenske talesprogsord oversættes ca. 90% korrekt ('måste' -> 'skal', fx), og resten nær-korrekt.
SPEECHWARE. Projektet drejer sig om udviklings af den danske talesynteseapplikation Carsten og udføres i samarbejde med IAAS (KUA), Inst.f.Personkommunikation (AUC) og Tele Danmark. Fra ID deager Peter Juel Henrichsen. Peter Juel Henrichsen har i samarb. med John Tøndering og Nina Grønnum (IAAS) udviklet tekstana-lysemodulet TAM (ortografi-til-fonetisk-transskription). Projektet blev afsluttet i 2001. I projekt SpeechWare og projekt Danish Grammar Checking Systems (se nedenfor) har Peter Juel Henrichsen udviklet en ny metode til tilskrivning af hovedtryk i forbindelse med talesyntese (tekst-til-fonetisk-repræsentation). Metoden er baseret på Eric Brill's transformation based tagging algoritme. Pilotforsøg er udført på den danske talemaskine Carsten udviklet 1999-2001 af projektgruppen SpeechWare. Tests viser en forbedring fra ca 86% korrekte hovedtryk med den eksisterende algortime, til ca 93% med den foreslåede metode. Forhand-linger er indledt om næste version af Carsten som muligvis vil blive baseret på den nye tryktilskrivning.
FORSKNINGSPROJEKTER I SAMARBEJDE MED DANTERMCENTRET
Bodil Nistrup Madsen er projektleder for forskningsprojekterne, som gennemføres i tilslutning til DANTERMcentrets centerkontraktprojekt "Udvikling af metoder og værktøjer til oprettelse og drift af virksomhedsinterne terminologibanker". Instituttets medarbejdere deltager i to projekter: CAOS, Computer-Aided Ontology Structuring (Bodil Nistrup Madsen, Hanne Erdman Thomsen og Carl Vikner), sigter på at udvikle et system til halvautomatisk opbygning af begrebssystemer ved hjælp af trækstrukturer på grundlag af brugerindtastede oplysninger. I 2001 er der etableret en endelig tabelstruktur, og programmering af grænsefladen er igangsat. På den teoretiske side er der bl.a. arbejdet med metoder til automatisk håndtering af nedarvning og med behandlingen af inddelingskriterier i forbindelse med terminologiarbejde. Der arbejdes på internationale publikationer.
PARAT, Parallelle Tekster (Sabine Kirchmeier-Andersen), omfatter udvikling af metoder til automatisk parallelisering af tekster og værktøjer til håndtering af parallelle tekster, opbygning af parallelle korpora samt forskning i anvendelse af parallelle tekster i datalingvistiske sammenhænge, f.eks. i oversættelseshukommelsessystemer. Der er i årets løb arbejdet videre med udbygning af korpusset samt med undersøgelse af metoder til termekstraktion i parallelle tekster.
INTERNT FINANSIEREDE PROJEKTER
DANISH GRAMMAR CHECKING SYSTEMS (Daniel Hardt, Steffen Leo Hansen, Peter Juel Henrichsen). Formålet med projektet er at udvikle pålidelige grammatiktjekkere for en brede vifte af af grammatiske problemer. Der er udviklet en teknik til at udlede grammatiske principper automatisk gennem avancerede maskinlæringsprincipper som anvendes på syntaktisk annoterede korpora. Denne teknik anvender principperne for ordklassetagging på grammatiske problemer. Gennem anvendelse af en kendt teknik på en ny måde, bliver det muligt at udvikle grammatiktjekkere hurtigt og med stor præcision. Projektet som løber i perioden 2001-2003er finansieret af Forskningsudvalget. Bevilget beløb i 2001: 60.000kr
VISUM. Sabine Kirchmeier-Andersen deltager i projekt VISUM (VIsuelt UndervisningsMiddel). I projektet deltager forskere fra Københavns Universitet og Handelshøjskolen i København. Formålet med VISUM er at udvikle et flersprogligt, interaktivt undervisningsprogram (VIA) til træning af morfologisk og syntaktisk analyse. 1.9.1998 fremkom den første prototype af programmet VIA indeholdende i alt 1000 øvelser for 7 sprog. Programmet anvendes i lingvistikunder-visningen på IT-ENG og i gymnasieskolen. Der er stor interesse for programmet, men for få ressourcer til videreudvikling. I beretningsperioden er programmet blevet testet på første års BA-studerende IT og Engelsk.
MULTIMEDIA IN THE HOME. Projektet har som mål at undersøge mulighederne for automatisk at opmærke informationer om musik og gøre disse såvel som de tilhørende indspilninger tilgængelige for alle som ønsker at lytte til, downloade, anskaffe eller blot orientere sig om eksisterende indspilninger af klassisk musik. Deltagere i projektet har i bevillingsperioden været adjunkt Mette Nelson, Syddansk Universitet, Kolding, samt lektor Steffen Leo Hansen, Institut for Datalingvistik, HHK (projektansvarlig). Projektet har i 2001 haft en bevilling på kr. 25.000 fra Ledelsespuljen. Der er søgt om midler til forlængelse af projektet.
Der er i bevillingsperioden udviklet en prototype kaldet FYNBO, et system som ved hjælp af Information Extrac-tion automatisk uddrager informationer fra CD-covertekster og overfører dem opmærket i XML til en database således at de anførte informationer bliver tilgængelige for søgning på internettet for alle som vil vide noget om klassisk musik. Denne første udgave af applikationen FYNBO er blevet præsenteret på 2 internationale konferencer.
SENSEVAL. (Steffen Leo Hansen, Peter Juel Henrichsen, Sabine Kirchmeier-Andersen, Dan Hardt). Projektet er et delprojekt i et internationalt forskningsprojekt som har til formål at eksperimentere med forskellige former for automatisk opmærkning af ordbetydninger i et tekstkorpus. Projektet udføres i samarbejde med Center for Sprogteknologi samt universiteterne i bl.a. Pisa og Brighton. I perioden er et stort antal ordbetydninger opmærket og testet med forskellige typer af opmærkningssoftware. Projektet er afsluttet.
IDs KORPUSINITIATIV. (Steffen Leo Hansen, Peter Juel Henrichsen, Dan Hardt, Rodrigue Mompelat, Henrik Selsøe Sørensen, Sabine Kirchmeier-Andersen). For at sikre en optimal udyttelse af instituttets IBM-sponsorerede servere og for at sikre overførsel af resultater fra ParaT-projektet og andre projekter hvori der indgår korpora, arbejder instituttets medarbejdere med oprettelsen af fælles korpusressourcer på det sproglige fakultet.
Initiativet vedrører dels organisering og tilgængeliggørelse af korpusmateriale på serverne, installation af XKWIC og BNCs SARAH som søgeprogrammel samt morfosyntaktisk opmærkning af de danske tekster. Det er allerede på nuværende tidspunkt muligt at koble sig på korpusserveren via XKWIC eller SARAH grænsefladen, men først med en webbaseret brugergrænseflade vil den optimale brugervenlighed være på plads. Der har imidlertid ikke været tilstrækkelig arbejdskraft til at etablere webgrænsefladen i år 2001. Antallet af korpora er blevet væsentligt forøget og der arbejdes nu med oprettelsen af en dansk tree-bank.
Korpusserverne huser endvidere materiale og programmel fra SENSUS-projektet.
ID har ved udgangen af år 2001 fået et sponsorat fra firmaet Software AG på XML-databaseprogrammet Tamino. Der arbejdes på anvendelsen af databasen til håndtering af XML-opmærkede korpora.
Der er i perioden endvidere udviklet følgende korpusressourcer:
*TrykTekst - prosodisk annoteret version af PAROLE (Peter Juel Henrichsen m. IAAS, KU)
*SpontanTale - 19 speakers, dansk spontantale (map task etc) (Peter Juel Henrichsen m. IAAS, KU)
*Dansk Standard 3 (Udskr. og Reg. af Da. Talesprog (Peter Juel Henrichsen))
*Udvikling og katalog over pan-Skandinaviske udvekslingsformater (Peter Juel Henrichsen)
*Forberedelse til www-udbydelse af stort dansk dialektkorpus (Peter Juel Henrichsen m. Jann Scheuer, Inst. f. Dansk Dialektforskning, KU)
*Unibank DA-EN. Parallelt korpus med indscannede økonomiske tekster. De danske tekster er morfosyntak-tisk opmærket efter Parolestandarden
*GENTEK-DA-TAG. Det danske genteknologiske korpus morfosyntaktisk tagget efter Parolestandarden.
*Bergenholtz-TAG. Bergenholtz Korpus morfosyntaktisk tagget efter Parolestandarden.
ANDRE FORSKNINGSPROJEKTER
STANLEX. Bodil Nistrup Madsen leder et projekt vedrørende klassificering og strukturering af leksikalske data. Projek-tet er startet i 1995 og har til formål at udarbejde dels en taksonomi til indholdsbeskrivelse af leksikalske data i databaser og natursprogssystemer, dels modeller for strukturbeskrivelse af leksikalske data ved hjælp af SGML.
Arbejdet foregår inden for rammerne af en arbejdsgruppe under Dansk Standard, som består af personer der arbejder med forskning og udvikling inden for bl.a. leksikografi, terminologi og datalingvistik. Første del af en stan-dard, som vedrører en taksonomi til klassifikation af leksikalske oplysningstyper udkom i november 1998. Arbejdet med den anden del, som omhandler strukturbeskrivelse af leksikalske data vha. entitets-/relationsdiagrammer og SGML, forventes afsluttet i 2002.
PILOTFORSØG I LYDRET STAVNING. I forb. med Sprognævnets nye version af RO (udkommet efterår 2001) har Peter Juel Henrichsen (i samarb. med Bo Krantz Simonsen) udviklet en metode til ordbogsopslag baseret på lydret stavning (input: "sjampanje", output: "champagne"). Metoden bygger på tre dele: en fonotaktisk og en ortotaktisk model af det danske ord, samt en oversættelsesrelation mellem dem. I samme forbindelse har Peter Juel Henrichsen udviklet en (foreløbig, p.t. fejlbehæftet) lydskreven version af RO. Disse tre ressourcer har generel anvendelighed (når de bliver færdigudviklede) og kan finde anvendelse direkte i dansk talesyntese og anden sprogteknologi.
REPRÆSENTATION AF TRANSSKRIBERET TALESPROG. I samarbejde med projekt NordTalk, Institutionen for Lingvistik (Göteborg Univ.) og Institut for Dialektforskning (KUA) arbejder Peter Juel Henrichsen på værktøj til oversættelse mellem de mest udbredte skandinaviske formater til repræsentation af transskription (spontan tale) - p.t. især formaterne CorDiale, MSO06, BySoc og Dansk Standard 2. Publikation: Dansk Standard For Registrering af Talesprog 3 (in prep.).
HPSG-ANALYSE AF GRUPPEADJEKTIVER. Bjarne Ørnes har i 2001 fortsat sit samarbejde med Stella Markantonatou fra Institute of Speech and language processing/Athen om en HPSG-analyse af gruppeadjektiver i engelsk, nygræsk og dansk. Der foreligger nu en artikel som manuskript.
LFG-ANALYSE AF PERSONLIGE PRONOMINER. Bjarne Ørnes har derudover i 2001 arbejdet med en analyse af de personlige pronominer på dansk inden for Lexical-Functional Grammar (LFG). Analysen beskæftiger sig i særdeleshed med kasusmarkering men inddrager også basal dansk sætningsstruktur i LFG, ko-referentialitet og en analyse af langdistance-dependens på moderne dansk.
PARALLELLE GRAMMATIKKER FOR DANSK OG NORSK. Bjarne Ørnes har deltaget i to store ansøgninger om forskningsprojekter inden for formel grammatik. Dette har resulteret i en bevilling på fra NORFA til projektet "Parallelle Grammatikker for Dansk og Norsk", med en samlet bevilling på ca. 1 mio. kr. over 2 år. Projektet udføres i samarbejde med Center for Sprogteknologi og Universitetet i Bergen. Bjarne Ørsnes er projektleder på projektet.
LINGUIST-GRID (Matthias Trautner Kromann). Formålet med dette projekt er at lave et interaktivt web-sted (www.Linguist-GRID.org) som kan bruges som redskab i udarbejdelsen af grammatikalitetsundersøgelser af alle med adgang til internettet, ud fra et håb om derved at kunne styrke den empiriske fundering i lingvistisk forskning. Programmet kan bruges til at opstille tests, indsamle vurderinger fra testpersoner, samt analysere og offentliggøre de indsamlede data. Programmeringsarbejdet for første version er nu næsten afsluttet og forventes annonceret som beta-version i foråret 2002.
PH.D.-PROJEKTER
Matthias T. Kromanns ph.d.-projekt "Diskontinuert Grammatik", som udføres med finansiering fra SHF, har til formål at lave en syntaksformalisme med en psykolingvistisk plausibel parser. I 2001 er syntaksformalismen udvidet så den nu kan ses som en generalisering af optimalitetsteori og probabilistisk CFG, og en prototype-implementation af parseren viser at parseren er særdeles effektiv (tidskompleksitet O(nlog(n)^4)) og finder frem til den rigtige analy-se i en bred vifte af diskontinuerte eksempler. Projektet har derfor taget en særdeles lovende retning.
Tina Nielsen undersøger i sit ph.d.-projekt, som udføres i tilknytning til DANTERMcenteret, computermedieret under-visning inden for sprogteknologiske værktøjer. Formålet med undersøgelsen er at opstille, diskutere og afprøve konstruk-tionsprincipper for Computer Assisted Learning i forbindelse med undervisning i fagsprog og sprogteknologi på universitetsniveau.
Nina Frederiksen har påbegyndt sit ph.d.-projekt om fænomenet extraction i Lexical Functional Grammar og vil fra 2002 blive tilknyttet NORFA-projektet "Parallelle Grammatikker for Dansk og Norsk".

Last updated by Anders Krag 27/01/2005