Beretning 2000: Institut for Datalingvistik (ID)
Bernhard Bangs Allé 17 B
2000 Frederiksberg
Tlf: 38 15 31 36
Fax: 38 15 38 20
E-mail
ln.id@cbs.dk
|
Institutleder
|
Sabine Kirchmeier-Andersen
|
|
Bestyrelse
|
Bodil Nistrup Madsen, Carl Vikner (indtil 1.9.), Sabine Kirchmeier-Andersen, Lene Nissen
|
|
Forskningsmedarbejdere
|
|
Professorer:
|
|
Carl Vikner (indtil 1.9.)
|
|
Docenter:
|
|
Bodil Nistrup Madsen
|
|
Finn Sørensen
|
|
Lektorer:
|
|
Steffen Leo Hansen
|
|
Sabine Kirchmeier-Andersen
|
|
Bjarne Ørsnæs
|
|
Hanne Erdman Thomsen (fra 1.9.)
|
|
Forskningslektorer:
|
|
Hanne Erdman Thomsen (til 31.8.)
|
|
Forskningsadjunkt:
|
|
Stig W . Jørgensen (indtil 31.8.)
|
|
Peter Juel Henrichsen (fra 1.9.)
|
|
Amanuensis:
|
|
Jette Drost (fra. 1.8.00)
|
|
Adjunkter:
|
|
Hanne Erdman Thomsen (til 31.7.99)
|
|
Systemmedarbejder:
|
|
Anders Kjærgaard Jørgensen (fra 1.1.)
|
|
Systemmedkonsulent:
|
|
Bo Krantz Simonsen (Progresso A/S)
|
|
Ph.d.-stud.:
|
|
Mette Nelson (indtil 31.8.)
|
|
Christina Philp (indtil 31.1.)
|
|
Matthias Trautner Kromann
|
|
Lisette Clausen (indtil 31.12.)
|
|
Tina Nielsen (fra 1.2.)
|
|
Gæstelektor:
|
|
Daniel Hardt (fra 1.8.)
|
|
Andre:
|
|
Prof.. Carl Vikner er efter sin pensionering tilknyttet instituttet som ekstern ph.d.-vejleder og som deltager i projekterne OntoQuery og Caos.
|
|
Sekretariat Kontorfuldmægtige:
|
|
Lene Nissen (32 timer)
|
|
Gitte Jørgensen (27 timer)
|
|
Marianne Soucy (37 timer)
|
Forskningsmidler
- Basismidler
2,2 ÅV - Interne puljemidler
- Ledelsespuljen:
VISUM: 20.000 kr.
CAOS: 126.000 kr.
PARAT: 30.000 kr.
CN-XML: 30.000 kr.
Eksterne midler
- NOS-H:
NORDSEM: 156.000 kr. (frikøb) - DANTERMcentret:
92.000 kr. (frikøb)
111.000 kr. (uddlån)
250.000 (ph.d.-stip.) - EU (Socrates)/IGLO:
68.000 (frikøb) - Forskningsstyrelsen (STVF):
OntoQuery: 201.000 kr (udlån) - Forskningsstyrelsen (SHF):
Ph.d.-stip.: 300.000 kr.
Historie
Instituttet har til opgave at udvikle det faglige grundlag for undervisningen i datalingvistik, at planlægge og gennemføre denne undervisning, samt at udføre datalingvistisk forskning, specielt inden for følgende områder: formel syntaktisk og semantisk analyse af fagsprog, modellering og repræsentation af fagsprogsrelevant viden, natursprogsgrænseflader, automatisk oversættelse, datamatisk terminologi og leksikologi. Inden for disse områder er fokus først og fremmest på datalingvistiske problemstillinger som involverer dansk. Instituttets forskningsmedarbejdere deltager i tværinstitutlige og tværinstitutionelle forskningsprojekter og har etableret et nært samarbejde med det nyoprettede DANTERMcenter. Instituttet gennemfører undervisning på overbygningsuddannelsen i datalingvistik, Specialisering i IT og sprog på BA-studiet samt på de nyoprettede uddannelser BA i IT og Engelsk og Master of Language Administration. Desuden afholdes ph.d.-kurser og kurser på sprogstudiernes 1. og 2. del. samt Åben Uddannelse. Instituttet udgiver løbende en publikationsserie med titlen LAMBDA.
Forskningsmålsætning
Institut for Datalingvistik satser på inden for de kommende år at blive det centrale sted i Danmark, hvor der forskes i sprog (med hovedvægt på dansk) på formelt grundlag, og hvor resultaterne udnyttes i datalingvistiske systemer.
IDs kerneområder er:
- formelle beskrivelser af sprogs syntaks og semantik
- fagsproglig videns- og datamodelleringmed henblik på:
- sproglige databaser
- informationssøgning
- natursprogsgrænseflader
- maskinoversættelse
- datalingvistik
ID satser på at have et stærkt ph.d.-miljø.
Instituttet har formuleret sine ønsker og ressourcebehov for år 2001 i vores forslag til implementering af Handelshøjskolens udviklingskontrakt.
Succeskriterier for forskningen
- Kvalitet og omfang af publicerede og fremlagte forskningsresultater.
- Evne til at tiltrække udenlandske forskere.
- Kvalitet, funktionsdygtighed og dækningsgrad af implementerede datamatiske systemer.
- Produktion af ph.d.er.
- Værtsskab for konferenceaktiviteter.
- Samarbejde med erhvervslivet og andre forskningsinstitutioner.
I. Forskning i 2000
Målopfyldelse 2000
Med udgangen af 1997 blev datalingvistik ved Handelshøjskolen i København af Undervisningsministeriet udpeget til satsningsområde, hvilket skabte forventning om at instituttet fik gode muligheder for at realisere de anførte mål. Instituttet fik imidlertid i 2000 kun rådighed over 420.000 kr. af de oprindeligt 1.000.000 kr. som var afsat til formålet i det af fakultetet vedtagne budget og har derfor måttet justere ambitionsniveauet tilsvarende. Samtidigt er forskningsaktiviteterne blevet påvirket af at medarbejderne har lagt et betydeligt arbejde i den forsatte udvikling og igangsættelse af de to nye uddannelser, IT og Engelsk og Master of Language Administration.
Instituttets medarbejdere har i 2000 været engageret i 10 forskningsprojekter. Heraf 5 med ekstern finansiering, 2 med intern finansiering. 3 af projekterne involverer samarbejde med udenlandske forskningsinstitutioner, 3 involverer samarbejde med danske virksomheder.
Instituttet er repræsenteret i projektledelsen for projektet ONTOQUERY som har fået en bevilling for perioden 1999-2003 fra Statens Teknisk-Videnskabelige Forskningsråd, programmet Informationsteknologi. Projektet har til formål at udvikle teorier og metoder til indholdsbaseret informationssøgning. Projektet er blevet forlænget til år 2004.
Medarbejdere fra Institut for Datalingvistik deltager i projektet NORDSEM, som er startet i 1997, og som har fået en bevilling for perioden 1998-2000 fra NOS-H til et komparativt studium af semantiske fænomener i de skandinaviske sprog og engelsk. Projektet er blevet forlænget til udgangen af 2001.
Instituttet er repræsenteret i 4 forskernetværk under NORFA (Nordisk Forskeruddannelsesakademi:
- Corpus Based Research On Spoken Language
- Sprogteknologi og informationssøgning i Norden
- Terminologi
- Formel Semantik
Instituttetes medarbejdere deltager i forskningsprojekterne som gennemføres i tilslutning til DANTERMcentrets centerkontraktprojekt heriblandt udvikling af termbaser, datamatstøttet konstruktion af begrebssystemer i forbindelse med termbaser og anvendelse af parallelle korpora i forbindelse med oversættelseshukommelsessystemer. Instituttets medarbejdere deltager endvidere i styregrupperne for delprojekterne under DANTERMcentret. Via disse projekter er det blevet muligt at etablere et godt og konstruktivt samarbejde med et antal danske virksomheder.
Instituttet har indgået en samarbejdsaftale med S.A.I.L. Port Northern Europe, et internationalt erhvervsudviklingsinitiativ inden for tale, kunstig intelligens og sprog, som er under opbygning med henblik på forskning i og udvikling af sprogteknologiske produkter for de skandinaviske sprog. Aftalen giver bl.a. mulighed for forskerudveksling og netværkssamarbejde med nordiske forskningsinstitutioner og virksomheder. Aftalen har resulteret i 1 fælles EU-ansøgning samt i foredrag om taleteknologi for IT-ENG studerende.
Instituttet er repræsenteret i Forskningsministeriets arbejdsgruppe "IT på dansk" som har til opgave at iværksætte udviklingen af en stor sprogteknologisk ordbog og at udarbejde en strategi for udviklingen af dansk sprogteknologi.
Der er i 2000 blevet indleveret og forsvaret to ph.d. afhandlinger ved instituttet med efterfølgende tildeling af ph.d. graden.: Stig W. Jørgensen forsvarede sin afhandling "Computational Reference" og Mette Nelson forsvarede sin afhandling "Propriumsyntagmer i tekstresumeringssystemer".
For en mere detaljeret fremstilling af instituttets målopfyldelse henvises pkt. II Afrapportering for år 2000 i forhold til udviklingskontrakten.
Forskningsområder
Nedenfor beskrives instituttets forskningsprojekter. Nye projekter beskrives mere fyldigt, mens der for igangværende projekter henvises til forskningsberetninger fra de forudgående år.
EU-projekter
TDCnet (European Terminology Documentation Centre Network). Inden for rammerne af DANTERMcentret deltog Bodil Nistrup Madsen i 2000 i dette projekt under EU's rammeprogram MLIS (Multilingual Information Society). I projektet deltager INFOTERM og en række terminologicentre fra hele Europa (RTT i Norge og TNC i Sverige er associerede partnere). Projektet har til formål at designe og implementere et Europæisk netværk af terminologiske dokumentationscentre i form af en terminologisk infrastruktur som støtte for det multilingvale informationssamfund i Euro-pa. Projektet omfatter en analyse af terminologiske informationscentres datasamlinger, klassifikationer, edb-systemer, udarbejdelse af rekommandationer og udarbejdelse af en prototype til et system, som skal være tilgængeligt via Internet. TDCnet-projektet omfatter 6 "workpackages", og DANTERMcentret er koordinator for en del af workpackage 4 og 6.
IGLO (Intercomprehension in the Germanic Languages Online). Projektet, som løber under Sokrates programmets afdeling LINGUA D i perioden 2000-2002 sigter mod at udvikle WEB-baseret software til styrkelse af sprogtilegnelse af germanske sprog. Den grundlæggende tanke er at udnytte slægtskabet mellem sprogene i indlæringsprocessen. I projektet deltager forskere fra Universitetet i Tromsø, Fernuniversität - Gesamthochschule in Hagen, Lunds universitet, Universität Salzburg, Universiteit Antwerpen samt Háskóla Íslands. Fra HHK deltager Magrethe Mondahl (Engelsk Institut) og Sabine Kirchmeier-Andersen.
Projekter med anden ekstern finansiering
NORDSEM.
Samarbejdet med universiteterne i Göteborg og Oslo om projektet NORDSEM er fortsat. Projektet sigter mod en komparativ beskrivelse af udvalgte semantiske fænomener bl.a. aspekt og modalitet i dansk, svensk, norsk og engelsk. Deltagere fra Institut for Datalingvistik er Finn Sørensen og Carl Vikner. Projektet finansieres af de nordiske forskningsråd for perioden 1998-2001.
ONTOQUERY
Det tværvidenskabelige forskningsprojekt Ontology-based Querying, har deltagere fra: Laboratoriet for Intelligente Systemer på Roskilde Universitets Center (5 personer), Institut for Informationsteknologi på Danmarks Tekniske Universitet (2), Center for Sprogteknologi (2), Institut for Erhvervssproglig Informatik og Kommunikation på Syddansk Universitet (2) og Institut for Datalingvistik på HHK (5). Fra ID deltager Sabine Kirchmeier-Andersen, Bodil Nistrup Madsen, Hanne Erdman Thomsen (medlem af projektledelsen), Carl Vikner og Bjarne Ørsnes.
Formålet med projekt OntoQuery er at udvikle teorier og metoder til indholdsbaseret informationssøgning i tekstdatabaser.
Projektdeltagerne fra ID har i 2000 fortsat arbejdet med ontologi, med semantisk analyse af NPer indeholdende PPer og udviklingen af en første prototype til søgning i tekster om ernæring. Arbejdet med ontologi har fokuseret på hvilke semantiske relationer det vil være relevant at inddrage i arbejdet med ontologier og med opbygningen af en ontologi for fagområdet ernæring. Det centrale i forbindelse med NP-analysen har været hvilken rolle den syntaktiske analyse skal spille i et natur-sprogssystem til søgning. I arbejdet med prototypen har ID bidraget med udbygning af den elektroniske ordbog med ernærningsterminologi.
Projektet har fået støtte fra Statens Teknisk-Videnskabelige Forskningsråd, programmet Informationsteknologi, for perioden 1999 - 2003, og er blevet forlænget til 2004.
STO.
Instituttet deltager i udviklingen af STO (Sprogteknologisk Ordbog) der har som formål at udvikle en orddatabase på 20.000 ord indeholdende morfologisk, syntaktisk og til dels semantisk information som kan bruges i udviklingen af sprogteknologiske programmer. Projektet er iværksat under Forskningsministeriets arbejdsgruppe IT på dansk, som har afsat i alt 8 mio kr. til projektet i 3 år. Arbejdet koordineres af Center for Sprogteknologi.
Forskningsprojekter i samarbejde med DANTERMcentret
Bodil Nistrup Madsen er projektleder for forskningsprojekterne, som gennemføres i tilslutning til DANTERMcentrets centerkontraktprojekt "Udvikling af metoder og værktøjer til oprettelse og drift af virksomhedsinterne terminologibanker". Instituttets medarbejdere deltager i to projekter:
CAOS, Computer-Aided Ontology Structuring
(Bodil Nistrup Madsen, Hanne Erdman Thomsen og Carl Vikner), sigter på at udvikle et system til halvautomatisk opbygning af begrebssystemer ved hjælp af trækstrukturer på grundlag af brugerindtastede oplysninger. Der er i 2000 arbejdet videre med tabelstrukturer (analyse af den ontologiske struktur i en ontologisk database), og arbejdet med udvikling af en Oracle-database er sat i gang.
ParaT, Parallelle Tekster
(Sabine Kirchmeier-Andersen), omfatter udvikling af metoder til automatisk parallelisering af tekster og værktøjer til håndtering af parallelle tekster, opbygning af parallelle korpora samt forskning i anvendelse af parallelle tekster i datalingvistiske sammenhænge, f.eks. i oversættelseshukommelsessystemer. Der er i årets løb blevet indscannet, alignet og tagget et antal økonomiske tekster, et egnet korpussøgningssystem er udvalgt og der er udviklet en arbejdsrutine for den fremtidige udbygning af korpusset.
Internt finansierede projekter
VISUM.
Sabine Kirchmeier-Andersen deltager i projekt VISUM (VIsuelt UndervisningsMiddel). I projektet deltager forskere fra Københavns Universitet og Handelshøjskolen i København. Formålet med VISUM er at udvikle et flersprogligt, interaktivt undervisningsprogram (VIA) til træning af morfologisk og syntaktisk analyse. 1.9.1998 fremkom den første prototype af programmet VIA indeholdende i alt 1000 øvelser for 7 sprog. Programmet anvendes i lingvistikundervisningen på IT-ENG og i gymnasieskolen. Der er stor interesse for programmet, men for få ressourcer til videreudvikling. I beretningsperioden er der udviklet et nyt modul til træning af sætningsanalyse ved hjælp af Diderichsens sætningsskema. Arbejdet finansieres dels af Århus Universitet, som ønsker at anvende systemet i danskundervisningen, dels af midler fra ledelsespuljen. Der søges om midler til videreudvikling i samarbejde med Københavns Universitet.
Carl Nielsen XMLized.
Steffen Leo Hansen i samarbejde med Syddansk Universitet. Projektet vide-refører det grundlæggende forskningsperspektiv fra projektet MULTIMEDIA IN THE HOME, at uddrage informationer automatisk fra en CD-tekst og lagre dem opmærket i XML i en database.
SENSEVAL.
(Steffen Leo Hansen, Peter Juel Henrichsen, Sabine Kirchmeier-Andersen, Dan Hardt). Projektet er et delprojekt i et internationalt forskningsprojekt som har til formål at eksperimentere med forskellige former for automatisk opmærkning af ordbetydninger i et tekstkorpus.
IDs KORPUSINITIATIV.
(Steffen Leo Hansen, Peter Juel Henrichsen, Dan Hardt, Anders Kjær-gård Sørensen, Henrik Selsøe Sørensen, Sabine Kirchmeier-Andersen). For at sikre en optimal udyttelse af instituttets IBM-sponsorerede servere og for at sikre overførsel af resultater fra ParaT-projektet og andre projekter hvori der indgår korpora, arbejder instituttets medarbejdere med oprettelsen af fælles korpusressourcer på det sproglige fakultet.
Initiativet vedrører dels organisering og tilgængeliggørelse af korpusmateriale på serverne, installation af XKWIC og BNCs SARAH som søgeprogrammel samt morfosyntaktisk opmærkning af de danske tekster. Det er allerede på nuværende tidspunkt muligt at koble sig på korpusserveren via XKWIC eller SARAH grænsefladen, men først med en webbaseret brugergrænseflade vil den optimale brugervenlighed være på plads. Der har imidlertid ikke været tilstrækkelig arbejdskraft til at etablere web-grænsefladen i år 2000.
Korpusserverne huser endvidere materiale og programmel fra SENSUS-projektet.
Dan Hardt og Peter Juel Henrichsen har viderudviklet og trænet opmærkningsprogrammel til automatisk morfosyntaktisk opmærkning af danske tekster. Endvidere har de i samarbejde med instituttets systemadministrator, Anders Kjærgård Jørgesen, eksperimenteret med udviklingen af et distribueret computersystem med henblik på en hurtigere afvikling af de meget krævende maskinlærings-programmer som er nødvendige for udviklingen af mere effektivt korpusprogrammel.
Andre forskningsprojekter
STANLEX..
Bodil Nistrup Madsen leder et projekt vedrørende klassificering og strukturering af leksikalske data. Projektet er startet i 1995 og har til formål at udarbejde dels en taksonomi til indholdsbeskrivelse af leksikalske data i databaser og natursprogssystemer, dels modeller for strukturbeskrivelse af leksikalske data ved hjælp af SGML.
Arbejdet foregår inden for rammerne af en arbejdsgruppe under Dansk Standard, som består af personer der arbejder med forskning og udvikling inden for bl.a. leksikografi, terminologi og datalingvistik. Første del af en standard, som vedrører en taksonomi til klassifikation af leksikalske oplysningstyper udkom i november 1998. Arbejdet med den anden del, som omhandler strukturbeskrivelse af leksikalske data vha. entitets-/relationsdiagrammer og SGML, er fortsat i 1999.
Arbejdet foregår inden for rammerne af en arbejdsgruppe under Dansk Standard, som består af personer der arbejder med forskning og udvikling inden for bl.a. leksikografi, terminologi og datalingvistik. Første del af en standard, som vedrører en taksonomi til klassifikation af leksikalske oplysningstyper udkom i november 1998. Arbejdet med den anden del, som omhandler strukturbeskrivelse af leksikalske data vha. entitets-/relationsdiagrammer og SGML, er fortsat i 1999.
Ph.d. - projekter
Stig W. Jørgensen har forsvaret sit ph.d.-projekt om refererende udtryk, dvs. NPer, der refererer til en specifik genstand i modsætning til en generisk reference.
Mette Nelson har forsvaret sit ph.d.-projekt om automatisk generering af resuméer af danske tekster.
Matthias T. Kromanns ph.d.-projekt har til formål at opstille en model for hjernens syntaksmodul i form af en ny grammatikformalisme, kaldet "Diskontinuert Grammatik". Målet er at skabe en formalisme hvis konstituentgrafstruktur og parsing-algoritme er psykolingvistisk plausibel og datalogisk effektiv, og som tillader en præcis lingvistisk beskrivelse af forskellige former for diskontinuert ordstilling, fx topikalisering, relativering, ekstraposition og scrambling.
Tina Nielsen undersøger i sit ph.d.-projekt computermedieret undervisning inden for sprogteknologiske værktøjer. Formålet med undersøgelsen er at opstille, diskutere og afprøve konstruktionsprincipper for Computer Assisted Learning i forbindelse med undervisning i fagsprog og sprogteknologi på universitetsniveau.
II. Publikationer 2000
Klik for at se Institut for Datalingvistiks 2000-publikationer i Handelshøjskolens forskningsdatabase, Research@CBS.
Institutlederens vurdering af publikationsvirksomheden
Som forventet er antallet af publikationer faldet i forhold til 2000. Det skyldes ikke mindst at instituttets medarbejdere har været stærkt engageret i udviklingsopgaver i forbindelse med de nye uddannelser IT-ENG og MLA, samt at der er påbegyndt en del nye forskningsprojekter hvor der typisk går et stykke tid før resultater er klar til publicering. Trods travlheden er de fremlagte publikationer af god kvalitet.
Last updated by Anders Krag 27/01/2005