white paper series hvitbokserie the norsk norwegian i den ... · white paper series the norwegian...

90
White Paper Series THE NORWEGIAN LANGUAGE IN THE DIGITAL AGE Hvitbokserie NORSK I DEN DIGITALE TIDSALDEREN BOKMÅLSVERSJON Koenraad De Smedt Gunn Inger Lyse Anje Müller Gjesdal Gyri S. Losnegaard

Upload: others

Post on 26-Jan-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • White Paper Series

    THENORWEGIAN

    LANGUAGE INTHE DIGITAL

    AGE

    Hvitbokserie

    NORSKI DENDIGITALETIDSALDEREN

    BOKMÅLSVERSJON

    Koenraad De SmedtGunn Inger LyseAnje Müller GjesdalGyri S. Losnegaard

  • White Paper Series

    THENORWEGIAN

    LANGUAGE INTHE DIGITAL

    AGE

    Hvitbokserie

    NORSKI DENDIGITALETIDSALDEREN

    BOKMÅLSVERSJON

    Koenraad De Smedt UIBGunn Inger Lyse UIBAnje Müller Gjesdal UIBGyri S. Losnegaard UIB

    Georg Rehm, Hans Uszkoreit(Redaktører, editors)

  • FORORD PREFACE

    Dette dokumentet er del av en serie som skal frem- is white paper is part of a series that promotesme kunnskap om språkteknologiens status og poten- knowledge about language technology and its poten-siale. Målgruppen er journalister, politikere, språkbru- tial. It addresses journalists, politicians, language com-kere, lærere og andre interesserte. Tilgjengeligheten og munities, educators and others.e availability andusebruken av språkteknologi i Europa varierer fra språk of language technology in Europe varies between lan-til språk. Derfor vil også nødvendige tiltak for å støtte guages. Consequently, the actions that are required toforskning og utvikling av språkteknologi være forskjel- further support research and development of languagelige for hvert språk.Hvilke tiltak somer nødvendige av- technologies also differs. e required actions dependhenger av flere faktorer, for eksempel kompleksiteten i on many factors, such as the complexity of a given lan-et gitt språk og antall språkbrukere. guage and the size of its community.ForskningsnettverketMETA-NET, etNetwork ofExcel- META-NET, a Network of Excellence funded by thelence finansiert av Europakommisjonen, presenterer European Commission, has conducted an analysis ofi denne serien (jf. s. 81) sin analyse av eksisterende current language resources and technologies in thisspråkressurser og teknologier for de 23 offisielle EU- white paper series (p. 81). e analysis focused on thespråkeneog andrenasjonale og regionale språk iEuropa 23 official European languages as well as other impor-– deriblant norsk. Resultatene av denne analysen tyder tant national and regional languages in Europe.e re-på at det er betydelige hull i forskning og utvikling for sults of this analysis suggest that there are tremendousalle språkene. Denne detaljerte ekspertanalysen av den deficits in technology support and significant researchnåværende situasjonen i denne serien vil forhåpentlig gaps for each language. e given detailed expert anal-bidra til å maksimere effekten av ny forskning. ysis and assessment of the current situation will helpPer november 2011 består META-NET av 54 forsk- maximise the impact of additional research.ningsinstitusjoner i 33 land (jf. s. 77) som samarbei- As of November 2011, META-NET consists of 54der med kommersielle aktører (IT-bedrier, utviklere research centres from 33 European countries (p. 77).og brukere), offentlige etater, ikke-statlige organisasjo- META-NET is working with stakeholders from econ-ner, representanter for språksamfunn og universiteter. omy (Soware companies, technology providers andI samarbeidmed disse samfunnsrepresentantene ermå- users), government agencies, research organisations,let å skape en felles teknologivisjon og å utvikle en stra- non-governmental organisations, language commu-tegisk forskningsagenda for flerspråklighet i Europa in- nities and European universities. Together with thesenen år 2020. communities,META-NET is creating a common tech-

    nology vision and strategic research agenda for multi-lingual Europe 2020.

    III

  • META-NET – [email protected] – http://www.meta-net.eu

    Forfatterne av denne teksten takker forfatterne av hvitbokenfor tysk for tillatelsen til å gjenbruke visse språkuavhengigema-terialer fra deres tekst [1]. Forfatterne takker ogsåGisleAnder-sen, Torbjørg Breivik, Helge Dyvik, Kristin Hagen, TorbjørnNordgård, Torbjørn Svendsen og Trond Trosterud for verdi-fulle bidrag og kommentarer.

    Arbeidet med denne utredningen er finansiert av det sju-

    ende rammeprogrammet og Den europeiske kommisjonens

    ICT Policy Support program, gjennom kontraktene T4ME

    (tildelingsavtale 249 119), CESAR (tildelingsavtale 271 022),

    METANET4U (tildelingsavtale 270 893) og META-NORD

    (tildelingsavtale 270 899).

    e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use se-lected language-independent materials from their document[1]. ey also wish to thank Gisle Andersen, Torbjørg Breivik,Helge Dyvik, Kristin Hagen, Torbjørn Nordgård, TorbjørnSvendsen and Trond Trosterud for valuable contributions andcomments.

    e development of this White Paper has been funded by the

    Seventh Framework Programme and the ICT Policy Support

    Programme of the European Commission under the contracts

    T4ME (Grant Agreement 249 119), CESAR (Grant Agree-

    ment 271 022), METANET4U (Grant Agreement 270 893)

    and META-NORD (Grant Agreement 270 899).

    IV

  • INNHOLD CONTENTS

    NORSK I DEN DIGITALE TIDSALDEREN

    1 Sammendrag 1

    2 Språkene våre står i fare 42.1 Språkgrenser hindrer utviklingen av et europeisk informasjonssamfunn . . . . . . . . . . . . . . . . 52.2 Språkene våre står i fare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Språkteknologi kan tilrettelegge for språkbruk . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 Muligheter for språkteknologi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Utfordringer for språkteknologi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6 Språktilegnelse hos mennesker og maskiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3 Norsk i det europeiske informasjonssamfunnet 93.1 Generelle fakta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Særtrekk ved norsk språk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3 Nylige utviklingstrekk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.4 Språkpolitikk i Norge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.5 Språk og utdanning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.6 Inkluderingsaspekter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.7 Internasjonale aspekter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.8 Norsk på Internett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    4 Språkteknologisk støtte for norsk språk 164.1 Applikasjonsarkitekturer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.2 De viktigste bruksområdene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.3 Andre bruksområder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 Utdanningsprogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.5 Nasjonale prosjekter og initiativer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.6 Situasjonen for språkteknologisk støtte for norsk språk . . . . . . . . . . . . . . . . . . . . . . . . 294.7 Sammenligning på tvers av språk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.8 Oppsummering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    5 Om META-NET 35

  • THE NORWEGIAN LANGUAGE IN THE DIGITAL AGE

    1 Executive Summary 37

    2 Languages at Risk: a Challenge for Language Technology 402.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 412.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 412.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    3 The Norwegian Language in the European Information Society 453.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2 Particularities of the Norwegian Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.4 Official Language Protection in Norway . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.6 Inclusion Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.7 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.8 Norwegian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    4 Language Technology Support for Norwegian 524.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    5 About META-NET 71

    A Litteraturliste --- References 73

    B Medlemmer i META-NET --- META-NET Members 77

    C META-NET hvitbokserien --- The META-NET White Paper Series 81

  • 1

    SAMMENDRAG

    Informasjonsteknologi påvirker hverdagen vår. Vi bru-ker datamaskiner når vi skriver, redigerer, regner ut, sø-ker etter informasjon, og i økende grad også når vi leser,hører på musikk, ser på bilder og ser film. Vi har medoss små datamaskiner i lomma og bruker disse til å ringe,skrive e-post, innhente informasjon og til å underholdeoss selv hvor vi enn er.Men hvilken innvirkning har den-ne utstrakte digitaliseringen av informasjon, kunnskapog daglig kommunikasjon på språket vårt? Vil språketvårt endre seg eller til og med forsvinne? Hva er sjanse-ne for at norsk språk vil bestå?

    Mange av de 6000 språkene som finnes i verden i dagvil ikke overleve i det globaliserte digitale informasjons-samfunnet. En regnermed atminst 2000 språk kommertil å forsvinne de kommende tiårene. Andre vil fremde-les spille en rolle i privatsfæren og lokalsamfunnet, menikke i det bredere offentlige liv som næringsliv og akade-mia. Statusen til et språk avhenger ikke bare av tallet påbrukere eller hvor mange bøker, filmer og TV-stasjonersom benytter språket, men også av i hvilken grad språketgjør seg gjeldende i den digitale virkeligheten og brukesi programvareapplikasjoner.

    I denne sammenhengen sliter norsk fremdeles medvoksesmerter. I begynnelsen av det tjueførste århund-ret eksisterte norsk språkteknologi bare i svært litenskala. Det fantes et relativt godt system for oversettel-se fra bokmål og nynorsk, der var stavekontroll, og detfantes også et lite dialogsystem som svarer på spørs-mål, mens folk flest lo av den dårlige kvaliteten til deførste talegjenkjenningsprogrammene. Et ambisiøst in-dustrielt initiativ til språkteknologiutvikling på Voss

    mislyktes. Innen høyere utdanning fantes det programfor språkteknologi og datalingvistikk, og det eksisterteforskning på disse feltene, men det manglet språkressur-ser og språkverktøy.

    Bildet endret seg da forskningsrådet tok initiativ til etspråkteknologiprogram i 2002,med sikte på å utvikle nykunnskap og nødvendige verktøy. Programmet resulter-te i flere prosjekt som skapte ny kompetanse og et bedregrunnlag for norsk språkteknologi.De største prosjekte-ne i dette språkteknologiprogrammet leverte et tekst-til-tale-system og en demonstrator for oversettelse av høykvalitet fra norsk til engelsk.

    Etter Stortingsmeldingen fra 2008 [2], og vedtaket avdenne meldingen i Stortinget, ble en fritt tilgjengeligsamling av norske språkteknologiske ressurser, Språk-banken, etablert i 2010. Språkbanken er nå i gang medå bygge opp og distribuere norske språkdata, en oppga-ve som lenge har vært etterspurt innen forskning og ut-vikling. Dersom dette arbeidet blir opprettholdt, vil detutgjøre en uvurderlig investering i norsk språks fremtid.

    På tross av en betydelig utvikling innen norsk språktek-nologi det siste tiåret viser denne rapporten at det ennåbare er for basisverktøy og -ressurser at situasjonen ernoenlunde tilfredsstillende. Når det gjelder mer avan-serte applikasjoner, finnes det fremdeles svært få verktøyog ressurser for norsk, og vi har fremdeles langt igjen førnorsk språk er sikret en fremtid som fullverdig aktør idetmoderne – og framtidige – europeiske språksamfun-net.

    Informasjons- og kommunikasjonsteknologien forbere-der seg nå til neste teknologirevolusjon. I kjølvannet av

    1

  • personlige datamaskiner, nettverk, stadig mindre og let-tere komponenter, multimedia, mobile enheter og data-behandling i digitale skyer, vil den neste generasjonenteknologi bestå av programvare som ikke bare forstårtalte og skrevne bokstaver og lyder, men også hele ordog setninger, og som støtter brukeren bedre enn dagensteknologi, fordi den snakker, kjenner og forstår språketderes. Forløpere i denne utviklingen er IBMs superdata-maskinWatson, som sloUSA-mesteren i kunnskapsspil-let “Jeopardy”, og Apples mobilassistent Siri for iPhone,som responderer på språkkommandoer og kan svare påspørsmål på engelsk, tysk, fransk og japansk. Et norsktalegjenkjenningssystem for iPhone er tilgjengelig, mendet er fremdeles mye mindre pålitelig enn det tilsvaren-de engelske systemet.

    Språkbrukere kommuniserer allerede ved hjelp av tek-nologien som er utviklet for deres språk. Etter hvert vilteknologiske innretninger, som respons på enkle tale-kommandoer, være i stand til å hente de viktigste ny-hetene og informasjonen fra den globale digitale kunn-skapsbasen. Språkbasert teknologi vil kunne oversetteautomatisk eller fungere som støtte for tolker, lage sam-mendrag av samtaler og dokumenter og være et hjelpe-middel i læringssituasjoner. Språkteknologi vil for ek-sempel kunne hjelpe innvandrere med å lære norsk, ogdermed også med integrering i det norske samfunnet.

    Informasjons- og kommunikasjonsteknologi vil gjøreindustrielle roboter og tjenesteroboter (som i dag er un-der utvikling i forskningslaboratorier) i stand til å for-stå hva brukeren ønsker at de skal gjøre og å rapporte-re om oppgavene de har utført. Et slikt prestasjonsnivåstrekker seg langt ut over enkle bokstavlister og leksi-kon, stavekontroller og uttaleregler. Skal språkteknolo-gi kunne tolke spørsmål og levere utfyllende og relevantesvar, må den bevege seg fra basale tilnærminger til etmeraltomfattende perspektiv, hvor språkmodelleringen tarhensyn til syntaks så vel som semantikk.

    Ikke alle europeiske språk er like godt forberedt til enslik fremtid. Denne rapporten presenterer en evalue-ring av graden av språkteknologistøtte for 30 europeiskespråk, basert på fire kjerneområder: maskinoversettelse,taleprosessering, tekstanalyse og, til sist, basisressursersom er nødvendige for å kunne bygge språkteknologiskeapplikasjoner. Språkene ble delt inn i fem klynger etternivå, og ikke overraskende havnet norsk i bunnklyngen,og i enkelte tilfeller i klyngen over, for alle typer verktøyog ressurser.Norsk ligger langt etter større språk som foreksempel tysk og fransk. Men heller ikke disse språkeneklarer å nå opp til kvaliteten og dekningsgraden til sam-menlignbare ressurser og verktøy for engelsk, som er detklart ledende språket på nesten alle felter innen språk-teknologi.

    I St.meld. nr. 48 [3] konstaterer en at språkteknologi-feltet kan bli “en av de fremste arenaene der kampen omnorsk språk og kultur vil utspille seg i tiden fremover”(kap. 12.9, s. 196). Hva må vi så gjøre for å sikre norskspråk en fremtid i informasjonssamfunnet? I 2002 ansloen ekspertgruppepåoppdrag framyndighetene at det vilkreve en investering på 20 millioner kroner hvert år deførste fem årene [4]. Selv om Språkbanken nå er etab-lert og virksom, er det et faktum at de årlige investerin-gene så langt har utgjort bare en brøkdel av estimert be-hov.Det skulle derfor ikke komme somnoe overraskelseat norsk språkteknologi fremdeles henger igjen i tidligbarndom. Kommersielt er fem millioner språkbrukerefor få til alene å forsvare en kostbar utvikling av nye pro-dukter. Norsk IT-industri, og spesielt store og mellom-store bedrier, kan ikke alene ta kostnadene ved å byggeopp store språkressurser og verktøy for norsk. Fortsattoffentlig støtte er derfor nødvendig for å sikre at eksiste-rende verktøy og den opparbeidede kunnskapen og erfa-ringen hos forskere og bedrier skal bli utnyttet til fulle.

    Norsk språk er ikke umiddelbart truet av den engels-ke dominansen innen språkteknologi. Det kan likevelendre seg drastisk når den nye generasjonen teknologi-

    2

  • er etter hvert mestrer menneskelig språk mye bedre, ogmer effektivt, enn det dagens teknologi klarer. Gjennomutvikling innenmaskinoversettelse vil språkteknologienpå siktmedvirke til å bryte ned språkbarrierer,mendettevil bare gjelde de språkene som ermed på overgangen tilet digitalisert samfunn. Tilstrekkelig og god nok språke-teknologi kan sikre at språk med relativt små bruker-grupper overlever. Derfor er en investering i språktek-nologi en essensiell del av språkpolitikken også i fremti-den.META-NETs visjon er å legge til rette for språkteknolo-gi av høy kvalitet for alle språk. Teknologien vil således

    støtte politisk og økonomisk fellesskap gjennom kultu-relt mangfold, bryte ned eksisterende barrierer og byggebroer mellom europeiske språk. Dette innebærer at alleinteressenter – i politikk, forskning, næringsliv og sam-funn – må forene kreer for fremtiden.Denne språkrapporten utgjør en viktig del av META-NETs strategiske handlingsplan. Oppdatert informa-sjon, som for eksempel den siste versjonen av META-NETs visjonsskriv [5] eller plan for forskningsstrategi(Strategic Research Agenda, SRA), er begge å finne påMETA-NETs sin nettside: http://www.meta-net.eu.

    3

  • 2

    SPRÅKENE VÅRE STÅR I FARE: EN UTFORDRINGFOR SPRÅKTEKNOLOGIEN

    Vi er vitner til en digital revolusjon som påvirker kom-munikasjon og samfunnet dramatisk. Den seneste ut-viklingen i digital informasjons- og kommunikasjons-teknologi blir noen ganger sammenlignet med Guten-bergs oppfinnelse av trykkpressen. Hva kan denne ana-logien fortelle oss om fremtiden for den europeiskeinformasjonssamfunnet generelt og for språkenes stil-ling spesielt?

    Vi opplever en digital revolusjon som kansammenlignes med Gutenbergs oppfinnelse av

    trykkpressen.

    I kjølvannet av Gutenbergs oppfinnelse skjedde flerestore gjennombrudd i kommunikasjon og kunnskapsut-veksling, som for eksempel Luthers oversettelse av Bibe-len til eget morsmål. Siden Gutenbergs tid har man ut-viklet flere teknikker for bedre håndtering av språkbe-handling og kunnskapsutveksling:

    standardisering av rettskriving og grammatikk for devanligste språkene har gitt en hurtigere spredning avnye vitenskapelige og intellektuelle ideer;

    utviklingen av offisielle språk har gjort det lettere forinnbyggerne å kommunisere innenfor visse (oestpolitiske) grenser;

    undervisning og oversettelse mellom språk har bi-dratt til utveksling på tvers av språk;

    etablering av redaksjonelle og bibliografiske ret-ningslinjer har sikret kvaliteten og tilgjengelighetenav trykt materiale;

    etablering av ulikemedier som aviser, radio, ernsyn,bøker og andre medier har dekket en rekke kommu-nikasjonsbehov.

    De siste tjue årene har informasjonsteknologi bidratt tilå automatisere og forenkle mange av disse prosessene:

    publiserings- og tekstbehandlingsprogrammer harerstattet skrivemaskin og dokumentproduksjon;

    Microso PowerPoint har erstattet overheadtrans-parenter;

    e-post gjør det mulig å sende og motta dokumenterraskere enn med en faksmaskin;

    Skype tilbyr billige telefonsamtaler via Internett oglegger til rette for videokonferanser;

    ulike formater for lagring av lyd og video gjør det en-kelt å utveksle multimedial-innhold;

    søkemotorer gjør det enkelt å søke i nettsider;

    nettbaserte tjenester somGoogle Translate produse-rer raske, omtrentlige oversettelser;

    sosiale medier som Facebook, Twitter og Google+forenkler hurtig kommunikasjon, samarbeid og in-formasjonsdeling.

    Selv om slike verktøy og programmer er nyttige, er deennå ikke i stand til fullt ut å fylle rollen somenbærebjel-

    4

  • ke for innbyggerne i et flerspråklig europeisk samfunn,med fri flyt av informasjon og varer.

    2.1 SPRÅKGRENSER HINDRERUTVIKLINGEN AV ET EUROPEISKINFORMASJONSSAMFUNNVi kan ikke forutsi nøyaktig hvordan fremtidens infor-masjonssamfunn vil se ut.Men det er svært sannsynlig atden viktigste revolusjonen i moderne kommunikasjons-teknologi vil ligge i nye måter å samle folk som snak-ker forskjellige språk. Dette legger press på den enkel-te, som må lære nye språk, og på programutviklere, sommå lage nye applikasjoner som kan sikre gjensidig for-ståelse og tilgang til felles kunnskap. I en økonomi og etinformasjonssamfunn som blir stadig mer globalisert vilnye medier føre til enklere interaksjon på tvers av språk,språkbrukere og ulike typer innhold. Sosialemedier somWikipedia, Facebook,Twitter, YouTube, og nyligGoog-le+ har blitt stadig mer utbredt, men dette er bare top-pen av isellet.

    En stadig mer globalisert økonomi oginformasjonssamfunn konfronterer oss med flerespråk, ulike språkbrukere og ulike typer innhold.

    Ifølge en fersk rapport fra Europakommisjonen kjøper57% av Internettbrukerne i Europa varer og tjenesterpå språk som ikke er deres eget morsmål (engelsk erdet vanligste fremmedspråket, fulgt av fransk, tysk ogspansk). 55% av brukerne kan lese innhold på et frem-medspråk, mens bare 35% bruker et annet språk til åskrive e-post eller poste kommentarer på nettet [6]. Fornoen år siden var engelsk kanskje Internetts lingua an-ca, mennå er situasjonen dramatisk forandret.Mengdenav nettbasert innhold på andre europeiske språk (samtasiatiske og språk fra Midtøsten) har eksplodert.

    Dette digitale ‘klasseskillet’ mellom språkene har over-raskende nok ikke fått mye offentlig oppmerksomhet,på tross av at det gjennomsyrer hele samfunnet.Men detaktualiserer et viktig spørsmål: Hvilke europeiske språkvil overleve i et nettverksbasert informasjons- og kunn-skapssamfunn, og hvilke er dømt til å forsvinne?

    2.2 SPRÅKENE VÅRE STÅR I FAREMens trykketeknologien bidro til å øke informasjons-spredning i Europa, førte den også til språkdød. Re-gionale språk og minoritetsspråk ble sjelden trykt, slikat språk som kornisk og dalmatisk forble begrenset tilmuntlig overføring, noe som i sin tur begrenset bruks-områdene. Vil Internett ha samme virkning på språkenevåre?

    Det språklige mangfoldet i Europa er en av deviktigste delene av vår kulturarv.

    Europas omtrent 80 språk utgjør en av de viktigste de-len av vår kulturarv og en sentral del av den europeis-ke samfunnsmodellen [7]. Mens språk som engelsk ogspansk sannsynligvis vil overleve på det nye digitalemar-kedet, risikerer mange europeiske språk å bli irrelevan-te i et nettverksbasert samfunn. Dette vil kunne svekkeEuropas posisjon på verdensbasis, og svekke målet omlikeverdig deltakelse for alle europeiske borgere, uavhen-gig av språk. Ifølge en UNESCO-rapport om flerspråk-lighet er språk et viktig middel for å nyte godt av grunn-leggende rettigheter, som politisk ytringsfrihet, utdan-ning og samfunnsdeltakelse [8].

    2.3 SPRÅKTEKNOLOGI KANTILRETTELEGGE FOR SPRÅKBRUKTidligere ble det først og fremst investert i språkopplæ-ring og oversettelse. Beregninger viser at det europeiske

    5

  • markedet for oversettelse, tolkning, programvarelokali-sering og nettstedsglobalisering utgjorde 8,4 milliardereuro i 2008, ogdette tallet forventes å voksemed10%år-lig [9].Men denne investeringen dekker bare en liten delav det nåværende og fremtidige behovet for kommuni-kasjon mellom språk. Et viktig tiltak for å sikre breddenogmangfoldet av språkbruk imorgendagens Europa er åbruke riktig teknologi, akkurat som vi bruker teknologitil å løse utfordringer innen transport, energi og univer-sell utforming.Digital språkteknologi (rettet mot alle former for skre-vet tekst ogmuntlig tale) kanhjelpemennesker til å sam-arbeide, drive handel, dele kunnskap og delta i sosialeog politiske debatter på tvers av språkbarrierer og data-kunnskap. Språkteknologi er oe innebygget i komplek-se systemer som hjelper oss med å:

    finne informasjon med Internett-søkemotorer;

    sjekke staving og grammatikk i tekstbehandlingspro-gram;

    vise produktanbefalingene i nettbutikker;

    høre taleinstruksjoner fra bilnavigasjonssystemer;

    oversette nettsider via nettbaserte tjenester.

    Språkteknologi består av en rekke kjerneapplikasjonersom legger til rette for ulike prosesser innenfor et stør-re applikasjonsrammeverk. FormåletmedMETA-NETsspråkrapporter er å undersøkehvorvidt oghvor godtdis-se kjerneteknologiene er utviklet for de europeiske språ-kene.

    Vi trenger robust og rimelig språkteknologi foralle de europeiske språkene.

    For å opprettholde en ledende posisjon innen global in-novasjon trenger Europa en språkteknologi som er til-passet alle europeiske språk og som er robust, rimeligog tett integrert i relevant programvare. Uten språktek-nologi vil vi ikke kunne skape en effektiv, interaktiv,

    multimedial og flerspråklig brukeropplevelse i overskue-lig fremtid.

    2.4 MULIGHETER FORSPRÅKTEKNOLOGII trykketeknologiens dager besto det viktige teknologis-ke gjennombruddet av rask kopiering av en tekstside vedhjelp av en trykkpresse. Det omstendelige arbeidet medå slå opp, lese, oversette og oppsummere kunnskapmåttefremdeles utføres av mennesker. Ikke før Edison kunneman lagre tale, og da kun som analoge kopier.

    Med språkteknologi kanman nå automatisere selve pro-sessene for oversettelse, innholdsproduksjon og kunn-skapshåndtering for alle europeiske språk. Språktekno-logi kan også bidra til intuitive talestyrte grensesnitt forhusholdningsmaskiner, biler, datamaskiner og roboter.Vi er fortsatt på et tidlig stadium av utviklingen av an-vendte kommersielle og industrielle applikasjoner, menFoU har skapt mange nye muligheter. For eksempel ermaskinoversettelse allerede blitt rimelig nøyaktig innen-for bestemte områder, og eksperimentelle applikasjo-ner muliggjør flerspråklig informasjons- og kunnskaps-styring samt innholdsproduksjon for mange europeiskespråk.

    Som med de fleste teknologier ble de første anvendel-sene innen bl.a. talebaserte brukergrensesnitt og dialog-systemer utviklet for svært spesialiserte domener, og dehadde oe en nokså begrenset ytelse. Men det liggerstore markedsmuligheter innenfor utdanningssektorenog underholdningsindustrien ved å integrere språk-teknologi i spill, kulturminnesteder, skole og annenopplæring, biblioteker, osv. Mobile informasjonstjenes-ter, datastøttet språklæring, eLæringsmiljøer, egenvur-deringsverktøy og plagiatkontrollprogrammer er barenoen av bruksområdene hvor språkteknologi kan spilleen viktig rolle. Populariteten til sosialemedier somTwit-ter og Facebook illustrerer behovet for avanserte språk-

    6

  • teknologier somkanovervåke innlegg, oppsummeredis-kusjoner, analysere meningstrender, oppdage følelses-messige reaksjoner, identifisere brudd på lover og reglereller spore misbruk.

    Språkteknologi kan hjelpe oss til å bryte ned despråkbarrierer som språklig mangfold skaper

    Språkteknologi representerer en enorm mulighet forEU. Den kan bidra til å håndtere flerspråklighet i Euro-pa – det faktum at ulike språk lever i naturlig samek-sistens i europeiske bedrier, organisasjoner og skoler.Men innbyggerne trenger å kommunisere på tvers av dis-se språkgrensene og på kryss og tvers av det felles euro-peiske markedet. Språkteknologi kan bidra til å brytened denne siste barrieren, samtidig som den støtter friog åpen bruk av det enkelte språk. Ser man lenger fram-over, kan nyskapende og flerspråklig europeisk språktek-nologi gi en målestokk for våre globale partnere når deutvikler sine egne flerspråklige samfunn. Språkteknolo-gi er en form for ‘hjelpemiddel’-teknologi som hjelpeross å bryte ned språklige barrierer og gjør språksamfunnmer tilgjengelig for hverandre. Et annet viktig og aktivtforskningsfelt er bruken av språkteknologi i rednings-operasjoner i katastrofeområder, hvor teknologiytelsenkan bli et spørsmål om liv og død: Fremtidens intelligen-te roboter med tverrspråklige funksjoner kan redde liv.

    2.5 UTFORDRINGER FORSPRÅKTEKNOLOGISelv om språkteknologien har gjort betydelige frem-skritt de siste årene, skjer den nåværende teknologiskeutviklingen og produktinnovasjonen for langsomt. Van-lige verktøy som stave- og grammatikkontroll i tekstbe-handling er vanligvis enspråklige og bare tilgjengelig foren håndfull språk. Nettbaserte maskinoversettelsestje-nester er nyttige for å få en rask oversikt over dokumen-

    tets innhold, men gir store problemer når svært nøyakti-ge og fullstendige oversettelser trengs. På grunn av kom-pleksiteten i menneskelig språk er modelleringen av na-turlig språkbruk i programvare, som deretter skal testesut i den virkelige verden, en tidkrevende og kostbar ope-rasjon som krever en stabil finansiering. De europeiskelandenemåderfor være aktive imøtemedde teknologis-ke utfordringene som et flerspråklig samfunn står over-for, gjennom aktivt å utvikle nye metoder for å frem-skynde utviklingen. Dette kan være både beregningsori-enterte fremskritt og teknikker som ‘crowdsourcing’.

    Den teknologiske utviklingen går for langsomt.

    2.6 SPRÅKTILEGNELSE HOSMENNESKER OG MASKINERFor å illustrere hvordan datamaskiner håndterer naturligspråk, og hvorfor det er vanskelig å programmere dem tilå prosessere ulike språk, skal vi kort se på hvordan men-nesker tilegner seg første- og andrespråk, og deretter sepå hvordan språkteknologiske systemer fungerer.Mennesker tilegner seg språkkunnskap på to forskjelli-ge måter. Babyer lærer et språk ved å lytte til samhand-ling mellom foreldre, søsken og andre familiemedlem-mer. Fra toårsalderen produserer barn sine første ord ogkorte setninger.Dette er baremulig fordimennesker haren genetisk disposisjon til å imitere og rasjonalisere pågrunnlag av det de hører.Å lære et andrespråk på et senere stadium krever merinnsats, hovedsakelig fordi barnet ikke er omgitt av etspråkfellesskap, slik det er tilfelle for morsmålet. På sko-len tilegnes fremmedspråk vanligvis gjennom innarbei-ding av grammatiske strukturer, ordforråd og staving.Dette skjer ved hjelp av puggeøvelser som beskriverspråklige kunnskaper gjennom abstrakte regler, tabellerog eksempler.

    7

  • Mennesker tilegner seg språkkunnskaper på toforskjellige måter: læring fra eksempler og læring

    fra underliggende språkregler.

    De to hovedtypene av språkteknologiske systemer ‘til-egner’ seg språklige kunnskaper på en lignende måte.Statistiske (eller ‘datadrevne’) tilnærminger innhenterspråkkunnskap fra store samlinger av konkrete eksem-peltekster. For å trene stavekontrollsystemer er det til-strekkelig å bruke tekst fra et enkelt språk, men skal entrene opp et maskinoversettelsessystem trengs et sett avparallelle tekster for to (eller flere) språk. På denne må-ten kan maskinen ‘lære’ mønstre for hvordan ord, kortesetninger og fullstendige setninger blir oversatt.En statistisk tilnærming kan kreve millioner av setnin-ger, og kvaliteten øker jomer tekst som analyseres.Detteer en av grunnene til at søkemotorleverandører vil samleinn så mye tekst som mulig. Tekstbehandlingsprogram-menes stavekontroller, så vel som tjenester som GoogleSearch og Google Translate, er alle basert på statistiskemetoder. Den store fordelen med statistiske metoder eratmaskinen lærer raskt gjennom en kontinuerlig serie avtreningsrunder, men kvaliteten er varierende.Den andre tilnærmingen til språkteknologi, og særligtil maskinoversettelse, er å bygge regelbaserte systemer.Språkforskere, datalingvister og dataeksperter må førstkode grammatiske analyser (oversettelsesregler) og set-te sammen ordlister (leksika). Dette er svært tid- og ar-beidskrevende. Noen av de viktigste regelbaserte ma-

    skinoversettelsessystemene har vært under kontinuerligutvikling i mer enn tjue år. Den store fordelen med re-gelbaserte systemer er at ekspertene har en bedre kon-troll overmaskinens språkbehandling.Dermedkanmansystematisk rette opp feil i programvaren og gi brukerendetaljerte tilbakemeldinger. Dette er spesielt nyttig nårsystemene brukes til språklæring. Men på grunn av dehøye kostnadene har regelbasert språkteknologi så langtbare blitt utviklet for store språk.

    De to hovedtypene av språkteknologiske systemertilegner seg språk på en lignende måte.

    Ettersom styrkene og svakhetene ved statistiske og regel-baserte systemer oe utfyller hverandre, fokuserer forsk-ningen nå på hybridtilnærminger som kombinerer dem.Så langt har imidlertid bruken av disse metodene værtmindre vellykket i industrielle applikasjoner enn i forsk-ningslaboratoriene.

    I dette kapittelet har vi sett at mange vanlige datapro-grammer er avhengige av språkteknologi. Dette gjeldersærlig for Europa, i kra av å være et felles økonomi- oginformasjonsområde. Selv om kvaliteten på språktekno-logi har blitt mye bedre de siste årene, er det fortsatt etstort forbedringspotensial. I det følgende vil vi beskri-ve rollen norsk språk har i det europeiske informasjons-samfunnet og vurdere tilstanden for norsk språktekno-logi.

    8

  • 3

    NORSK I DET EUROPEISKEINFORMASJONSSAMFUNNET

    3.1 GENERELLE FAKTANorsk er felles tale- og skrispråk i Norge, og er mors-målet til det store flertallet av den norske befolkningen(mer enn90%, omtrent 4.320.000 språkbrukere).Norskbrukes i politikk og offentlig forvaltning, på alle nivåer iutdanningssystemet og i daglig kommunikasjon.

    Norsk er morsmålet til mer enn 90%av den norske befolkningen.

    Minoritetsspråkene (slik de defineres i Den europeiskepakt om regionale språk eller mindretallsspråk) i Nor-ge er samisk, kvensk, romanes og norsk romani. Hverav disse gruppene omfatter mellom noen hundre til fle-re tusen språkbrukere [2]. Norsk tegnspråk blir bruktav omtrent 15.000 språkbrukere [10]. I tillegg finnesdet ulike innvandrerspråk. Innvandrere og personer fødti Norge med innvandrerforeldre utgjør 600.900 per-soner, eller 12,2%, av befolkningen i Norge. De fleste avinnvandrerne er fra Polen, Sverige, Tyskland og Irak, ifølge Statistisk sentralbyrå.Norsk er et nordgermansk språk som er nært beslektetmed dansk og svensk, og disse tre språkene er gjensi-dig forståelige. Norsk har et stort mangfold av dialekter.Selv om såkalt ‘standard østnorsk’ fungerer som en defacto standard for normalisert tale, er en slik standardi-sering i langtmindre grad virksom iNorge enn i de flesteandre europeiske landene.Norsk har to offisiellemålfor-mer, bokmål og nynorsk. Formelt har de lik status, men

    i praksis er bokmål den desidert mest brukte, og brukesav omtrent 87% av befolkningen [2]. For å sikre fortsattbruk av nynorsk regulerer Målloen skrilig språkbruki offentlig sektor, og alle elever lærer både bokmål og ny-norsk på skolen, selv om der finnes politiske bevegelsersom vil avskaffe dette kravet.

    3.2 SÆRTREKK VED NORSKSPRÅKNorsk har en rekke særtrekk som bidrar til språklig rik-dom,men som samtidig skaper utfordringer for automa-tisk prosessering av naturlig språk.

    3.2.1 Utfordringer i norsk talespråk

    Muntlig norsk omfatter et bredt utvalg av dialekter,som tradisjonelt har en mye mer fremtredende rolleenn i nabolandene [2]. Siden en muntlig standardnormvanligvis ikke brukes for norsk, bruker språkbrukernestort sett dialekten sin i muntlig kommunikasjon, også imedia, om enn noen ganger i moderert form.Dialektvariasjon er en utfordring for datamaskiner nårman forsøker å konvertere tale til tekst eller tekst til tale.

    Norges dialektmangfold er en utfordringnår datamaskinen konvertere tale til

    tekst eller tekst til tale.

    9

  • Videre kan man på norsk, som i andre germanske språk,danne nye ord ganske fritt ved å sette sammen eksiste-rende ord. For eksempel kan ordene aske, krise og pakkebli sammensatt til askekrisepakke. Noen slike sammen-satte uttrykk blir bare brukt av og til, mens noen utgjørterminologi i spesialiserte domener, og atter andre blirleksikalisert (dvs. blir en del av vårt vanlige ordforråd)og inngår i ordbøker.

    Dessuten har de fleste norske dialekter en kontrastivbruk av tonefall realisert som to distinkte ordintonasjo-ner, oe kalt tonem 1 og 2. Disse tonemene, kombinertmed en mangel på et én-til-én-forhold mellom lyder ogbokstaver i norsk, utgjør en særlig utfordring for taletek-nologi. Blant annet har norsk et bredt spekter av homo-grafiske former (som skrives likt) som realiseresmed for-skjellige tonemer, for eksempel sulten (tonem 1) versussulten (tonem 2). Det er da avgjørende at et talesyntese-system er i stand til å angi rett tone til en forekomst avet leksem, i dette tilfellet ved å angi korrekt ordklasse,såkalt syntaktisk disambiguering.

    Ved konvertering fra tekst til tale er syntaktisk disambi-guering nødvendig for å skille mellom homografer somer forskjellige både når det gjelder tone og ordklasse, sliksom paret landet [lanE] (tonem 1, eng. ‘the country’)versus landet landet [lanEt] (tonem 2, eng. ‘landed’).Faktisk har de fleste intetkjønnssubstantiver korrespon-derende homografiske verb.

    3.2.2 Utfordringer i skriftlig norsk

    Når det gjelder skrilig norsk er der stor variasjon mel-lomde to offisielle norskemålformene bådemedhensyntil rettskrivning og ordformasjon, og også i noen deler avordforrådet og grammatikken.

    I praksis er kravet om tospråklighet i forvaltningenog utdanningssektoren noen ganger vanskelig å møte,ettersom forskjellene kan oppleves som vanskelig å lære.Det gjøres en stor innsats for å opprettholde denne to-språkligheten, og behovet for korrekturlesing og nøyak-

    tig oversettelse mellom de to formene er derfor åpen-bart. Selv innenfor den enkelte målformen er stor varia-sjon tillatt i form og bøying av ord. Ordet slukke kan foreksempel også skrives som slokke på bokmål (sløkke el-ler sløkkje på nynorsk), mens fortidsformene på bokmålkan være slukket, slukka, slokket eller slokka.

    Endringer i rettskrivning, ordtilfang ogordformasjon gjør at flere eksisterendespråkressurser trenger å oppdateres.

    Selv om ikke alle mulige kombinasjoner av ord og av-slutninger blir brukt i praksis, er kombinasjonsmulig-hetene likevel formidable, og fører noen ganger til tu-senvis av mulige måter å skrive samme setning. For åkomplisere saken ytterligere har det norske skrisyste-met ikke vært stabilt, fordi en rekke rettskrivingsrefor-mer har blitt vedtatt opp gjennom årene. Følgelig tren-ger flere eksisterende språkressurser å oppdateres.Som nevnt i avsnittet om særegenheter ved norsk tale-språk, er sammensatte ord på norsk en utfordring for allspråkteknologi, fordi det krever gode analyseverktøy forslike uttrykk. En av mange utfordringer for automatiskoversettelse er bruk av norske refleksiver som i følgendesetning:

    Per visste ikke at Kari hadde forsøkt å reparere bilen sin.

    En korrekt oversettelse forutsetter en dyp grammatiskanalyse av denne setningen.

    3.3 NYLIGE UTVIKLINGSTREKKI løpet av det siste tiåret har Språkrådet fattet en rekkevedtak som skal forenkle rettskrivningen i de to målfor-mene og gjøre dem mer forenlige med med den faktiskebruken.Man har gått bort fra det tidligere politiske må-let om å slå de to målformene sammen, og variasjonenhar i stedet blitt redusert, selv om det fortsatt er en bety-delig grad av frihet. Utenlandske filmer og ernsynspro-

    10

  • grammer er vanligvis ikke dubbet til norsk (imotsetningtil i mange andre land, som Tyskland og Spania), noesom betyr at generasjoner av nordmenn har vært sterkteksponert for engelsk, særlig i oppveksten. Denne eks-poneringen har trolig økt gjennom bruken av Internett.Derfor harmange nordmenn gode ferdigheter i engelsk.Tilstedeværelsen av engelsk gjenspeiles i lånord fra en-gelsk, men en undersøkelse av nye ord i norske aviser iløpet av de siste ti årene viser at bare rundt 5% av nyor-dene kommer fra engelsk [11].

    Med et domenetap for engelsk innenfor bestemtedomener kan norsk bli delvis ubrukelig som

    kommunikasjonsspråk.

    Likevel er det språkpolitisk uttrykt en bekymring [12]for at norsk taper terreng innenfor bestemte domener,for eksempel i IKT, næringsliv, økonomiske og admini-strative domener. Et såkalt domenetap betyr at et annetspråk (engelsk, i vårt tilfelle) blir hovedspråket innenforet bestemt område, noe som betyr at nye norske termerikke lenger blir produsert i dette domenet. Dermed kannorsk bli delvis ubrukelig som kommunikasjonsspråk,både mellom eksperter på feltet og mellom eksperter ogallmennheten. Ironisk nok kan fraværet av tilfredsstil-lende norske termer bidra til at språkbrukerne utvikleren generell holdning om at det er lettere å uttrykke noepå engelsk.Siden det generelt er vanskeligere å uttrykke seg riktigog effektivt på et fremmedspråk, er det viktig å øke be-visstheten om domenetap, fordi vi risikerer å utelukkede som ikke kan engelsk fra å ta del i informasjonssam-funnet. Oversettelser og forklaringer bør gjøres tilgjen-gelig der dette er nødvendig.

    3.4 SPRÅKPOLITIKK I NORGEMediene spiller en betydelig rolle for bevaringen avspråk, og i norske medier er statusen til det norske språ-

    ket ubestridt. Det er 13 radiokanaler og 19 tv-kanalersom sender over hele Norge (regionale og lokale radio-kanaler ikke inkludert), og alle sender primært på norsk,bortsett fra enkelte programmer på samisk og på tegn-språk. Alle fremmedspråklige programmer er tekstet pånorsk, bortsett fra noen barneprogrammer som vanlig-vis er dubbet og programmer på andre skandinaviskespråk som antas å bli forstått. Ved direktesendinger påandre språk, også på engelsk, oversetter eller oppsum-merer som regel norsktalende kommentatorer høyde-punktene. Norsk er ikke etter loven definert som na-sjonalspråk i Norge, og det har blitt sagt ironisk at detfinnes lover for å beskytte minoritetsspråk og standard-nynorsk, men ingen språkpolitikk for å beskytte norsk[12]. Tre viktige lover styrer språkpolitikken, den mestkjente erMålloen av 1980. I tillegg har vi Samisk språk-lo (1987) og Lov om stadnamn (1990) [2].Kulturdepartementet har det overordnede ansvaret fornorsk språkpolitikk, mens Språkrådet er autorisert til åutvikle og iverksette den gitte politikken. Språkrådet iNorge har et mer omfattende ansvar enn tilsvarende in-stanser i Sverige og Danmark. Blant annet har det an-svar for tilsyn og standardisering av språket, for styrkingav norsk i samfunnet, for de to målformene, og for åivareta norsk tegnspråk og minoritetsspråk. Språkrådethar spilt en viktig rolle for å få behovet for norsk språk-teknologi på den politiske dagsordenen. Gjennom rap-porter til regjeringen, strategidokumenter ogmediedek-ning har de fremmet synet om at språkteknologi er vik-tig for Norge, både økonomisk og kulturelt.

    Språkbanken, opprettet i 2010, skal være eninfrastruktur for bevaring og deling av

    språkressurser og utviklingsverktøy for bådeforskning og industri.

    Språkrådet bidro også til å overbevise politikerne omat Språkteknologisk ressurssamling for norsk – Språk-banken burde etableres som et språkpolitisk virke-

    11

  • middel, og dette synet ble fremmet i flere rappor-ter som finnes på http://www.sprakradet.no/nb-NO/Tema/IKT--sprak/Norsk-sprakbank/. Språkbanken erment som “en tjeneste til den delen av næringslivet somarbeider med utvikling av språkbasert IKT, til forskereinnen språkvitenskap og språkteknologi, og til offent-lege virksomheter som utvikler elektroniske løsningerfor offentlige tjenester.” Mer konkret skal Språkbankenvære en infrastruktur for bevaring og deling av språk-ressurser og utviklingsverktøy for både forskning og in-dustri. I kjølvannet av stortingsmeldingen Mål og mei-ning [2] fikk Nasjonalbiblioteket i oppdrag å etablereSpråkbanken og å starte innsamlingen og utviklingen avspråkressurser som skulle innlemmes i den. Siden juni2011 er flere språkressurser lagt ut, og er nå fritt tilgjen-gelig for nedlasting, gjennom Språkbanken, og nye res-surser er under utvikling. Oppdatert informasjon finnespå http://www.nb.no/spraakbanken/.

    Stortingsmeldingen Mål og meining understreket ogsåat terminologiske ressurser iNorgehar betydeligemang-ler med hensyn til dekningsgrad, og at der derfor er etbehov for oppdatering. Eksisterende terminologiressur-ser varierer sterktmed hensyn til format, innhold, struk-tur og metadata. Siden bevaring av norsk terminologi eret viktig språkpolitisk spørsmål, ga Språkrådet i Norge,med økonomisk støtte fra Kulturdepartementet, selska-pet StandardNorge i oppdrag å utvikle en fritt tilgjenge-lig termbase med terminologi på flere språk [13]. Den-ne termbasen ble gjort offentlig tilgjengelig for nettsøki 2011, men er så langt ikke blitt gjort tilgjengelig fornedlasting og bruk i videre FoU.

    3.5 SPRÅK OG UTDANNINGNyere forskning tyder på at viktigheten av språk i ut-danningssammenheng ikke bør undervurderes. Fra etspråkteknologisk synspunkt er behovet for gode skri-lige hjelpemidler derfor klart.

    Den første PISA-undersøkelsen (2000) viste at nors-ke elever skåret marginalt over OECD-gjennomsnittetmed hensyn til leseferdigheter. Debatten i etterkantøkte den offentlige bevisstheten om viktigheten avspråklæring, og flere nasjonale tiltak ble derfor satt i verkfor å stimulere norske elevers leseferdigheter. I den sistePISA-testen i 2009 [14] gjorde norske elever det bety-delig bedremed hensyn til leseferdigheter (selv om gjen-nomsnittet i OECD også har sunket siden 2000, noesom svekker virkningen av den tilsynelatende forbedrin-gen hos norske elever). Som i de tidligere PISA-testenevar resultatet i 2009 særlig lavt for elever med migra-sjonsbakgrunn.

    Behovet for gode språkteknologiskeskrivestøtteverktøy innen utdanningssektoren er

    åpenbart.

    Når det gjelder leseferdigheter hos voksne viser resul-tater fra undersøkelsen “Adult Literacy and Life Skill”(ALL) at leseferdigheten hos 300.000 voksne nord-menn, eller en av ti, er så lav at de får problemer i detmoderne samfunnet [15]. I undersøkelsen blir individe-nes leseferdigheter rangert på en skala fra 1 til 5 for ulikeområder. IfølgeOECDs definisjon vil lesere på nivå 1 og2 innenfor minst ett av områdene få problemer i et mo-derne informasjonssamfunn. I Norge gjelder dette omlag 1 million lesere.Behovet for å lære både bokmål og nynorsk er et kon-troversielt tema i Norge. I skolen bestemmer kommu-nen hovedmålet i grunnskolene fra og med første klas-se, mens sidemålsundervisningen vanligvis introduseresi sjuende klasse. I dag har omtrent 87% av alle nors-ke elever nynorsk som sidemål [16]. De med nynorsksom hovedmål har som regel få problemer med å læreå mestre bokmål, siden de eksponeres for bokmål gjen-nommedia og litteratur fra barnsben av. Flertallet av ele-vene, somaltså har bokmål somhovedmål, opplever der-imot oe problemer med å beherske nynorsk, siden de

    12

    http://www.sprakradet.no/nb-NO/Tema/IKT--sprak/Norsk-sprakbank/http://www.sprakradet.no/nb-NO/Tema/IKT--sprak/Norsk-sprakbank/http://www.nb.no/spraakbanken/

  • har fått mindre opplæring og vært mindre eksponert fordet.Statusen til norsk som skolefag i grunnskolen gjenspei-ler til en viss grad behovet for å prioritere leseferdigheter.En undersøkelse publisert av Utdanningsdirektoratet i2009 viser at norskfaget utgjør omtrent 26% av under-visningstiden for elever mellom 6-12 år. På dette områ-det ligger det norske skolesystemet nær Frankrike, Hel-las og Nederland, hvor nesten en tredjedel av undervis-ningstiden for 9-til-11-åringer er i morsmålsopplæring.Et annet aspekt ved språkets rolle i opplæringen er atnorskopplæring har blitt en del av utlendingspolitikkeni Norge. I 2003 ble den såkalte Introduksjonsloen ved-tatt. I følge denne loven har innvandrere rett og plikt til300 timer undervisning i norsk språk, historie, kultur oglovgivning. I følgeUtlendingsloen av 2008 er oppfyllel-se av denne plikten en av forutsetningene for å kunneinnvilges permanent opphold i Norge.Et aktuelt tiltak for å gi elever nødvendige språkferdig-heter for aktiv deltakelse i samfunnet er å øke mengdenav norskundervisning i skolen. Språkteknologi kan væreet viktig bidrag gjennom såkalt dataassistert språklæring(computer-assisted language learning; CALL), systemersom lar elevene oppleve språk på en attraktiv måte, foreksempel ved å knytte vokabular i elektroniske tekstertil lett forståelige definisjoner eller til lyd- eller videofilersom kan gi tilleggsinformasjon om for eksempel uttale.

    3.6 INKLUDERINGSASPEKTERDet er et uttalt politiskmål iNorge å sikre alle innbygge-re like muligheter for deltakelse. Flere lover angår spørs-målet om inkludering, for eksempelDiskriminerings- ogtilg jengelighetsloen og Lov om opplæring, som spesifise-rer at utdanning skal tilpasses den enkeltes behov. Særligviktig er Diskriminerings- og tilg jengelighetsloen, somspesifiserer at nye IKT-løsninger rettet mot allmennhe-ten, for eksempel sosiale nettverk eller offentlige nettsi-der, skal tilfredsstille lovens krav om tilgjengelighet in-

    nen 1. juli 2011. Innen 2025 skal alle IT-løsninger til-fredsstille lovens krav.

    Innen 2025 skal alle IKT-løsninger rettet motallmennheten, for eksempel sosiale nettverk elleroffentlige nettsider, tilfredsstille lovens krav om

    tilgjengelighet.

    Tekstbaserte kommunikasjonsmedier (SMS, e-post,Facebook, blogging, Twitter) har i løpet av svært korttid endret måten vi kommuniserer på. Mye faglig ogpersonlig kommunikasjon, og til og med viktige offent-lige debatter, foregår på Internett. Slike digitale nettverkkrever at tekster av høy kvalitet produseres raskt.For de fleste er nett- og tekstbasert kommunikasjon enberikelse, men ikke alle er bekvem med denne kommu-nikasjonsmåten. For det første har anslagsvis 5% av be-folkningen alvorlig dysleksi, mens såmange som 20% avbefolkningen mellom 16 og 20 år har generelle lese- ogskrivevansker, ifølge Dysleksiforbundet. For det andreer mange språkbrukere med norsk som andrespråk fort-satt i en læringsprosess. Omtrent to av tre innvandrerehar svake leseevner [17]. For det tredje skriver bevegel-seshemmete, svaksynte eller blinde brukere oe feil for-di de mistolker talerespons eller er uvitende om feil somakkurat er gjort. For alle de nevnte gruppene oppståroe større problemer med tekstbruk under tidspress.Personer med motoriske vansker kan også oppleve pro-blemermed tekstbruk, og trenger oe spesielt tilpassedeløsninger.Med andre ord er det en reell fare for at disse gruppenevil bli avskåret fra å dra full nytte av tekstbaserte kom-munikasjonsmedier, med mindre de får tilgang til bru-kervennlige verktøy som kan støtte kommunikasjons-prosessen. Til syvende og sist er denne utfordringen po-tensielt et demokratisk problem. Brukervennlige språk-teknologiske verktøy er her en av de viktigste mulighe-tene for å oppfylle loven om universell utforming og åsørge for at alle inkluderes.

    13

  • 3.7 INTERNASJONALEASPEKTEREngelsk er uten tvil det dominerende språket i norskevitenskapelige publikasjoner. En studie fra 2004 viste atom lag åtte av ti vitenskapelige artikler skrevet av nors-ke forskere ble utgitt på engelsk; mer enn en tredjedel avdisse ble publisert utenfor Norge [18].Vi ser den samme engelske dominansen i næringsli-vet [16, 19]. En stadig mer internasjonal arbeidsstokkskaper flerspråklige arbeidsplasser, hvor engelsk blir ar-beidsspråket. Norge har en eksportbasert økonomi, oger tungt involvert i internasjonal humanitær, diploma-tisk og militær aktivitet; sistnevnte i regi av FN ellerNATO. Gode kunnskaper i engelsk og andre fremmed-språk er derfor viktig for nordmenn på på mange områ-der, fra næringsliv og høyere utdanning til det militære,politikk og diplomati. Engelsk er det mest brukte frem-medspråket, og selv om nordmenn har ord på seg for åvære dyktige i engelsk, mangler likevel mange språkbru-kere ferdighetene som trengs for avansert bruk i jobb-sammenheng. En rekke av de spurte i departementenemener at bruk av engelsk går utover Norges innflytel-se for eksempel i forhandlinger på europeisk nivå, mensbruken av engelsk i næringslivet har ført til svekkede for-retningsmuligheter og til og med tap av kontrakter.

    Fungerende systemer for maskinoversettelse vilvære avgjørende for å gi nordmenn friheten til å

    bruke morsmålet sitt i fremtiden.

    Språkteknologi kan møte denne utfordringen fra et an-net perspektiv ved å tilby tjenester som maskinoverset-telse eller tverrspråklig informasjonsinnhenting, og der-medbidra til å redusere personlige og økonomiskeulem-per som de som ikke har engelsk som morsmål oe mø-ter. Faktisk vil maskinoversettelse være avgjørende forå gi nordmenn friheten til å fortsette å bruke morsmå-let sitt i fremtiden. I situasjoner der nordmenn trenger å

    kommunisere på engelsk, stårman som regel overfor val-get mellom å skrive dokumenter én gang på engelsk el-ler dobbelt opp på engelsk og norsk. Med et fungerendenorsk-til-engelsk maskinoversettelsessystem kan norskopprettholdes som arbeidsspråk i Norge.

    3.8 NORSK PÅ INTERNETTI 2010 hadde om lag 93% av den norske befolkningeninternettilgang ifølgeMedieNorge.Omtrent 68%var pånettet hver dag; blant unge er brukerandelen enda høy-ere. En studie fra 2010 viste at mer enn 2,5 millionernordmenn, omtrent halvparten av befolkningen, har enFacebookprofil, noe som plasserer nordmenn blant demest dedikerte brukerne av dette sosialemediet. Estima-ter viser at det finnes omtrent 34 millioner nettsider pånorsk.

    Den økende bruken av Internett har enavgjørende betydning for språkteknologi.

    Den enormemengdendigitale språkdata er en viktig res-surs for å analysere bruken av naturlig språk, spesielt forinnsamling av statistisk informasjon om språkmønstre.Internett omfatter også et bredt utvalg av bruksområderfor språkteknologi.I Norge er man i ferd med å utvikle to forskningsdrev-ne tekstkorpus basert på tekst fra Internett. Det størs-te tilgjengelige norske korpuset per i dag er Norsk avis-korpus, etmonitorkorpus avnorske avistekster publisertpå nett. Korpuset er utviklet i samarbeid mellom NHHi Bergen og Uni Research i Bergen. Korpuset er nå påover 900 millioner ord, og utvides i gjennomsnitt med1 millioner ord ukentlig, dvs. en ordmengde tilsvaren-de omtrent 10 romaner. Det andre internettkorpuset,NoWaC, er utviklet ved Tekstlaboratoriet ved Univer-sitetet i Oslo, og inneholder omtrent 700 millioner ordlastet ned fra hoveddomenet .no.

    14

  • Når det gjelder parallell eller oversatt tekst på Internetter tilgangenbegrenset for norsk sammenlignetmed and-re europeiske språk. Oversatte tekster til og fra norsk ervanskelige å finne (med unntak av tekster med relevansfor EØS er EU-tekster generelt ikke oversatt til norsk),og slike ressurser er nødvendige for maskinoversettelseog programvare for oversettelsesminne. Sett i lys av detantatte behovet har forholdsvis lite språkteknologi blittutviklet og anvendt for oversettelse av nettsteder. Denmest brukte nettapplikasjonen er nettsøk, som innebæ-

    rer automatisk prosessering av språk på flere nivåer (det-te vil bli gått gjennom i mer detalj senere). Nettsøk for-utsetter avansert språkteknologi som er forskjellig forhvert språk. På grunn av de tomålformene i norsk, samtbetydelige variasjoner innenfor dem,må en oe gå gjen-nom et omfattende antall varianter av søkeord eller set-ninger som skal passe sammen. Det neste kapitlet gir eninnføring i språkteknologi og de viktigste bruksområde-ne, sammenmed en evaluering av dagens språkteknologifor norsk.

    15

  • 4

    SPRÅKTEKNOLOGISK STØTTE FOR NORSKSPRÅK

    Språkteknologiske verktøy og ressurser er programvareutviklet for å håndtere menneskelig språk og kallesderfor oe ‘menneskelig språkteknologi’. Menneskeligspråk finnes i muntlig og skrilig form. Mens tale erden eldste og evolusjonsmessig mest opprinnelige for-men for språklig kommunikasjon, blir kompleks infor-masjon og det meste av menneskelig kunnskap lagret ogoverført i skrilige tekster. Teknologi for tale og tekstprosesserer eller produserer språk i henholdsvis muntligog skrilig form,men begge typer teknologi bruker ord-bøker og grammatiske og semantiske regler. Dette be-tyr at språkteknologi knytter språk til ulike former forkunnskap, uavhengig av mediet (tale eller tekst) kunn-skapen er uttrykt i. Figur 1 illustrerer det språkteknolo-giske landskapet.

    Når vi kommuniserer, kombinerer vi språk med andrekommunikasjonsmåter og informasjonsmedia – for ek-sempel kan det å snakke omfatte både gester og ansikts-uttrykk. Digitale tekster kan knytte seg opp mot bådebilder og lyd. Filmer kan inneholde språk i både munt-lig og skrilig form. Med andre ord er tale- og tekst-teknologi overlappende, og de samhandler med andreteknologiske verktøy sombidrar til behandling avmulti-modal kommunikasjon og multimediadokumenter.

    I det følgende vil vi diskutere de viktigste bruksområde-ne for språkteknologi, nemlig korrekturlesning, nettsøk,taleteknologi og maskinoversettelse.

    Dette omfatter programmer og grunnleggende teknolo-gier som:

    korrekturlesning

    skrivestøtte

    data-assistert språklæring

    informasjonsinnhenting

    informasjonsekstrahering

    tekstsammendrag

    besvarelse av spørsmål/dialogsystemer

    talegjenkjenning

    talesyntese

    Språkteknologi er et etablert forskningsfelt, og det fin-nes et omfattende utvalg av introduksjonslitteratur.For videre lesning anbefales lærebøkene [20, 21], over-siktsverkene [22] og nettsiden LT World (http://www.lt-world.org).Før vi går videre til endiskusjon avdisse bruksområdene,skal vi kort beskrive oppbyggingen av et typisk språktek-nologisk system.

    4.1 APPLIKASJONS-ARKITEKTURERDataprogrammer for språkbehandling består typisk avflere komponenter som gjenspeiler ulike aspekter vedspråket. Slike applikasjoner er som oest svært kom-plekse, og figur 2 viser en svært forenklet arkitektur foret vanlig tekstbehandlingsprogram.De tre førstemodu-lene håndterer strukturen og betydningen til den analy-serte teksten:

    16

    http://www.lt-world.orghttp://www.lt-world.org

  • Multimedia og multimodale teknologier

    Språkteknologi

    Taleteknologi

    Tekstteknologi

    Kunnskapsteknologi

    1: Språkteknologi

    1. Preprosessering: Renser data, analyserer eller ernerformattering, identifiserer inndataspråk, osv.

    2. Grammatisk analyse: Finner verbet, identifiserer ver-bets objekter, modifikatorer og andre setningskom-ponenter, identifiserer setningsstruktur.

    3. Semantisk analyse: Utfører disambiguering (dvs. be-regner betydningen av et ord i en gitt kontekst); lø-ser opp anaforer (dvs. finner hvilket pronomen somrefererer til hvilket substantiv i setningen); represen-terer setningens betydning på enmaskinlesbar måte.

    Etter tekstanalysen kan moduler innrettet mot spesifik-ke oppgaver tas i bruk, for eksempel automatisk sam-mendrag og databasesøk.I resten av dette kapittelet skal vi først gi en beskrivelseav de viktigste bruksområdene for språkteknologi. Der-etter følger en kort oversikt over situasjonen for språk-teknologisk forskning og utdanning i dag, sammenmeden beskrivelse av tidligere og nåværende forskningspro-grammer. Til slutt presenteres et ekspertestimat for deviktigste språkteknologiske verktøyene og ressursene fornorsk, vurdert etter ulike kriterier som tilgjengelighet,modenhetsnivå og kvalitet. Den generelle situasjonenfor språkteknologi for norsk språk er oppsummert i enegen tabell (figur 8), som gir en oppdatert oversikt overspråkteknologi for norsk. Den språkteknologiske støt-ten for norsk språk er også sammenliknet med de andrespråkene som er analysert i denne hvitbokserien.

    4.2 DE VIKTIGSTEBRUKSOMRÅDENEI dette delkapittelet fokuserer vi på de viktigste språk-teknologiske verktøyene og ressursene, og gir en oversiktover språkteknologisk virksomhet i Norge.

    4.2.1 Korrekturlesningsverktøy

    Alle som har brukt et tekstbehandlingsprogram somMicroso Word vet at den har en stavekontroll som ut-hever stavefeil og foreslår rettelser. De første stavekon-trollene sammenlignet en liste av utvalgte ord mot enordbok med korrekte ord. I dag er slike programmerlangt mer sofistikerte. Ved å bruke språkspesifikke algo-ritmer for grammatisk analyse kan de oppdage morfo-logiske feil (f. eks. flertallsformer) samt syntaktiske feil,som manglende verb eller gal verbbøyning (f.eks. hun*skrive et brev). Men de fleste korrekturverktøyene vilikke finne noen feil i følgende engelske tekst, fordi alleordene er korrekt stavet, selv omnoen av ordvalgene fak-tisk er feil [23]:

    I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

    17

  • Tekstinput

    Preprosessering Grammatisk analyse Semantisk analyse Oppgavespesifikke modular

    Output

    2: En typisk applikasjonsarkitektur for tekstprosessering

    For å avdekke slike feil trengs en analyse av konteksten,for eksempel for å avgjøre om et norsk ord skal stavesmed enkel eller dobbel konsonant i norsk, som i vil vs.vill. Denne typen analyse må enten baseres på språkspe-sifikke grammatikker som eksperter møysommelig harkodet i programvaren, eller på en statistisk språkmodell.I en statistisk modell beregnes da sannsynligheten forat et bestemt ord forekommer i en bestemt posisjon iteksten. For eksempel er jeg vil ha en mye mer sannsyn-lig ordsekvens enn jeg vill ha. En statistisk språkmodellkan genereres automatisk ved hjelp av en stormengde av(riktige) språkdata, et tekstkorpus.

    Disse to tilnærmingenehar i hovedsak blitt utvikletmedutgangspunkt i materiale fra engelsk. Imidlertid kan in-gen av demenkelt overføres til norsk, sidennorskhar an-nerledes ordstilling, sammensatte ord og et mer omfat-tende bøyningsmønster for visse ordklasser enn engelsk.Studier med utgangspunkt i norsk er derfor nødvendig.Siden norsk har to offisielle målformer, hvorav den eneer mindre brukt, er behovet for gode korrekturverktøyfor hver av målformene betydelig.

    Korrekturlesningsverktøy er ikke begrenset til tekstbe-handlingsprogrammer, det er også brukt i “skrivestøtte-systemer”, dvs. programvaresystemer som brukes for åskrive manualer og andre typer teknisk dokumentasjonsom må oppfylle spesielle standarder for eksempel in-nen IT- og helsesektoren og innen ingeniørvirksomhet.I frykt for kundeklager og skadekrav som følge av ukla-

    re instruksjoner, fokuserer næringslivet i økende grad påteknisk dokumentasjonskvalitet, samtidig som de retterseg mot et internasjonalt marked (via oversettelses- ellerlokaliseringstjenester). Fremskritt innen prosessering avnaturlig språk har ført til utvikling av programvare forskrivestøtte. Slik programvare hjelper forfattere av tek-nisk dokumentasjon til å bruke ordforråd og setnings-strukturer som er i samsvar med industriregler og (be-drisinterne) terminologiske restriksjoner.

    Korrekturlesningsverktøy brukes ikke bare tiltekstbehandling, det brukes også i

    skrivestøttesystemer.

    Gode korrekturlesningsverktøy kan være et viktig red-skap for personer med skrivevansker, det være seg dys-lektikere eller andrespråkselever, siden en kontekstsensi-tiv analyse gjør detmulig å foreslå færre ogmer relevantestavemåter; det motsatte, mange valg, krever nettopp ethøyt nivå av leseferdighet og språklig bevissthet.Enkelte norske selskaper og språktjenesteleverandørerutvikler produkter på dette området. I forskningssek-toren utvikles grunnleggende språkteknologiske ressur-ser som kan være av nytte for grammatikk- og stavekon-troll (leksikon, ordlister, tekstkorpus, analyseverktøy forsammensatte ord); disse er i hovedsak utviklet ved Uni-versitetet i Oslo, Universitetet i Bergen ogUni Researchi Bergen.

    18

  • Tekstinput Stavekontroll Grammatikkontroll Korreksjonsforslag

    Statistisk språkmodell

    3: Korrekturlesning (over: statistisk; under: regelbasert)

    Det mest brukte korrekturverktøyet for norsk finnes iMicroso Office-pakken, og er laget av det finske fir-maet Lingso, mens deler av grammatikkontrollen forbokmål ble utviklet av forskere ved Universitetet i Oslo.Stavekontroll for bokmål og nynorsk med åpen kilde-teknologi, som Hunspell, er også tilgjengelig.

    En annen norsk kommersiell aktør er Tansa, som spesia-liserer seg på korrekturverktøy tilpasset større bedriersspesifikke behov og ordforråd.De dekker flere språk i til-legg til norsk bokmål og nynorsk (for eksempel engelsk,tysk, spansk og fransk), og kundene spenner fra NRKtil Financial Times. Nynodata AS tilbyr et oversettelses-verktøy fra bokmål til nynorsk som samtidig hjelper bru-keren å følge en konsekvent formbruk.

    Tre selskaper retter seg spesifikt mot skrilige hjelpe-midler for dyslektikere. To av dem, Lingit og Inclu-de, inneholder en stavekontrollmodul i tillegg til and-re lese- og skriveverktøy (ordprediksjon, tekst-til-tale-komponenter), mens MikroVerkstedet tilbyr fullføringav ord og ordprediksjon.

    Ved første øyekast fremstår dermed situasjonen for kor-rekturverktøy på norsk som god. Men samtidig er fle-re av initiativene nokså sårbare. For eksempel er norskkorrekturlesning basert på åpen kildekode (aspell, Hun-spell) drevet av tre enkeltpersoner som gjør dette på fri-tiden. Med andre ord er en av de viktigste norske kon-kurrentene til Microsos programvare avhengig av etpersonlig initiativ fra en håndfull idealistiske enkeltper-soner, snarere enn en systematisk innsats for å utviklemoduler med åpen kildekode. Videre er det en viktig

    utfordring for de fleste norske korrekturlesningsverk-tøyene å forbedre eksisterende ressurser ved å utviklemer avanserte språkteknologiske verktøy. Det manglerogså språkspesifikke verktøy for automatisk oversettel-se og oversettelsesstøtte. Verktøy med oversettelsesmin-ne som Trados finnes, men de har ingen språkspesifikktilpasning til norsk utover en grunnleggende stavekon-troll.Utover korrekturlesning og skrivestøtte er korrektur-verktøy også viktig innenfor data-assistert språklæring.Korrekturverktøy kan også automatisk korrigere nett-søk, som iGooglesMente du…– forslag til korrektenett-søk.

    4.2.2 Nettsøk

    Digitale søk er sannsynligvis den mest brukte språktek-nologiske applikasjonen,men den er samtidig i stor gradunderutviklet. Søkemotoren Google, som ble oppretteti 1998, utfører nå omtrent 80% av alle nettsøk [24].Googles søkegrensesnitt og resultatvisning har ikke end-ret seg vesentlig siden den første versjonen. Men i dennåværende versjonen tilbyr Google stavekorrigering forfeilstavede ord, og har innarbeidet grunnleggende se-mantiske søkemuligheter som kan forbedre nøyaktighe-ten gjennom analyser av ordets betydning i en gitt søke-kontekst [25]. Googles suksess viser at med store meng-der tilgjengelige data kan statistiske metoder gi relativtgode resultater.For mer sofistikerte informasjonssøk er det imidler-tid avgjørende å integrere dypere lingvistiske analyser

    19

  • Brukerforespørsel

    Nettsider

    Preprosessering Analyse av søk

    Preprosessering Semantisk prosessering Indeksering

    Samsvar og

    relevans

    Søkeresultater

    4: Nettsøk

    for teksttolkning. Eksperimenter med leksikalske res-surser, som maskinlesbare tesauruser eller ontologiskespråkressurser (for eksempel WordNet for engelsk; etnorsk ordnett er ventet innen utgangen av 2012), hargitt bedre resultater når det gjelder å finne nettsider sominneholder synonymer til den opprinnelige søketermen,som atomkra, kjerneenergi og nukleærenergi, og til ogmed termer som er enda løsere beslektet.

    Den neste generasjonen søkemotorer må brukeen mye mer sofistikert språkteknologi.

    Den neste generasjonen søkemotorer må bruke en myemer sofistikert språkteknologi, særlig for søk som bestårav et spørsmål eller en annen type setning, og ikke bareen liste av nøkkelord. For å svare på søket Gi meg en lis-te over alle selskaper som har blitt tatt over av et annetselskap de siste fem årene, må systemet gjøre en syntak-tisk og semantisk analyse av setningen og lage en hur-tig oversikt over relevante dokumenter. Et tilfredsstil-lende svar forutsetter en syntaktisk analyse av setningens

    grammatiske struktur for å slå fast at brukeren spør etterselskaper somhar blitt kjøpt opp, ikke selskaper somharkjøpt opp andre. Når det gjelder uttrykket de siste femårene må systemet avgjøre hvilke år det dreier seg om.Søket må så sammenlignes mot en stor mengde ustruk-turerte data for å finne relevante treff. Dette kalles in-formasjonshenting (engelsk Information Retrieval), ogomfatter søk og rangering av relevante dokumenter. Forå lage en liste over selskapene trenger systemet også å for-stå at en bestemt ordstreng i et dokument er navnet pået selskap, en prosess som kalles navnegjenkjenning.

    En enda større utfordring er å forsøke å finne treff på etsøk i dokumenter på et annet språk. Ved informasjons-søk på tvers av språkmå søkeordet oversettes automatisktil alle potensielle kildespråk, og resultatene må i sin turoversettes tilbake til brukerens språk.

    Siden data i økende grad oppbevares i andre formaterenn tekst, trengs en tjeneste for multimedial informa-sjonsinnhenting som lar oss søke i bilder, lydfiler ogvideomateriale. Når det gjelder lyd- og videofiler måen talegjenkjenningsmodul konvertere taleinnholdet til

    20

  • tekst (eller fonetiske representasjoner) som så kan gitreff mot et brukersøk.

    I Norge utviklet Opera Soware den første norskenettleseren og Internettprogramvaren. Opera begyntei 1994 som et forskningsprosjekt i Telenor. Etter et årble det skilt ut som et uavhengig utviklingsselskap,Ope-ra Soware ASA. Enkelte norske selskaper utvikler el-ler appliserer søkeløsninger (CognIT, Comperio, Tex-tUrgy, Abtrox og Infofinder). FAST utviklet en søke-motor som ble kjøpt opp av Microso, og som nå for-handles av Comperio. Utviklingsfokuset til disse selska-pene er generelt rettet mot å tilby tilleggsprogrammerog avanserte søkemotorer som utnytter domenerelevantinformasjon. IT-industrien i Norge har altså allerede etganske godt grunnlag når det gjelder nettsøk og infor-masjonsinnhenting; det største behovet som bedrie-ne rapporterer om gjelder kvalitetssikrede språktekno-logiske komponenter.

    4.2.3 Taleteknologi

    De grunnleggende taleteknologiene er talegjenkjenningog talesyntese, som kan brukes til å utvikle talebasert in-teraksjon og dialogsystemer. Taleteknologi brukes for ålage grensesnitt som lar brukerne samhandle gjennomtalespråk heller enn å bruke en grafisk skjerm, tastatur ogmus. I dag brukes talegrensesnitt til helt og delvis auto-matiserte telefontjenester som selskaper tilbyr sine kun-der, ansatte eller partnere. Talegrensesnitt brukes i storgrad til blant annet banktjenester, distribusjonskjeder,kollektivtransport og i telesektoren. Taleteknologi bru-kes også til grensesnitt for navigasjonssystemer i biler ogtil bruk av talespråk som et alternativ til grafiske grense-snitt eller trykkfølsomme skjermer i smarttelefoner.

    Taleteknologi omfatter fire typer verktøy:

    1. Automatisk talegjenkjenning (tale-til-tekst) avgjørhvilke ord som faktisk sies i en gitt lydsekvens ytretav en språkbruker.

    2. Naturlig språkforståelse analyserer ytringens syntak-tiske struktur, og tolker den ut fra systemet som bru-kes.

    3. Dialogstyring avgjør hvilken handling som skal ut-føres, gitt et bestemt brukerinput og en viss system-funksjonalitet.

    4. Talesyntese (tekst-til-tale) omskaper systemets svartil lyder som er forståelige for brukeren.

    Automatiske talegjenkjenningssystemer forsøker å gjen-kjenne ordene som ytres.Det betyr at utvalget avmuligeytringer må avgrenses til et begrenset sett av nøkkelord,eller at man manuelt lager språkmodeller som dekkeret stort omfang av naturlige språkytringer. Ved hjelp avmaskinlæringsteknikker kanman også automatisk gene-rere språkmodeller fra talekorpus, dvs. store samlingerav tale i lydfiler og teksttranskripsjoner. Å begrense yt-ringene innebærer vanligvis at brukerne pålegges å bru-ke grensesnittet på enbegrensetmåte, hvilket kan svekkebrukerens aksept av verktøyet. På den annen side vil detøke kostnadene betraktelig å skape, fininnstille og vedli-keholde rike språkmodeller. Talegrensesnitt som brukerspråkmodeller og lar brukeren uttrykke seg mer fleksi-belt i begynnelsen – ved hjelp av et spørsmål som: Hvakan jeg g jøre for deg? – er generelt automatisert, og giroe en bedre opplevelse for brukerne.

    Taleteknologi brukes for å lage grensesnitt somlar brukerne samhandle gjennom talespråk hellerenn å bruke en grafisk skjerm, tastatur og mus.

    Bedrier bruker oe forhåndsinnspilt tale, innspilt avprofesjonelle, for å generere materialet som skal brukesi talegrensesnitt. For statiske ytringer, hvor formulerin-gene ikke avhenger av en bestemt situasjon eller person-lige brukerdata, kan dette gi en god brukeropplevelse.Men mer dynamisk ytringsinnhold kan preges av una-turlig intonasjonsmønstre, fordi de rett og slett produse-res ved å lime ulike lydfiler sammen. Dagens talesyntese

    21

  • Taleinput Signalprosessering

    Taleoutput Talesyntese Fonetisk søk og intonasjonsplanleggingNaturlig

    språkforståelse og dialog

    Gjenkjenning

    5: Talebasert dialogsystem

    er blitt stadig bedre til å produsere dynamiske ytringersom høres naturlige ut, selv om de fremdeles har et for-bedringspotensial.Det siste tiåret har det skjedd en betydelig standardise-ring av talegrensesnitt når det gjelder de ulike teknolo-giske komponentene. Det har også vært en sterk mar-kedskonsolidering innen taleteknologi. I G20-landene(de 19 landene i verden med best økonomi samt EU)har kun fem globale aktører dominert markedet, medNuance (USA) og Loquendo (Italia) som de viktigs-te i Europa. I 2011 kunngjorde Nuance oppkjøpet avLoquendo, og dette innebar et nytt steg i retning av ensterkere konsolidering av markedet.For norsk talesyntese finnes tretten norske stemmer; defleste har blitt utviklet av aktørene vi har nevnt oven-for. Tre av stemmene er utviklet av den norske bedrienLingit, som retter seg mot brukere med lese- og skrive-vansker. En annen stemmeble utviklet vedNorsk lyd- ogblindeskribibliotek i samarbeid med søsterbiblioteketi Sverige.Der er også en aktiv forskergruppe vedNTNUi Trondheim.

    Språkressurser for talesyntese finnes på engelsk,men bare i liten grad for norsk.

    Kvaliteten på talesyntese er sterkt avhengig av tilgjen-gelige resursser (spesielt tekstkorpus tagget med infor-masjon om ordklasse, tokenisatorer og uttaleleksika)

    og språkspesifikk forskning på for eksempel prosodisketrekk i det aktuelle språket. Det finnes mange slike res-surser på engelsk,menbare i liten grad for norsk. Likeveler behovet ekstra stort for norsk på grunn av det storemangfoldet i mulige stavemåter og dialekter, i tillegg tilutfordringer knyttet til tonelag og en manglende én-til-én-relasjon mellom lyder og bokstaver.

    Når det gjelder teknologi og kunnskap for dialogstyringer det norske markedet dominert av mindre, norske be-drier. MediaLT har utviklet en generell talegjenkjen-ner som brukes til dialogstyring for blinde og svaksyn-te. Innen tale-til-tekst har Max Manus integrert og til-rettelagt Phillips’ SpeechMagic for norske sykehus. Sys-temet er relativt vellykket, men har et relativt avgrensetbruksområde med et lukket vokabular. Nylig ble Dra-gon Dictation, en stemmegjenkjenningsapplikasjon formobiltelefoner, lansert for norsk. Denne applikasjonener det første generelle dikteringssystemet for norsk, menden norske versjonen av Dragon Dictation later til å gibetydelig mer feiltolking enn den engelske versjonen.For taleinteraksjon finnes det ennå ikke et fungerendemarked for lingvistiske kjerneteknologier for syntaktiskog semantisk analyse.

    I tiden fremover kan man sannsynligvis vente en bety-delig utvikling på grunn av økt bruk av smarttelefonersom en ny plattform for å håndtere kunderelasjoner, itillegg til allerede eksisterende kommunikasjonsmediasom fasttelefoner, Internett og e-post.Dette vil sannsyn-

    22

  • ligvis også påvirke bruken av taleteknologi og dialogsys-temer. På sikt vil der sannsynligvis bli færre telefonba-serte talegrensesnitt, og talespråksapplikasjoner vil spil-le en langt mer sentral rolle som en brukervennlig inte-rasjonsmåte med smarttelefoner. Denne utviklingen vilsannsynligvis primært drives frem gjennom stegvise for-bedringer av talegjenkjenningssystemer som ikke er fo-kusert på én bestemt bruker, via dikteringssystemer somallerede tilbys som sentraliserte tjenester for smarttele-fonbrukere.

    4.2.4 Maskinoversettelse

    Tanken om å bruke datamaskiner til å oversette natur-lig språk ble introdusert i 1946, og utløste en omfatten-de forskningsinnsats på 50-tallet, som så ble gjenoppli-vet på 80-tallet. Likevel har maskinoversettelse (MO)fremdeles ikke levd opp til de tidlige forhåpningene omå kunne tilby generell, automatisert oversettelse.

    Maskinoversettelse er først og fremst vanskeligfordi menneskelig språk er flertydig.

    Den mest grunnleggende tilnærmingen til maskinover-settelse er automatisk å erstatte ord i et språk med ord iet annet språk. Dette kan fungere bra for domener hvorordforrådet er begrenset og standardisert, som for ek-sempel værmeldinger. Men for å lage gode oversettelserav tekster fra mer generelle domener må man oversettestørre tekstbiter (ordgrupper, setninger, eller til og medhele avsnitt), og hver tekstbit må stemme overens medtilsvarendedel i kildeteksten.Maskinoversettelse er førstog fremst vanskelig fordi menneskelig språk er flertydig.Flertydighet gir utfordringer på flere nivåer, blant an-net kanman trenge å løse flertydigheter både på ordnivåog på setningsnivå. In en enkel ord-for-ord-oversettelsetil engelsk kan setningen Plutselig røk slangen derfor giresultatet Suddenly smoked the snake. Verbformen røk(preteritumav ryke) er flertydigmellomdet vi på engelsk

    ville oversette som henholdsvis snap og smoke. Ordetslange er på sin side flertydig mellom ‘vannslange’ (en-gelsk hose) og ‘reptilslange’ (engelsk snake). Legg ogsåmerke til at en enkel ord-for-ord-oversettelse ikke villegitt riktig rekkefølge av ordene på engelsk.

    I tillegg til leksikalsk flertydighet og forskjeller i ordstil-ling kommer utfordringer med syntaktiske flertydighe-ter. På norsk kanman for eksempel topikalisere objekteti en setning, mens mulighetene for å gjøre dette på en-gelsk er mye mer begrenset. Den norske setningen Eple-ne spiste mannen har to ulike tolkninger: Enten analyse-res eplene som setningens subjekt (mannen ble spist aveplene), eller som et topikalisert objekt (eplene ble spistav mannen). Siden denne flertydigheten ikke finnes påengelsk,må etmaskinoversettelsessystem først finne denkorrekte syntaktiske tolkningen for å komme frem til enkorrekt oversettelse.

    En annen utfordring for maskinoversettelse for norsker sammensatte ord. Et effektivt oversettelsessystem måkunne identifisere sammensatte ord som ikke står i ord-boken, analysere dem, og om nødvendig lage nye sam-mensatte ord i målspråket.

    For oversettelser mellom nært beslektede språk kan enenkel ord-for-ord-oversettelse la seg gjøre. Men ma-skinoversettelsessystemer kan også bygges ved å brukelingvistiske regler. Regelbaserte (eller kunnskapsdrevne)systemer analyserer kildeteksten, og lager enmellomstå-ende symbolsk representasjon. På grunnlag av den sym-bolske representasjonen kan man så generere tekst tilmålspråket. Kvaliteten på slike metoder avhenger i storgrad av tilgangen til omfattende ordbøker med morfo-logisk, syntaktisk og semantisk informasjon, i tillegg tilstore sett med grammatiske regler utviklet av språkfors-kere. Dette er en veldig omfattende, og derfor dyr, pro-sess.

    På slutten av 80-tallet, da datamaskinkapasiteten økte,økte også interessen for statistiske modeller for ma-skinoversettelse. Statistiskemodeller for maskinoverset-

    23

  • Statistisk maskinover-

    settelse

    Kildetekst

    Måltekst

    Tekstanalyse (formattering, morfologi, syntaks, osv.)

    Tekstgenerering

    Oversettelsesregler

    6: Maskinoversettelse (venstre: statistisk; høyre: regelbasert)

    telse er basert på analyser av tospråklige tekstkorpus,som parallellkorpuset Europarl, som består av møtere-ferater fra Europaparlamentet på 21 europeiske språk(norsk er ikke inkludert). Hvis man har tilgang til til-strekkelige mengder data, kan statistisk maskinoverset-telse fungere godt nok til å utlede den omtrentlige be-tydningen til en tekst på et annet språk, gjennom åprosessere parallelle versjoner av tekst og dermed finnesannsynlige ordmønstre. Datadrevetmaskinoversettelsehar sine fordeler, fordi den krever mindre menneskeliginnsats, og den kan fange opp særegenheter ved språket(for eksempel idiomatiske uttrykk) som kan bli oversettav kunskapsdrevne systemer.Men imotsetning til kunn-skapsdrevne systemer gir statistisk (eller datadrevet)ma-skinoversettelse oe ugrammatiske resultater.

    Oe er det altså slik at fordelene og ulempene vedkunnskapsdrevet og datadrevet maskinoversettelse ut-fyller hverandre. Derfor fokuserer nyere forskning oepå hybridtilnærminger som kombinerer begge metode-ne. Én slik tilnærming bruker både kunnskapsdrevne ogdatadrevne systemer sammen med en selekteringsmo-dul som avgjør det beste resultatet for hver setning. Forsetninger lengre enn omtrent tolv ord blir imidlertid re-sultatene som regel mindre gode. Her kan en bedre løs-ning være å kombinere de beste delene fra hver setningfra flere ulike kilder. Dette kan være en ganske kompleksoppgave, siden siden det ikke alltid er klart hvilke av flereulike muligheter som passer sammen. Disse må identifi-

    seres og parallellstilles.Når det gjelder oversettelsemellomde to norskemålfor-mene er behovet for effektive oversettelsesverktøy stort.To selskaper har utviklet systemer for dette; Nynodataog Apertium. Nynodata er en liten bedri som tilbyrverktøy for oversettelse, korrektur og tekstsøk for bok-mål og nynorsk. Apertium er et åpen-kilde-initiativ somogså tilbyr automatisert oversettelse mellom de to mål-formene, implementert av en student ved Universiteteti Bergen.

    Selv om det er et klart behov formaskinoversettelse for norsk, er utviklingen av slik

    programvare for norsk ennå ikke omfattende.

    Når det gjelder oversettelsemellomnorsk og ulike frem-medspråk har Google Translate en norsk modul foroversettelse mellom engelsk og norsk; via engelsk er detmulig å oversettemellom norsk og ethvert språkpar sominneholder engelsk. GramTrans er en maskinoversettel-sesplattform somer utviklet av det danskeGrammarSoApS og den norske bedrien Kaldera SpråkteknologiAS. Denne oversettelsesmotoren tilbyr en tjeneste forgratis, nettbasert oversettelse for de skandinaviske språ-kene ogmellom norsk og engelsk. Programmet er basertpå en robust grammatikkanalyse, en transferkomponentsom behandler overgangen fra et språk til et annet medhensyn til leksikon og grammatikk, og til slutt en kom-

    24

  • ponent som genererer oversatt tekst på målspråket. Sel-skapet Clue Norge spesialiserer seg på elektroniske ord-bøker for næringslivet, og utviklet for omtrent ti år si-den systemet Textran for maskinoversettelse fra engelsktil norsk. Systemet eksisterer fortsatt, men har ikke blittvidereutviklet fordi jevnt pålitelige maskinoversettelserav høy kvalitet ermeget vanskelig å oppnå,mens bruker-gruppene ikke ønsket å betale for et system som gjordefeil. Selv om det foregår en betydelig forskningsinnsatspå dette området, både nasjonalt og internasjonalt, hardatadrevne oghybride systemer så langt værtmindre vel-lykket i applikasjoner for næringslivet enn i forsknings-laboratoriet. I Norge finnes den viktigste forskningseks-pertisen ved Universitetet i Oslo og Universitetet i Ber-gen.

    Språktjenesteindustrien i Norge later til å ha etunderforbruk av språkteknologiske ressurser.

    Bruk avmaskinoversettelse kan øke produktiviteten be-tydelig, forutsatt at systemet er tilpasset brukerspesifikkterminologi og er godt integrert i arbeidsflyten på en ar-beidsplass. Generelt later imidlertid språktjenesteindu-strien i Norge til å ha et underforbruk av språkteknolo-giske ressurser. Sektoren kan deles i to grupper: på denene siden har man frilansoversettere og oversetterbyråersom retter seg mot enkeltpersoner, næringslivet og of-fentlig sektor; på den andre siden har man oversetteresom er tilknyttet Oversetterforeningen og Norsk faglit-terær forfatter- og oversetterforening.I den siste gruppen framstår bruken av språkteknolo-gi som begrenset. Den førstnevnte gruppen bruker oeTrados, som er det klart mest brukte oversettelsesverk-tøyet for profesjonelle oversettere. Trados har imidler-tid ingen egen modul for norsk, men støtter seg i ste-det på Hunspell, en åpen-kilde-løsning med stavekon-troll og et morfologisk analyseverktøy som opprinneligble utviklet for ungarsk. Selv om det er en funksjonell

    og åpen løsning, trenger den ytterligere utvikling for åfungere som en optimal ressurs for språktjenestesekto-ren i Norge. Særlig stort er behovet for å forbedre ana-lysen av sammensatte ord på norsk. I tillegg bruker pro-fesjonelle oversettere termbaser (DU, IATE), og til enviss grad er der et samarbeid med universitetssektoren iutviklingen av termbaser. Det tilsynelatende underfor-bruket av språkteknologiske ressurser i språktjenestein-dustrien skyldes delvis mangelen på gode ressurser fornorsk, men også manglende kontakt mellom språktje-nesteleverandører og forskermiljøene.Derfor kan kunn-skap om det fulle potensialet for språkteknologi blir forbegrenset, og det kan være vanskelig for kommersielleaktører å vurdere kvaliteten på eksisterende ressurser.

    Kvaliteten på maskinoversettelsessystemer har fremde-les et stort forbedringspotensial. Blant utfordringene erå tilpasse språkressurser til et gitt emne eller brukerom-råde, og å integrere teknologien i en arbeidsflyt som al-lerede inneholder termbaser og oversettelsesminne. I til-legg er de fleste systemene som er i bruk rettet mot en-gelsk, og støtter bare sjelden oversettelse til og fra norsk.Dette gir forstyrrelser i prosessenmed å få tekst oversatt,og tvingermaskinoversettelsesbrukere til å lære seg ulikekodingsverktøy