Hide metadata

dc.date.accessioned2013-03-12T11:55:12Z
dc.date.available2013-03-12T11:55:12Z
dc.date.issued2005en_US
dc.date.submitted2005-04-08en_US
dc.identifier.citationHorvati, Eszter. Automatisk gjenkjenning av norske kollokasjoner. Masteroppgave, University of Oslo, 2005en_US
dc.identifier.urihttp://hdl.handle.net/10852/26835
dc.description.abstractOppgaven handler om leksikalske "byggeklosser" som består av flere enn ett ord, og som ikke kan splittes opp uten at de forandrer mening. Disse enhetene kalles flerordsenheter eller kollokasjoner. Selv om det fortsatt hersker endel uenighet om en presis definisjon av fenomenet, er det blitt allmennt akseptert å bruke tre kriterier som definisjonsgrunnlag: ikke-komposisjonalitet, uerstattelighet og umodifiserbarhet (Manning og Schütze 1999). Under ikke-komposisjonalitet mener vi at meningen til en kollokasjon ikke er identisk med komposisjonen av meningen til delene den er satt sammen av. Uerstattelighet betyr at ett eller flere av elementene i en kollokasjon ikke kan erstattes uten videre med et synonym eller et "likeverdig" uttrykk. Med umodifiserbarhet menes at noen ordsamforekomster er så faste at de ikke tillater noen form for modifisering av ordenes form eller plassering. Der minst et av disse kriteriene oppfylles, er det stor sannsynlighet for at vi har med en kollokasjon å gjøre. I denne oppgaven ser vi på hvordan kollokasjoner kan avgrenses og hvilke tekniske virkemidler man kan ta i bruk for å identifisere dem i store tekstmengder. Oppgaven er basert på statistisk språkprosessering, dvs. at man forsøker å isolere lingvistisk informasjon ved hjelp av telling av ordforekomster. Man snakker gjerne om n-grammer, samforekomster av n ord. N-grammene telles opp i et tekstkorpus, og ved hjelp av statistiske tester beregner man hvor stor grad av assosiasjon det finnes mellom ordene. Dersom en test viser høy verdi for et spesielt n-gram, tyder det på at samforekomsten av de aktuelle komponentene med høy sannsynlighet kan sies å være en kollokasjon. Verktøyet som er brukt i oppgaven heter Ngram Statistic Package og er utviklet av Ted Pedersen og Satanjeev Banerjee ved Universitetet i Minnesota. Dette programmet har blitt tilpasset norsk tekstmateriale representert ved Oslo-korpuset (utviklet ved Tekstlaboratoriet ved Universitetet i Oslo). Resultatene ble lagret i en database som kan benyttes til ulike formål der man har behov for tilgang til informasjon om kollokasjoner. I språk som engelsk og tysk har allerede mye forskning vært gjort for identifiseringen av slike enheter som går på tvers av ordgrensene. Det har så langt ikke vært stor aktivitet innen dette feltet i Norge. Mye av motivasjonen for å identifisere kollokasjoner stammer fra leksikografisk arbeid. Konstruksjon av en kollokasjonsordbok til bruk i norsk språkundervisning for fremmedspråklige er et eksempel på konkret anvendelse av utvunnet informasjon. Samtidig ønsker man å utvikle ressurser som identifiserer kollokasjoner for å integrere dem i større datalingvistiske applikasjoner, for eksempel til bruk i maskinoversettelse.nor
dc.language.isonoben_US
dc.titleAutomatisk gjenkjenning av norske kollokasjoneren_US
dc.typeMaster thesisen_US
dc.date.updated2006-01-19en_US
dc.creator.authorHorvati, Eszteren_US
dc.subject.nsiVDP::039en_US
dc.identifier.bibliographiccitationinfo:ofi/fmt:kev:mtx:ctx&ctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&rft.au=Horvati, Eszter&rft.title=Automatisk gjenkjenning av norske kollokasjoner&rft.inst=University of Oslo&rft.date=2005&rft.degree=Masteroppgaveen_US
dc.identifier.urnURN:NBN:no-11520en_US
dc.type.documentMasteroppgaveen_US
dc.identifier.duo25800en_US
dc.contributor.supervisorJan Tore Lønningen_US
dc.identifier.bibsys060124687en_US
dc.identifier.fulltextFulltext https://www.duo.uio.no/bitstream/handle/10852/26835/1/oppgave.pdf


Files in this item

Appears in the following Collection

Hide metadata