Hide metadata

dc.date.accessioned2013-03-12T11:51:25Z
dc.date.available2013-03-12T11:51:25Z
dc.date.issued2003en_US
dc.date.submitted2003-05-05en_US
dc.identifier.citationHolberg, Ragnhild. Morfosyntaktisk annotering av internettdokumenter. Hovedoppgave, University of Oslo, 2003en_US
dc.identifier.urihttp://hdl.handle.net/10852/26384
dc.description.abstractEn søkemotors forståelse begrenser seg til mønstergjenkjenning. De fleste søkemotorer jobber etter prinsipper som forutsetter at den nøyaktige søketermsekvensen forekommer i et dokument for at det skal bli ansett som relevant. Dette er ikke tilfredsstillende som følge av lingvistiske variasjoner i naturlige språk. Flertydige ordsekvenser fører til en rekke irrelevante treff. Eksempelvis vil søk på bokstavsekvensen skate, både gi treff på dokumenter som omhandler haien skate og dokumenter som beskriver aktiviteter i forbindelse med skateboard. Forskjellige betydninger eller konsepter kan beskrives ved hjelp av en rekke forskjellige uttrykksformer. Så lenge det nøyaktige konseptet som beskrives i søketermen ikke eksplisitt uttrykkes i et dokument, vil ikke dette dokumentet bli ansett som relevant av søkemotoren. De fleste vet for eksempel at menneskets beste venn er hunden, og at bikkje også omtrent refererer til samme entitet. En søkemotor har ingen forståelse for at alle termene beskriver det samme objektet, og vil kun returnere dokumenter med den nøyaktige ordsekvensen menneskets beste venn dersom man søker på dette. Man kan tenke seg at søkemotorer vil kunne forbedres dersom de nyttiggjør seg av lingvistisk informasjon. Oppgaven fokuserer for det første fokuseres på hvordan forfatteren av et internettdokument kan legge lingvistisk informasjon i dokumentet sitt i form av morfosyntaktiske tagger. Denne informasjonenen er en beskrivelse av et ords morfologiske og syntaktiske egenskaper, og omfatter blant annet ordets ordklassetilhørighet og bøyningsmønster. Disse taggene legges i dokumentet ved hjelp av et lingvistisk verktøy utviklet av Tekstlaboratoriet ved Universitetet i Oslo (UiO) og Senter for Humanistisk Informasjonsteknologi (HIT) ved Universitetet i Bergen (UiB). Andre del av oppgaven fokuserer på de problematiske tilfellene som oppstår som følge av datamaskiners mangel på forståelse, og i hvilken grad noen av disse problemene kan løses ved å bruke den lingvistiske informasjonen tilgjengelig i dokumentene. I den forbindelse beskrives to eksperimenter hvor det er gjennomført søk i de lingvistisk annoterte dokumentene, hvor også søketermen blir markert med morfosyntaktisk informasjon. Hensikten med det første eksperimentet er å finne ut i hvilken grad den lingvistiske informasjonen kan bidra til en entydiggjøring ved søk. Dette eksperimentet er basert på ideer i en artikkel skrevet for Tekstlaboratoriet om flertydighet ved internettsøk. De konkluderer med at svært mange av de flertydige ordene har korrelasjon mellom betydning og ordklassetilhørighet. Det andre eksperimentet fokuserer på hvordan den lingvistiske informasjonen i taggede søketermer kan brukes i søkemotoren til termutvidning. Vi ser på i hvilken grad morfosyntaktiske trekk og enkle transformasjonsregler kan oversette substantivfraser til substantiviske sammensetninger. Begge eksperimentene forutsetter at søketermene er grammatisk entydiggjorte, og at det ikke er noen tvil om hvilken betydning man søker etter. En flertydig ordsekvens ser i mange tilfeller ut til å kunne skilles fra identiske ordsekvenser med ulik betydning gjennom grammatiske egenskaper, med mindre det dreier seg om semantiske flertydigheter. Entydiggjøringseksperimentene i denne oppgaven synes å gi grunnlag for en påstand om at morfosyntaktiske trekk kan øke presisjonen ved søk. Også ved termutvidning ser det ut til at morfosyntaktiske trekk til en viss grad kan være nyttig. I eksperimentene som ble utført her gav bruk av frasekonverteringsprogrammet en økning i dekningsgrad. Morfologiske feilgenerering som for eksempel utelatelse av fugeelementer (jf. rødvinflaske fra flaske med rødvin) har ingen negativ effekt, da disse ikke vil finnes i søkemotorens indeks. Derimot vil semantiske overgenereringer kunne føre til en lavere presisjon. Per i dag er det de statistisk baserte metodene som dominerer de tekniske løsningene for søkemotorer. Disse metodene har muliggjort en stadig forbedring av søkeresultater, men de hjelper ikke datamaskiner til å forstå naturlige språk, som er en av datalingvistikkens sentrale oppgaver. Med en stadig mer sofistikert og detaljert bruk av internett til søk av informasjon, og de krav dette stiller til søkemotorene, vil det derfor være nødvendig og fordelaktig å introdusere mer lingvistisk baserte søkemetoder. Resultatene i denne oppgaven tyder på at utnytting av morfosyntaktisk annotering som én del av et lingvistisk motivert grunnlag for utvikling av søkeverktøy, vil kunne bidra i vesentlig grad til forbedringer i informasjonsgjennfinningsprosesser.nor
dc.language.isonoben_US
dc.titleMorfosyntaktisk annotering av internettdokumenteren_US
dc.typeMaster thesisen_US
dc.date.updated2006-01-04en_US
dc.creator.authorHolberg, Ragnhilden_US
dc.subject.nsiVDP::000en_US
dc.identifier.bibliographiccitationinfo:ofi/fmt:kev:mtx:ctx&ctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&rft.au=Holberg, Ragnhild&rft.title=Morfosyntaktisk annotering av internettdokumenter&rft.inst=University of Oslo&rft.date=2003&rft.degree=Hovedoppgaveen_US
dc.identifier.urnURN:NBN:no-9014en_US
dc.type.documentHovedoppgaveen_US
dc.identifier.duo10612en_US
dc.contributor.supervisorJan Tore Lønningen_US
dc.identifier.bibsys031539874en_US


Files in this item

FilesSizeFormatView

No file.

Appears in the following Collection

Hide metadata