Morfosyntaktisk annotering av internettdokumenter

Holberg, Ragnhild

Master thesis

View/Open

No file.

Year

2003

Abstract

En søkemotors forståelse begrenser seg til mønstergjenkjenning.

De fleste søkemotorer jobber etter prinsipper som

forutsetter at den nøyaktige søketermsekvensen forekommer i

et dokument for at det skal bli ansett som relevant.

Dette er ikke tilfredsstillende som følge av

lingvistiske variasjoner i naturlige språk.

Flertydige ordsekvenser fører til en rekke irrelevante

treff. Eksempelvis vil søk på bokstavsekvensen skate,

både gi treff på dokumenter som omhandler haien

skate og dokumenter som beskriver aktiviteter i forbindelse med

skateboard.

Forskjellige betydninger eller konsepter kan beskrives ved hjelp

av en rekke forskjellige uttrykksformer. Så lenge det nøyaktige

konseptet som beskrives i søketermen ikke eksplisitt uttrykkes i et

dokument, vil ikke dette dokumentet bli ansett som relevant av

søkemotoren. De fleste vet for eksempel at menneskets beste

venn er hunden, og at bikkje også omtrent refererer

til samme entitet. En søkemotor har ingen forståelse for at alle

termene beskriver det samme objektet, og vil kun returnere dokumenter

med den nøyaktige ordsekvensen menneskets beste venn dersom man

søker på dette.

Man kan tenke seg at søkemotorer vil kunne forbedres dersom de

nyttiggjør seg av lingvistisk informasjon.

Oppgaven fokuserer for det første fokuseres på

hvordan forfatteren av et internettdokument kan legge lingvistisk

informasjon i dokumentet sitt i form av morfosyntaktiske

tagger. Denne informasjonenen er en beskrivelse av et ords

morfologiske og syntaktiske egenskaper, og omfatter blant annet ordets

ordklassetilhørighet og bøyningsmønster. Disse taggene legges i

dokumentet ved hjelp av et lingvistisk verktøy utviklet av

Tekstlaboratoriet ved Universitetet i Oslo (UiO) og Senter for Humanistisk

Informasjonsteknologi (HIT) ved Universitetet i Bergen (UiB).

Andre del av oppgaven fokuserer på de problematiske tilfellene som oppstår som

følge av datamaskiners mangel på forståelse, og i hvilken grad noen av

disse problemene kan løses ved å bruke den lingvistiske informasjonen

tilgjengelig i dokumentene. I den forbindelse beskrives to

eksperimenter hvor det er gjennomført søk i de

lingvistisk annoterte dokumentene, hvor også søketermen blir markert

med morfosyntaktisk informasjon. Hensikten med det første

eksperimentet er å finne ut i hvilken grad den lingvistiske

informasjonen kan bidra til en entydiggjøring ved søk. Dette

eksperimentet er basert på ideer i en artikkel skrevet for

Tekstlaboratoriet om

flertydighet ved internettsøk. De konkluderer med at svært mange av de

flertydige ordene har korrelasjon mellom betydning og ordklassetilhørighet.

Det andre eksperimentet fokuserer på hvordan den lingvistiske

informasjonen i taggede søketermer kan brukes i søkemotoren til

termutvidning. Vi ser på i hvilken grad morfosyntaktiske trekk og enkle

transformasjonsregler kan oversette substantivfraser til

substantiviske sammensetninger.

Begge eksperimentene forutsetter at søketermene er grammatisk

entydiggjorte, og at det ikke er noen tvil om hvilken betydning man

søker etter.

En flertydig ordsekvens ser i mange tilfeller ut til å kunne skilles

fra identiske ordsekvenser med ulik betydning gjennom grammatiske

egenskaper, med mindre det dreier seg om semantiske flertydigheter.

Entydiggjøringseksperimentene i denne oppgaven synes å gi grunnlag for

en påstand om at morfosyntaktiske trekk kan øke presisjonen ved søk.

Også ved termutvidning ser det ut til at morfosyntaktiske trekk til en

viss grad kan være nyttig. I eksperimentene som ble utført her gav

bruk av frasekonverteringsprogrammet en økning i dekningsgrad.

Morfologiske feilgenerering som for eksempel utelatelse av

fugeelementer (jf. rødvinflaske fra flaske med rødvin)

har ingen negativ effekt, da disse ikke vil finnes i søkemotorens

indeks. Derimot vil semantiske overgenereringer kunne føre til en

lavere presisjon.

Per i dag er det de statistisk baserte metodene som dominerer de

tekniske løsningene for søkemotorer. Disse metodene har muliggjort en stadig

forbedring av søkeresultater, men de hjelper ikke datamaskiner til å

forstå naturlige språk, som er en av datalingvistikkens sentrale

oppgaver. Med en stadig mer sofistikert og detaljert bruk av internett

til søk av informasjon, og de krav dette stiller til søkemotorene, vil

det derfor være nødvendig og fordelaktig å introdusere mer lingvistisk baserte

søkemetoder. Resultatene i denne oppgaven tyder på at utnytting av

morfosyntaktisk annotering som én del av et lingvistisk motivert

grunnlag for utvikling av søkeverktøy, vil kunne bidra i vesentlig

grad til forbedringer i informasjonsgjennfinningsprosesser.