Abstract
En søkemotors forståelse begrenser seg til mønstergjenkjenning.
De fleste søkemotorer jobber etter prinsipper som
forutsetter at den nøyaktige søketermsekvensen forekommer i
et dokument for at det skal bli ansett som relevant.
Dette er ikke tilfredsstillende som følge av
lingvistiske variasjoner i naturlige språk.
Flertydige ordsekvenser fører til en rekke irrelevante
treff. Eksempelvis vil søk på bokstavsekvensen skate,
både gi treff på dokumenter som omhandler haien
skate og dokumenter som beskriver aktiviteter i forbindelse med
skateboard.
Forskjellige betydninger eller konsepter kan beskrives ved hjelp
av en rekke forskjellige uttrykksformer. Så lenge det nøyaktige
konseptet som beskrives i søketermen ikke eksplisitt uttrykkes i et
dokument, vil ikke dette dokumentet bli ansett som relevant av
søkemotoren. De fleste vet for eksempel at menneskets beste
venn er hunden, og at bikkje også omtrent refererer
til samme entitet. En søkemotor har ingen forståelse for at alle
termene beskriver det samme objektet, og vil kun returnere dokumenter
med den nøyaktige ordsekvensen menneskets beste venn dersom man
søker på dette.
Man kan tenke seg at søkemotorer vil kunne forbedres dersom de
nyttiggjør seg av lingvistisk informasjon.
Oppgaven fokuserer for det første fokuseres på
hvordan forfatteren av et internettdokument kan legge lingvistisk
informasjon i dokumentet sitt i form av morfosyntaktiske
tagger. Denne informasjonenen er en beskrivelse av et ords
morfologiske og syntaktiske egenskaper, og omfatter blant annet ordets
ordklassetilhørighet og bøyningsmønster. Disse taggene legges i
dokumentet ved hjelp av et lingvistisk verktøy utviklet av
Tekstlaboratoriet ved Universitetet i Oslo (UiO) og Senter for Humanistisk
Informasjonsteknologi (HIT) ved Universitetet i Bergen (UiB).
Andre del av oppgaven fokuserer på de problematiske tilfellene som oppstår som
følge av datamaskiners mangel på forståelse, og i hvilken grad noen av
disse problemene kan løses ved å bruke den lingvistiske informasjonen
tilgjengelig i dokumentene. I den forbindelse beskrives to
eksperimenter hvor det er gjennomført søk i de
lingvistisk annoterte dokumentene, hvor også søketermen blir markert
med morfosyntaktisk informasjon. Hensikten med det første
eksperimentet er å finne ut i hvilken grad den lingvistiske
informasjonen kan bidra til en entydiggjøring ved søk. Dette
eksperimentet er basert på ideer i en artikkel skrevet for
Tekstlaboratoriet om
flertydighet ved internettsøk. De konkluderer med at svært mange av de
flertydige ordene har korrelasjon mellom betydning og ordklassetilhørighet.
Det andre eksperimentet fokuserer på hvordan den lingvistiske
informasjonen i taggede søketermer kan brukes i søkemotoren til
termutvidning. Vi ser på i hvilken grad morfosyntaktiske trekk og enkle
transformasjonsregler kan oversette substantivfraser til
substantiviske sammensetninger.
Begge eksperimentene forutsetter at søketermene er grammatisk
entydiggjorte, og at det ikke er noen tvil om hvilken betydning man
søker etter.
En flertydig ordsekvens ser i mange tilfeller ut til å kunne skilles
fra identiske ordsekvenser med ulik betydning gjennom grammatiske
egenskaper, med mindre det dreier seg om semantiske flertydigheter.
Entydiggjøringseksperimentene i denne oppgaven synes å gi grunnlag for
en påstand om at morfosyntaktiske trekk kan øke presisjonen ved søk.
Også ved termutvidning ser det ut til at morfosyntaktiske trekk til en
viss grad kan være nyttig. I eksperimentene som ble utført her gav
bruk av frasekonverteringsprogrammet en økning i dekningsgrad.
Morfologiske feilgenerering som for eksempel utelatelse av
fugeelementer (jf. rødvinflaske fra flaske med rødvin)
har ingen negativ effekt, da disse ikke vil finnes i søkemotorens
indeks. Derimot vil semantiske overgenereringer kunne føre til en
lavere presisjon.
Per i dag er det de statistisk baserte metodene som dominerer de
tekniske løsningene for søkemotorer. Disse metodene har muliggjort en stadig
forbedring av søkeresultater, men de hjelper ikke datamaskiner til å
forstå naturlige språk, som er en av datalingvistikkens sentrale
oppgaver. Med en stadig mer sofistikert og detaljert bruk av internett
til søk av informasjon, og de krav dette stiller til søkemotorene, vil
det derfor være nødvendig og fordelaktig å introdusere mer lingvistisk baserte
søkemetoder. Resultatene i denne oppgaven tyder på at utnytting av
morfosyntaktisk annotering som én del av et lingvistisk motivert
grunnlag for utvikling av søkeverktøy, vil kunne bidra i vesentlig
grad til forbedringer i informasjonsgjennfinningsprosesser.