Abstract
Oppgaven tar for seg problemet med uthenting av informasjon fra dokumenter lagret i PDF-formatet, noe som er vanskelig på grunn av at informasjonen blir lagret visuelt og uten en god struktur.
I oppgaven blir det sett på bruk og tilpassning av teori hentet fra OCR for å prøve å gjenopprette denne tapte strukturen.
The project looks at the problem of extracting information from documents created in the PDF format, something which is made difficult because the information is stored visually and lacks a computer-readable structure.
The thesis presents how existing theory from OCR is being used and adapted to try to recover this structure.