High precision text extraction from PDF documents

Berg, Øyvind Raddum

Master thesis

View/Open

Berg.pdf (6.511Mb)

Year

2011

Abstract

Oppgaven tar for seg problemet med uthenting av informasjon fra dokumenter lagret i PDF-formatet, noe som er vanskelig på grunn av at informasjonen blir lagret visuelt og uten en god struktur.

I oppgaven blir det sett på bruk og tilpassning av teori hentet fra OCR for å prøve å gjenopprette denne tapte strukturen.

The project looks at the problem of extracting information from documents created in the PDF format, something which is made difficult because the information is stored visually and lacks a computer-readable structure.

The thesis presents how existing theory from OCR is being used and adapted to try to recover this structure.