Abstract
Nylig progresjon innen sekvenseringsteknologier muliggjør
framskaffelse av høy-oppløselig genomisk data. Komparativ analyse av
nevnte data er en kilde til videre innsikt i genetiske mekanismer, men
feltet er lite utforsket. Prototype-programmer krever fleksible og
skalerbare løsninger siden spesifikasjoner og målsetninger er ventet å
forandre seg over tid. Vektorprogrammering har gode abstraksjoner for
operasjoner på store datasett og den resulterende kjøretiden er ofte
utmerket. Ingen publiserte forsøk vi kjenner til prøver å evaluere
anvendbarheten til vektorprogrammering for å løse problemer som ikke
er strengt numeriske av natur.
Vi presenterer to metoder for komparativ analyse som vi har kalt
projisering og kvantitative sammenligninger. Vi har videre utviklet en
rekke vektorprogrammingsalgoritmer for operasjoner på
annotasjoner. Alle algoritmer er implementert som en del av et
rammeverk for komparativ analyse av annotasjoner.
Begge metoder for komparativ analyse av annotasjoner har lovende
egenskaper, men videre arbeid med verifisering og tolkning av
resultater i en biologisk sammenheng kreves. Det har blitt vist at
vektorprogrammering kan brukes til å løse et stort spekter av
problemer, men en alvorlig innskrenkning er at modellen av
problemområdet må passe perfekt med det begrensede utvalget av mulige
operasjoner i vektorprogrammering.
Recent progressions in highly specific sequencing technologies
generates high-resolution genomic data. Comparative
analysis of these data is a
source of further insight into genomic mechanisms, but the domain
remains largely unexplored.
Prototypical programs require flexible and scalable solutions as
the requirements are expected to change.
Array programming has good abstractions for operations on large
data sets and the resulting performance is often excellent. No
published efforts have, as far as we know, previously been made
to assess the suitability of array programming to non-numerical
problems.
We present two methods for comparative annotation analysis
called projection and quantitative
comparison.
We have furthermore developed a range of array
programming algorithms for numerous annotation track operations. All
algorithms are implemented as part of a framework for comparative
annotation analysis.
Both methods for comparative analysis have promising
properties, but further work on verification and analysis of the
biological interpretation is needed.
Array programming have been proved applicable to a wide
range of problems. A serious limitation with array programming is
that the model of a problem domain must fit perfectly with the
restricted set of available operations.