On high-dimensional principal component analysis in genomics: consistency and robustness

dc.date.accessioned	2024-04-10T09:17:22Z
dc.date.available	2024-04-10T09:17:22Z
dc.date.issued	2015
dc.identifier.isbn	9788282649513
dc.identifier.uri	http://hdl.handle.net/10852/110537
dc.description.abstract	Statistiker og sivilingeniør (MSc) Kristoffer H. Hellton har utvidet forståelsen av prinsipalkomponent-analyse (PCA), en sentral metode for å analysere høy-dimensjonale genetiske data. Arbeidet kan blant annet bidra til å forklare den paradoksale situasjonen hvor metoden har dårlige teoretiske egenskaper, men likevel fungerer svært godt i praksis. I tillegg presenteres det i avhandlingen en ny metode som integrerer flere ulike genetisk datatyper for å identifisere subgrupper av pasienter, slik at sykdomsbehandling i større grad kan tilpasses enkeltindividet. PCA brukes til å redusere dimensjonen av store datamengder. Dette gjøres ved å konstruere et sett med et fåtall såkalte scorer pr. observasjon, hvor disse beholder mest mulig av variasjonen i de originale dataene. Derfor er teknikken sentral i analyser av genetisk data, som f. eks. gen-uttrykk, der flere titusener av variabler måles samtidig. Hellton har vist at selv om metoden ikke kan forventes å gi helt korrekte estimater av scorene når antallet variabler er større enn antallet observasjoner (som er vanlig i genetiske data), vil visualiseringer basert på scorene kunne gi et svært godt bilde av den sanne strukturen i observasjonene. Dette gjør PCA godt egnet til å identifisere subgrupper av pasienter, også basert på flere høy-dimensjonale genetiske datatyper. I avhandlingen presenteres en utvidelse av metoden der både subgrupper felles for alle datatypene og subgrupper spesifikke for hver enkelt datatype kan identifiseres samtidig. Siden genetiske variabler er grunnleggende vanskelig å måle nøyaktig, har doktoranden også utforsket og kvantifisert effekten av teknisk målefeil på de ulike bestanddelene i PCA.	en_US
dc.language.iso	en	en_US
dc.relation.haspart	Paper I. Hellton, K. H. and Thoresen, M. (2014). Asymptotic distribution of principal component scores connected to pervasive, high-dimensional eigenvectors. Preprint i arXiv (DOI: 10.48550/arXiv.1401.2781). Published as: Hellton, K. H. & Thoresen, M. (2017). When and why are principal component scores a good tool for visualizing high-dimensional data? Scandinavian Journal of Statistics. 44, 581-597. DOI: 10.1111/sjos.12264. The paper is included in the thesis. Also available at: https://doi.org/10.1111/sjos.12264
dc.relation.haspart	Paper II. Hellton, K. H. and Thoresen, M. (2014). The Impact of Measurement Error on Principal Component Analysis. Scandinavian Journal of Statistics, 41(4). DOI: 10.1111/sjos.12083. The article is included in the thesis. Also available at: https://doi.org/10.1111/sjos.12083
dc.relation.haspart	Paper III. Hellton, K. H. and Thoresen, M. (2016). Integrative clustering of highdimensional data with joint and individual clusters, with an application to the Metabric study. Biostatistics, 17(3). DOI: 10.1093/biostatistics/kxw005. The paper is included in the thesis. Also available at: https://doi.org/10.1093/biostatistics/kxw005
dc.relation.uri	https://doi.org/10.1111/sjos.12264
dc.relation.uri	https://doi.org/10.1111/sjos.12083
dc.relation.uri	https://doi.org/10.1093/biostatistics/kxw005
dc.title	On high-dimensional principal component analysis in genomics: consistency and robustness	en_US
dc.type	Doctoral thesis	en_US
dc.creator.author	Hellton, Kristoffer Herland
dc.type.document	Doktoravhandling	en_US

Files in this item

Name:: PhD-Hellton-2015.pdf
Size:: 2.106Mb
Format:: application/

View/Open

Appears in the following Collection

Institutt for medisinske basalfag [2828]

Hide metadata

On high-dimensional principal component analysis in genomics: consistency and robustness

Files in this item

Appears in the following Collection

Browse

For library staff

RSS Feeds