Hide metadata

dc.contributor.authorWellén, Einar Christopher
dc.date.accessioned2015-09-01T22:01:23Z
dc.date.available2015-09-01T22:01:23Z
dc.date.issued2015
dc.identifier.citationWellén, Einar Christopher. KORRELASJON OG IKKE-PARAMETRISKE PROBLEMER. Master thesis, University of Oslo, 2015
dc.identifier.urihttp://hdl.handle.net/10852/45351
dc.description.abstractVi ser på ulike måter å beregne korrelasjon mellom to variable på. Fokus er i stor grad på ordinale og kvantitative data og beregning av korrelasjonsmålene Pearson s r, Kendall s t og Spearman s rang-korrelasjon. Det benyttes ulike teknikker når vi studerer hypotesetesting og beregner konfidensintervaller for populasjonsparameterne: 1) vi kjenner den parametriske fordelingen til korrelasjonsmålet, 2) vi benytter transformasjoner på korrelasjonsmålet herunder asymptotiske tilnærminger, 3) vi benytter permutasjonsfordelinger og asymptotiske tilnærminger og 4) vi utfører parametrisk og ikke-parametrisk bootstrapping. Det er mange fallgruver når man skal interpretere en beregnet korrelasjon mellom to variable X og Y. Først av alt er det viktig å ha klart for seg hva den beregnede korrelasjonen gir uttrykk for og, som vi vil se, gir Pearson's r et uttrykk for den lineære sammenhengen mellom to variable mens f.eks. Kendall's t og Spearman's rang-korrelasjon gir uttrykk for en monoton sammenheng mellom to variable. Dersom vi ønsker å måle hvorvidt det er en lineær, eller monoton sammenheng, mellom to variable X og Y, vil en signifikant korrelasjon ikke bekrefte årsakssammenheng mellom de to variablene. En beregnet signifikant korrelasjon kan fint oppstå ved tilfeldigheter, eller fordi man har oversett en, eller flere andre variable, som påvirker en, eller begge variablene X og Y. Først når man har kontroll på de kausale forbindelser mellom aktuelle variable vil det være mulig å interpretere den beregnede korrelasjonen på en god måte, og derigjennom hindre at korrelasjonen man oppgir i for stor grad er misvisende, eller illusorisk. Forutsatt at vi er bevisst korrelasjonsmålet vi benytter, og kontrollerer aktuelle kausale forbindelser, er det fortsatt stor usikkerhet knyttet til korrelasjoner beregnet på lite data. Inferens, knyttet til korrelasjonskoeffisientene Pearson's r ved trekk fra den bivariate normalfordeling, Kendall's t og Spearman s rang-korrelasjon er, som vi vil se, forbundet med store standardfeil. Det er altså generelt vanskelig å lokalisere populasjonskorrelasjonen veldig nøyaktig med mindre antall observasjoner ligger i intervallet 30-40 eller høyere. I oppgaven her studeres spesifikt datasett med henholdsvis 5 og 6 observasjoner.nor
dc.description.abstractWe are looking at different ways to calculate correlation between to variables. The focus is largely on ordinal and quantitative data and the measures of correlation: Pearson's r, Kendall's t and Spearman's rank-correlation. We use various techniques as we study testing of hypothesis and calculate confidence intervals: 1) we know the parametric distribution of the measure of correlation, 2) we use transformations(Fishertransformation) of the measure of correlation including asymptotic approaches, 3) we use permutation distributions and asymptotic approaches and 4) we use parametric and non-parametric bootstrapping. There are many pitfalls when to interpret a calculated correlation between two variables X and Y. First it is important to be clear on what the calculated correlation measures and, as we will see, Pearson's r measures the linear relationship between two variables while example Kendall's t and Spearman's rank-correlation measures monotonic association between two variables. If we want to measure whether it is a linear or monotonic association between two variables X and Y, a significant correlation do not confirm causality between the two variables. A computed significant correlation may well arise by chance, or because one has overlooked one or more other variables, which affect one or both variables X and Y. Controlling the causal connections between relevant variables is necessarily if you want to interpret computed correlations in a good way, and thereby prevent the correlation to be misleading or illusory. Assuming we are conscious which measure of correlation we use, and monitors current causal relations, there is still great uncertainty to correlations calculated on few observations. Inference, related to Pearson's correlation coefficient r by random generated numbers from the bivariate normal distribution, Kendall's t and Spearman's rank-correlation is, as we will see, associated with large standard errors. It is thus generally difficult to locate population correlations very accurately with less number of observations in the range from 30 to 40 or higher. The thesis here specifically studied datasets with respectively five and six observations.eng
dc.language.isonor
dc.subjectCorrelation
dc.subjectnon
dc.subjectparametric
dc.subjectlinear
dc.subjector
dc.subjectmonotonic
dc.subjectcausality
dc.subjectKendalls
dc.subjectt
dc.subjectPearson
dc.subjects
dc.subjectr
dc.subjectSpearman
dc.subjects
dc.subjectrank
dc.subjectcorrelation
dc.titleKORRELASJON OG IKKE-PARAMETRISKE PROBLEMERnor
dc.titleCORRELATION AND NON-PARAMETRIC PROBLEMSeng
dc.typeMaster thesis
dc.date.updated2015-09-01T22:01:23Z
dc.creator.authorWellén, Einar Christopher
dc.identifier.urnURN:NBN:no-49565
dc.type.documentMasteroppgave
dc.identifier.fulltextFulltext https://www.duo.uio.no/bitstream/handle/10852/45351/1/EinarChristopherWellnMasteroppgave.pdf


Files in this item

Appears in the following Collection

Hide metadata