Hvad er skæv distribution?
En skæv fordeling refererer til en sandsynlighedsfordeling, der er ujævn og asymmetrisk. I modsætning til en almindelig normalfordeling, der ligner en klokkekurve i form, forskydes skæve fordelinger til den ene side med en længere hale på den ene side i forhold til den anden side af medianen. Den anden side af kurven vil have en samlet højde af værdier, hvor størstedelen af datapunkter forekommer. Denne type distributionskurve klassificeres normalt som at have enten et positivt skævt eller negativt skæv afhængigt af retningen på kurvens skift.
Generelt siges en skæv fordeling at have positiv skævhed, hvis kurvens hale er længere på højre side sammenlignet med venstre side. Denne skæve fordeling kaldes også skæv til højre, fordi højre side har den bredere udvidelse af datapunkter. Positive skevekurver besidder det største antal værdier mod venstre side af kurven.
I modsætning hertil har negativt skæve fordelinger de fleste datapunkter på højre side af kurven. Disse kurver har længere haler på venstre side, så det siges, at de er skæve til venstre. En vigtig regel i bestemmelsen af skævretningen er at overveje længden af halen frem for placeringen af middelværdien eller medianen. Dette skyldes, at skævningen i sidste ende er forårsaget af de fjerneste afgrænsningsværdier, der strækker kurven ud mod den side af grafen.
At forstå egenskaberne ved en skæv distribution er vigtig i mange statistiske applikationer. Mange mennesker antager, at data følger en klokkekurve eller normal distribution, så de antager også, at en graf har nul skævhed. Disse antagelser kan imidlertid føre til, at de fortolker information om den faktiske distribution.
En skæv fordeling er i sagens natur uensartet, så den vil ikke følge standard normale mønstre såsom standardafvigelse. Normale fordelinger involverer en standardafvigelse, der gælder for begge sider af kurven, men skæve fordelinger har forskellige standardafvigelsesværdier for hver side af kurven. Dette skyldes, at de to sider ikke er spejlbilleder af hinanden, så ligningerne, der beskriver den ene side, ikke kan anvendes på den anden. Standardafvigelsesværdien er generelt større for siden med den længere hale, fordi der er en bredere spredning af data på den side sammenlignet med den kortere hale.