Hvad er statistisk klassificering?
Statistisk klassificering er inddelingen af data i meningsfulde kategorier til analyse. Det er muligt at anvende statistiske formler på data for at gøre dette automatisk, hvilket muliggør databehandling i stor skala som forberedelse til analyse. Nogle standardiserede systemer findes for almindelige datatyper som resultater fra medicinske billeddannelsesundersøgelser. Dette gør det muligt for flere enheder at evaluere data med de samme målinger, så de nemt kan sammenligne og udveksle oplysninger.
Når forskere og andre parter indsamler data, kan de tildele dem til løse kategorier på grundlag af lignende egenskaber. De kan også udvikle formler til klassificering af deres data, som de kommer ind, automatisk fordelt dem i specifikke statistiske klassifikationer. Når de indsamler oplysninger, ved forskerne muligvis ikke meget om deres data, hvilket gør det vanskeligt at klassificere. Formler kan identificere vigtige funktioner, der skal bruges som potentielle kategori-identifikatorer.
Behandling af data kræver statistisk klassificering for at adskille forskellige slags oplysninger til analyse og sammenligning. I en folketælling skal for eksempel arbejdstagere være i stand til at udforske flere parametre for at give en meningsfuld vurdering af de data, de indsamler. Ved hjælp af erklæringer om folketællingsformularer kan en statistisk klassificeringsalgoritme adskille forskellige typer husholdninger og enkeltpersoner på grundlag af information som alder, husstandskonfiguration, gennemsnitlig indkomst osv.
De indsamlede data skal være kvantitative for at statistisk analyse kan fungere. Kvalitativ information kan være for subjektiv. Som et resultat er forskere nødt til at designe metoderne til dataindsamling omhyggeligt for at få information, de faktisk kan bruge. I et klinisk forsøg kunne for eksempel observatører, der udfylder formularer under opfølgningsundersøgelser, bruge en scoringsrubrik til at vurdere patientsundheden. I stedet for en kvalitativ vurdering som ”patienten ser godt ud” kunne forskeren tildele en score på syv på en skala, som en formel kan bruge til at behandle dataene.
Statistikere bruger forskellige teknikker til statistisk klassificering og udvikling af passende formler til behandling af deres data. Fejl i dette stadie af dataanalyse kan blandes sammen med senere forskning og analyse. Det er vigtigt at overveje arten af datasættet, de oplysninger folk ønsker at trække ud af det, og hvordan materialet vil blive brugt. I formelle papirer er forskere nødt til at diskutere det statistiske klassificeringssystem, de valgte at bruge, og mange leverer også rå data for at give korrekturlæsere mulighed for at se på oplysningerne for sig selv for at bestemme gyldigheden af de konklusioner, der er opnået i undersøgelsen.