Wat is statistische classificatie?
Statistische classificatie is de verdeling van gegevens in zinvolle categorieën voor analyse. Het is mogelijk om statistische formules op gegevens toe te passen om dit automatisch te doen, waardoor grootschalige gegevensverwerking ter voorbereiding op analyse mogelijk is. Sommige gestandaardiseerde systemen bestaan voor veel voorkomende soorten gegevens, zoals resultaten van onderzoeken naar medische beeldvorming. Hierdoor kunnen meerdere entiteiten gegevens evalueren met dezelfde statistieken, zodat ze gemakkelijk gegevens kunnen vergelijken en uitwisselen.
Naarmate onderzoekers en andere partijen gegevens verzamelen, kunnen ze deze op basis van vergelijkbare kenmerken aan losse categorieën toewijzen. Ze kunnen ook formules ontwikkelen om hun gegevens te classificeren wanneer deze binnenkomen, en deze automatisch op te splitsen in specifieke statistische classificaties. Terwijl ze informatie verzamelen, weten onderzoekers misschien niet veel over hun gegevens, waardoor het moeilijk is om ze te classificeren. Formules kunnen belangrijke functies identificeren die kunnen worden gebruikt als potentiële categorie-ID's.
Het verwerken van gegevens vereist statistische classificatie om verschillende soorten informatie te scheiden voor analyse en vergelijking. In een volkstelling moeten werknemers bijvoorbeeld in staat zijn om meerdere parameters te verkennen om een zinvolle beoordeling te geven van de gegevens die ze verzamelen. Met behulp van verklaringen op censusformulieren kan een statistisch classificatiealgoritme verschillende soorten huishoudens en individuen scheiden op basis van informatie zoals leeftijd, huishoudensconfiguratie, gemiddeld inkomen, enzovoort.
De verzamelde gegevens moeten kwantitatief van aard zijn om statistische analyse te laten werken. Kwalitatieve informatie kan te subjectief zijn. Daarom moeten onderzoekers zorgvuldig methoden voor gegevensverzameling ontwerpen om informatie te krijgen die ze daadwerkelijk kunnen gebruiken. In een klinische proef kunnen waarnemers die formulieren invullen tijdens vervolgonderzoeken bijvoorbeeld een scoretruc gebruiken om de gezondheid van de patiënt te beoordelen. In plaats van een kwalitatieve beoordeling als 'de patiënt ziet er goed uit', zou de onderzoeker een score van zeven op een schaal kunnen toekennen, waarmee een formule de gegevens kan verwerken.
Statistici gebruiken verschillende technieken voor statistische classificatie en de ontwikkeling van geschikte formules om hun gegevens te verwerken. Fouten in deze fase van data-analyse kunnen worden verergerd door later onderzoek en analyse. Het is belangrijk om na te denken over de aard van de gegevensset, de informatie die mensen eruit willen halen en hoe het materiaal zal worden gebruikt. In formele papers moeten onderzoekers het statistische classificatiesysteem bespreken dat ze hebben gekozen en velen verstrekken ook onbewerkte gegevens zodat recensenten zelf de informatie kunnen bekijken om de geldigheid van de conclusies in het onderzoek te bepalen.