Hvad er Big Data?
Big data er målinger af data, der er vokset så store, at normale databaser ikke er i stand til at indeholde og arbejde med den enorme mængde information. Data findes i tre størrelser: små, mellemstore og store; ingen af disse målinger er strenge; i stedet afhænger hver især mere af brugervenligheden og hvilken maskintype der kan håndtere informationen. Specielle maskiner, meget større og komplekse end dem, der bruges til almindelige databaser, er nødvendige til big data. Disse typer data findes typisk hos offentlige og videnskabelige agenturer, men nogle meget store websteder indeholder også denne store mængde information.
Data findes i tre standardformater, men ikke strenge, størrelser. Små data er i stand til at passe på en enkelt computer eller maskine, f.eks. En bærbar computer. Mellemdata er i stand til at passe på en diskarray og administreres bedst af en database. Databaser, uanset hvor store, er ude af stand til at arbejde med big data, og specielle systemer bruges meget i stedet. Selvom der ikke er nogen streng retningslinje for, hvad big data er, starter de typisk omkring terabyte (TB) niveauet og går op til petabyte (PB) niveauet.
Forsøg på at arbejde med big data i en database, der ikke er specialiseret til denne datamængde, vil medføre flere væsentlige problemer. Databasen kan ikke håndtere mængden af information, så nogle data skal slettes. Dette er som at forsøge at få plads til 100 gigabyte (GB) på en computer med kun 50 GB harddiskplads; det kan ikke lade sig gøre. De data, der er tilbage, er uhåndterlige for både kontrol og styring, fordi enhver funktion vil tage lang tid at udføre, og databasen skal lukkes for nye indsendelser.
Selvom det er muligt at fortsætte med at købe maskiner og tilføje nye data til databaserne, skaber dette det uhåndterlige problem. Dette skyldes, at databasesoftware kun er lavet til at arbejde med mellemstore data. Større datasæt fører til fejl og administrative problemer, fordi softwaren simpelthen ikke kan flytte eller arbejde med store data uden at støde på problemer.
Big data mødes ikke af de fleste organisationer eller websteder. Forsvars- og militærbureauer bruger denne mængde information til at oprette modeller og gemme testresultater, og mange store videnskabelige agenturer har brug for disse specialiserede maskiner af lignende grunde. Nogle meget store websteder har brug for store datamaskiner, men websteder er ikke så almindelige som agenturer på dette marked. Disse organisationer er nødt til at opbevare alle deres data, fordi det hjælper til bedre at analysere fremtidige data og komme med forudsigelser.