Wat zijn big data?
Big data zijn metingen van gegevens die zo groot zijn geworden dat normale databases de enorme hoeveelheid informatie niet kunnen bevatten en ermee werken. Gegevens zijn er in drie formaten: klein, medium en groot; geen van deze metingen is strikt; in plaats daarvan hangt elk meer af van gebruiksgemak en welk type machine de informatie aankan. Voor big data zijn speciale machines, veel groter en complexer dan die voor gewone databases, nodig. Dit soort gegevens zijn meestal te vinden bij overheids- en wetenschappelijke instanties, maar sommige zeer grote websites bevatten ook deze grote hoeveelheid informatie.
Gegevens zijn beschikbaar in drie standaardformaten, maar niet strikt. Kleine gegevens passen op één computer of machine, zoals een laptop. Middelgrote gegevens passen op een schijfrij en worden het best beheerd door een database. Databases, hoe groot ook, zijn niet in staat om met big data te werken en speciale systemen kunnen veel worden gebruikt. Hoewel er geen strikte richtlijn is voor wat big data is, begint het meestal rond het terabyte (TB) -niveau en gaat het omhoog naar het petabyte (PB) -niveau.
Proberen te werken met big data in een database die niet gespecialiseerd is voor deze hoeveelheid data, zal verschillende substantiële problemen veroorzaken. De database kan de hoeveelheid informatie niet verwerken, dus sommige gegevens moeten worden gewist. Dit is hetzelfde als proberen 100 gigabytes (GB) op een computer met slechts 50 GB harde schijfruimte te passen; het kan niet worden gedaan. De overgebleven gegevens zijn onhandig om te besturen en te beheren, omdat elke functie lang zou duren om te voltooien en de database moet worden afgesloten voor nieuwe inzendingen.
Hoewel het mogelijk is om machines te blijven kopen en nieuwe gegevens aan de databases toe te voegen, creëert dit het logge probleem. Dit komt omdat databasesoftware alleen is gemaakt om met mediumgegevens te werken. Grotere datasets leiden tot fouten en administratieve problemen, omdat de software eenvoudigweg niet kan verplaatsen of met grote gegevens werken zonder problemen te ondervinden.
Big data wordt door de meeste organisaties of websites niet aangetroffen. Defensie en militaire instanties gebruiken deze hoeveelheid informatie om modellen te maken en testresultaten op te slaan, en veel grote wetenschappelijke instanties hebben deze gespecialiseerde machines om soortgelijke redenen nodig. Sommige zeer grote websites hebben grote datamachines nodig, maar websites zijn niet zo gebruikelijk als bureaus in deze markt. Deze organisaties moeten al hun gegevens bewaren, omdat dit helpt om toekomstige gegevens beter te analyseren en voorspellingen te doen.