Co jsou velká data?
Velká data jsou měření dat, která rostla tak velká, že normální databáze nejsou schopny obsáhnout a pracovat s obrovským množstvím informací. Data jsou ve třech velikostech: malá, střední a velká; žádné z těchto měření není přísné; místo toho každý závisí více na snadnosti použití a na tom, jaký typ stroje může informace zpracovat. Pro velká data jsou zapotřebí speciální stroje, mnohem větší a složitější než stroje používané pro běžné databáze. Tyto typy údajů se obvykle nacházejí ve vládních a vědeckých agenturách, ale některé velmi velké webové stránky také obsahují toto velké množství informací.
Data přicházejí ve třech standardních, ale ne přísných velikostech. Malá data se vejdou na jeden počítač nebo stroj, například na notebook. Střední data se vejdou na diskové pole a nejlépe je spravuje databáze. Databáze, bez ohledu na to, jak velké, nejsou schopny pracovat s velkými daty a místo toho se hodně používají speciální systémy. I když neexistují žádné přísné pokyny pro to, co jsou velká data, obvykle začíná kolem úrovně terabajtů (TB) a stoupá na úroveň petabajtů (PB).
Pokus o práci s velkými daty v databázi, která není pro toto množství dat specializovaná, způsobí několik zásadních problémů. Databáze nedokáže zpracovat množství informací, takže některá data musí být vymazána. Je to jako snažit se umístit 100 gigabajtů (GB) na počítač s pouze 50 GB místa na pevném disku; to nelze udělat. Zbylá data budou obtížná jak pro kontrolu, tak pro správu, protože dokončení jakékoli funkce by trvalo dlouho a databáze musí být uzavřena pro nová podání.
I když je možné udržovat nákup strojů a přidávání nových dat do databází, vytváří to nepříjemný problém. Důvodem je, že databázový software je vytvořen pouze pro práci se středními daty. Větší soubory dat vedou k chybám a administrativním problémům, protože software se jednoduše nemůže pohybovat nebo pracovat s velkými daty bez problémů.
Většina organizací nebo webových stránek se s velkými daty nesetká. Obranné a vojenské agentury používají toto množství informací k vytváření modelů a ukládání výsledků testů a mnoho velkých vědeckých agentur potřebuje tyto specializované stroje z podobných důvodů. Některé velmi velké weby potřebují velké datové stroje, ale weby na tomto trhu nejsou tak běžné jako agentury. Tyto organizace musí uchovávat všechna svá data, protože to pomáhá lépe analyzovat budoucí data a provádět předpovědi.