Co to są duże zbiory danych?
Duże dane to pomiary danych, które stały się tak duże, że normalne bazy danych nie są w stanie pomieścić i pracować z ogromną ilością informacji. Dane są w trzech rozmiarach: małym, średnim i dużym; żaden z tych pomiarów nie jest ścisły; zamiast tego każda z nich zależy bardziej od łatwości użytkowania i od tego, jaki typ maszyny może obsłużyć informacje. Do dużych zbiorów danych potrzebne są specjalne maszyny, znacznie większe i bardziej złożone niż te używane w zwykłych bazach danych. Tego rodzaju dane zwykle znajdują się w agencjach rządowych i naukowych, ale niektóre bardzo duże strony internetowe również zawierają tak dużą ilość informacji.
Dane są w trzech standardowych, ale nie ścisłych rozmiarach. Małe dane mogą zmieścić się na jednym komputerze lub maszynie, takiej jak laptop. Średnie dane są w stanie zmieścić się w macierzy dyskowej i najlepiej nimi zarządzać przez bazę danych. Bazy danych, bez względu na to, jak duże, nie są zdolne do pracy z dużymi zbiorami danych, a zamiast tego można użyć specjalnych systemów. Chociaż nie ma ścisłych wytycznych dotyczących tego, czym są duże zbiory danych, zwykle zaczyna się od poziomu terabajta (TB) i idzie do poziomu petabajta (PB).
Próba pracy z dużymi danymi w bazie danych, która nie jest wyspecjalizowana dla tej ilości danych, spowoduje kilka poważnych problemów. Baza danych nie jest w stanie obsłużyć ilości informacji, dlatego niektóre dane muszą zostać usunięte. To jest jak próba zmieszczenia 100 gigabajtów (GB) na komputerze z zaledwie 50 GB miejsca na dysku twardym; nie da się tego zrobić. Pozostawione dane będą niewygodne zarówno do kontrolowania, jak i zarządzania, ponieważ wykonanie dowolnej funkcji zajmie dużo czasu, a baza danych musi zostać zamknięta dla nowych zgłoszeń.
Chociaż można nadal kupować maszyny i dodawać nowe dane do baz danych, stwarza to nieporęczny problem. Wynika to z faktu, że oprogramowanie bazy danych jest przystosowane do pracy tylko z danymi średnimi. Większe zestawy danych prowadzą do błędów i problemów administracyjnych, ponieważ oprogramowanie po prostu nie może przenosić lub pracować z dużymi danymi bez problemów.
Większość organizacji lub stron internetowych nie napotyka dużych zbiorów danych. Agencje obrony i wojska wykorzystują tę ilość informacji do tworzenia modeli i przechowywania wyników testów, a wiele dużych agencji naukowych potrzebuje tych specjalistycznych maszyn z podobnych powodów. Niektóre bardzo duże witryny wymagają dużych maszyn do przetwarzania danych, ale witryny nie są tak popularne jak agencje na tym rynku. Organizacje te muszą przechowywać wszystkie swoje dane, ponieważ pomaga to lepiej analizować przyszłe dane i dokonywać prognoz.