Büyük veri, normal veritabanlarının büyük miktarda bilgi içerememesi ve bunlarla çalışamaması için o kadar büyük olan verilerin ölçümleridir. Veriler üç boyutta gelir: küçük, orta ve büyük; bu ölçümlerin hiçbiri katı değildir; bunun yerine, her biri kullanım kolaylığına ve bilgileri ne tür bir makineyle işleyebileceğine daha fazla bağlıdır. Büyük veri için, sıradan veritabanlarında kullanılanlardan daha büyük ve karmaşık özel makinelere ihtiyaç vardır. Bu tür veriler genellikle devlet kurumlarında ve bilimsel kurumlarda bulunur, ancak bazı çok büyük web siteleri de bu büyük miktarda bilgiyi içerir.
Veriler üç standart olarak gelir, ancak katı değildir. Küçük veriler, dizüstü bilgisayar gibi tek bir bilgisayara veya makineye sığabilir. Orta veri bir disk dizisine sığabilir ve en iyi şekilde bir veritabanı tarafından yönetilebilir. Veritabanları, büyüklüğü ne olursa olsun büyük verilerle çalışamazlar ve bunun yerine özel sistemler kullanılır. Büyük verilerin ne olduğuna dair kesin bir kılavuz bulunmamakla birlikte, genellikle terabayt (TB) düzeyinde başlar ve petabayt (PB) seviyesine çıkar.
Bu miktarda veri için uzman olmayan bir veritabanında büyük verilerle çalışılmaya çalışılması önemli problemlere neden olacaktır. Veri tabanı bilgi miktarını idare edemiyor, bu nedenle bazı verilerin silinmesi gerekiyor. Bu, yalnızca 50 GB sabit disk alanına sahip bir bilgisayara 100 gigabayt (GB) sığdırmaya çalışmak gibidir; yapılamaz. Kalan veri hem kontrol hem de yönetim için hantal olacaktır, çünkü herhangi bir fonksiyonun tamamlanması uzun zaman alacaktır ve veri tabanı yeni gönderilere kapatılmalıdır.
Makineleri satın almak ve veritabanlarına yeni veriler eklemek mümkün olsa da, bu hantal sorun yaratır. Bunun nedeni, veritabanı yazılımının yalnızca orta dereceli verilerle çalışmak üzere yapılmış olmasıdır. Daha büyük veri kümeleri hatalara ve yönetimsel sorunlara neden olur, çünkü yazılım sorunla karşılaşmadan büyük verilerle taşınamaz veya çalışamaz.
Büyük veriler çoğu kurum veya web sitesinde bulunmaz. Savunma ve askeri kurumlar bu miktarda bilgiyi modeller oluşturmak ve test sonuçlarını saklamak için kullanmaktadırlar ve birçok büyük bilim kurumunun da benzer nedenlerle bu özel makinelere ihtiyacı vardır. Bazı çok büyük web sitelerinin büyük veri makinelerine ihtiyacı vardır, ancak web siteleri bu pazardaki ajanslar kadar yaygın değildir. Bu kuruluşların tüm verilerini tutmaları gerekir, çünkü gelecekteki verileri daha iyi analiz etmeye ve tahminlerde bulunmaya yardımcı olur.


