Cosa sono i Big Data?
I big data sono misurazioni di dati che sono diventati così grandi che i normali database non sono in grado di contenere e lavorare con l'enorme quantità di informazioni. I dati sono disponibili in tre dimensioni: piccola, media e grande; nessuna di queste misurazioni è rigorosa; invece, ciascuno dipende più dalla facilità d'uso e dal tipo di macchina in grado di gestire le informazioni. Macchine speciali, molto più grandi e complesse di quelle utilizzate per i normali database, sono necessarie per i big data. Questi tipi di dati si trovano in genere nelle agenzie governative e scientifiche, ma alcuni siti Web molto grandi contengono anche questa grande quantità di informazioni.
I dati sono disponibili in tre dimensioni standard, ma non rigorose. Piccoli dati sono in grado di adattarsi a un singolo computer o macchina, come un laptop. I dati medi sono in grado di adattarsi a un array di dischi e sono gestiti al meglio da un database. I database, non importa quanto siano grandi, non sono in grado di lavorare con i big data e si usano invece sistemi speciali. Sebbene non vi siano linee guida rigorose per i big data, in genere inizia a livello di terabyte (TB) e sale a livello di petabyte (PB).
Il tentativo di lavorare con big data su un database non specializzato per questa quantità di dati causerà diversi problemi sostanziali. Il database non è in grado di gestire la quantità di informazioni, quindi alcuni dati devono essere cancellati. È come cercare di adattare 100 gigabyte (GB) su un computer con solo 50 GB di spazio sul disco rigido; non si può fare. I dati lasciati saranno ingombranti sia per il controllo che per la gestione, poiché il completamento di qualsiasi funzione richiederebbe molto tempo e il database deve essere chiuso a nuovi invii.
Mentre è possibile continuare ad acquistare macchine e aggiungere nuovi dati ai database, questo crea il problema ingombrante. Questo perché il software di database funziona solo con dati di medie dimensioni. Set di dati più grandi portano a errori e problemi amministrativi, perché il software non può semplicemente spostarsi o funzionare con dati di grandi dimensioni senza riscontrare problemi.
I big data non vengono rilevati dalla maggior parte delle organizzazioni o dei siti Web. Le agenzie militari e di difesa usano questa quantità di informazioni per creare modelli e archiviare i risultati dei test e molte grandi agenzie scientifiche hanno bisogno di queste macchine specializzate per ragioni simili. Alcuni siti Web di dimensioni molto grandi richiedono macchine dati di grandi dimensioni, ma i siti Web non sono così comuni come le agenzie in questo mercato. Queste organizzazioni devono conservare tutti i loro dati, perché aiutano ad analizzare meglio i dati futuri e fare previsioni.