O que são Big Data?
Big data são medições de dados que cresceram tanto que os bancos de dados normais são incapazes de conter e trabalhar com a enorme quantidade de informações. Os dados são fornecidos em três tamanhos: pequeno, médio e grande; nenhuma dessas medidas é rigorosa; em vez disso, cada um depende mais da facilidade de uso e de que tipo de máquina pode lidar com as informações. Máquinas especiais, muito maiores e complexas do que aquelas usadas em bancos de dados comuns, são necessárias para o big data. Esses tipos de dados geralmente são encontrados em agências governamentais e científicas, mas alguns sites muito grandes também contêm essa grande quantidade de informações.
Os dados são fornecidos em três tamanhos padrão, mas não estritos. Os dados pequenos podem caber em um único computador ou máquina, como um laptop. Dados médios podem caber em uma matriz de disco e são melhor gerenciados por um banco de dados. Os bancos de dados, não importa quão grandes, são incapazes de trabalhar com big data, e sistemas especiais devem ser usados em seu lugar. Embora não exista uma diretriz estrita sobre o que são big data, ele normalmente começa no nível de terabyte (TB) e sobe para o nível de petabyte (PB).
Tentar trabalhar com grandes dados em um banco de dados não especializado para essa quantidade de dados causará vários problemas substanciais. O banco de dados não é capaz de lidar com a quantidade de informações, portanto, alguns dados devem ser apagados. É como tentar ajustar 100 gigabytes (GB) em um computador com apenas 50 GB de espaço no disco rígido; isso não pode ser feito. Os dados restantes serão difíceis de controlar e gerenciar, porque qualquer função levaria muito tempo para ser concluída e o banco de dados deve ser fechado para novos envios.
Embora seja possível continuar comprando máquinas e adicionando novos dados aos bancos de dados, isso cria um problema pesado. Isso ocorre porque o software de banco de dados é feito apenas para trabalhar com dados médios. Conjuntos de dados maiores levam a erros e problemas administrativos, porque o software simplesmente não pode mover ou trabalhar com grandes dados sem encontrar problemas.
O big data não é encontrado pela maioria das organizações ou sites. As agências militares e de defesa usam essa quantidade de informações para criar modelos e armazenar resultados de testes, e muitas grandes agências científicas precisam dessas máquinas especializadas por razões semelhantes. Alguns sites muito grandes precisam de grandes máquinas de dados, mas os sites não são tão comuns quanto as agências desse mercado. Essas organizações precisam manter todos os seus dados, porque ajuda a analisar melhor os dados futuros e fazer previsões.