Skip to main content

¿Qué son los Big Data?

Big data son mediciones de datos que han crecido tanto que las bases de datos normales no pueden contener y trabajar con la gran cantidad de información. Los datos vienen en tres tamaños: pequeño, mediano y grande; ninguna de estas medidas es estricta; en cambio, cada uno depende más de la facilidad de uso y de qué tipo de máquina puede manejar la información. Se necesitan máquinas especiales, mucho más grandes y complejas que las utilizadas para bases de datos comunes, para grandes datos. Estos tipos de datos generalmente se encuentran en agencias gubernamentales y científicas, pero algunos sitios web muy grandes también contienen esta gran cantidad de información.

Los datos vienen en tres tamaños estándar, pero no estrictos. Los datos pequeños pueden caber en una sola computadora o máquina, como una computadora portátil. Los datos medianos pueden caber en una matriz de discos y son mejor administrados por una base de datos. Las bases de datos, por grandes que sean, son incapaces de trabajar con grandes datos, y en su lugar se deben utilizar sistemas especiales. Si bien no existe una directriz estricta sobre lo que son los grandes datos, generalmente comienza alrededor del nivel de terabyte (TB) y sube al nivel de petabyte (PB).

Intentar trabajar con grandes datos en una base de datos que no esté especializada para esta cantidad de datos causará varios problemas sustanciales. La base de datos no puede manejar la cantidad de información, por lo que algunos datos deben borrarse. Esto es como tratar de ajustar 100 gigabytes (GB) en una computadora con solo 50 GB de espacio en el disco duro; No se puede hacer. Los datos restantes serán difíciles de controlar y gestionar, ya que cualquier función tardaría mucho tiempo en completarse y la base de datos debe cerrarse para nuevos envíos.

Si bien es posible seguir comprando máquinas y agregar nuevos datos a las bases de datos, esto crea un problema difícil de manejar. Esto se debe a que el software de base de datos solo está hecho para trabajar con datos medios. Los conjuntos de datos más grandes conducen a errores y problemas administrativos, porque el software simplemente no puede moverse o trabajar con datos grandes sin encontrar problemas.

Big data no se encuentra en la mayoría de las organizaciones o sitios web. Las agencias militares y de defensa utilizan esta cantidad de información para crear modelos y almacenar resultados de pruebas, y muchas agencias científicas grandes necesitan estas máquinas especializadas por razones similares. Algunos sitios web muy grandes necesitan grandes máquinas de datos, pero los sitios web no son tan comunes como las agencias en este mercado. Estas organizaciones necesitan conservar todos sus datos, ya que ayuda a analizar mejor los datos futuros y hacer predicciones.