Que sont les Big Data?
Les mégadonnées sont des mesures de données qui ont tellement grossi que les bases de données normales sont incapables de contenir et de travailler avec une quantité énorme d'informations. Les données sont disponibles en trois tailles: petite, moyenne et grande; aucune de ces mesures n'est stricte; chacun dépend plutôt de la facilité d'utilisation et du type de machine capable de gérer les informations. Des machines spéciales, beaucoup plus grandes et complexes que celles utilisées pour les bases de données ordinaires, sont nécessaires pour le Big Data. Ces types de données se trouvent généralement dans les agences gouvernementales et scientifiques, mais de très grands sites Web contiennent également cette grande quantité d'informations.
Les données sont disponibles en trois tailles standard, mais non strictes. Les petites données peuvent tenir sur un seul ordinateur ou une seule machine, telle qu'un ordinateur portable. Les données moyennes peuvent tenir sur une matrice de disques et sont mieux gérées par une base de données. Les bases de données, quelle que soit leur taille, sont incapables de travailler avec des données volumineuses et les systèmes spéciaux sont beaucoup utilisés. Bien qu'il n'y ait pas de directive stricte sur ce que sont les mégadonnées, elles commencent généralement autour du niveau de téraoctet (To) et vont jusqu'au niveau de pétaoctet (PB).
Tenter de manipuler des données volumineuses sur une base de données non spécialisée pour cette quantité de données entraînera plusieurs problèmes importants. La base de données ne peut pas gérer la quantité d'informations. Certaines données doivent donc être effacées. C'est comme si vous essayiez d'installer 100 gigaoctets (Go) sur un ordinateur avec seulement 50 Go d'espace disque. cela ne peut pas être fait. Les données laissées seront difficiles à contrôler et à gérer, car toute fonction prendrait beaucoup de temps et la base de données devait être fermée aux nouvelles soumissions.
Bien qu'il soit possible de continuer à acheter des machines et d'ajouter de nouvelles données aux bases de données, cela crée un problème compliqué. En effet, le logiciel de base de données est conçu pour fonctionner uniquement avec des données de support. Des jeux de données volumineux entraînent des erreurs et des problèmes d’administration, car le logiciel ne peut tout simplement pas se déplacer ou travailler avec des données volumineuses sans rencontrer de problèmes.
La plupart des organisations ou des sites Web ne rencontrent pas de données volumineuses. Les agences militaires et de défense utilisent cette quantité d'informations pour créer des modèles et stocker les résultats des tests. De nombreuses grandes agences scientifiques ont besoin de ces machines spécialisées pour des raisons similaires. Certains sites Web très volumineux ont besoin de grandes machines informatiques, mais ils ne sont pas aussi courants que les agences de ce marché. Ces organisations doivent conserver toutes leurs données, car elles aident à mieux analyser les données futures et à faire des prévisions.