Ogni giorno le grandi organizzazioni si aggiornano con le tecnologie che facilitano e si adattano al meglio ad ogni azienda, affrontando grandi sfide che permettono loro di scoprire e analizzare al di là degli strumenti che vengono utilizzati quotidianamente, è per loro che è stato creato ciò che è noto come Big Data o in spagnolo Massive Data che sono sistemi di archiviazione dati su larga scala.
Questo fenomeno di archiviazione è inquadrato nelle nuove tecnologie dell'informazione e della comunicazione. I Big Data sono ciò che occupa tutte le attività relative ai sistemi che memorizzano un ampio set di dati. Una delle caratteristiche principali è che manipola una grande quantità di informazioni, raccogliendole, classificandole e quindi archiviandole. Lo scopo di questa raccolta è creare rapporti statistici per l'utilizzo da parte delle organizzazioni, sia come analisi di piani aziendali, pubblicità, spionaggio, tra gli altri.
Il margine di archiviazione è cresciuto nel corso degli anni, dal 2008 il livello di archiviazione è stato misurato in petabyte a zettabyte di dati. Gli esperti sono periodicamente alla ricerca di nuove misure di archiviazione perché ci sono alcune aree in cui è necessario archiviare grandi quantità di dati ei programmi esistenti non sono ottimali.
Esistono migliaia di strumenti per creare e gestire i Big Data, tuttavia non tutti sono uguali, esistono tre tipologie di dati, che sono:
- Dati strutturati: sono quelli in cui i dati hanno una struttura molto particolare, come date, numeri, tra gli altri. Un esempio di loro sono i fogli di calcolo.
- Dati non strutturati: di solito si tratta di dati che hanno un formato specifico e non possono essere memorizzati in un foglio di calcolo, tanto meno manipolano le informazioni, un esempio di documenti PDF.
- Dati semi-strutturati: questo tipo di dati non ha un formato particolare, poiché ha i propri metadati semi-strutturati, un esempio di questo sono i codici HTML.