CHIUDI

Area Riservata



CHIUDI

Richiesta Informazioni










Knowledge Tank

 

'From Noise to Knowledge': dal rumore dell'informazione eccessiva e superficiale al valore della conoscenza. Gli approcci statistici e deterministici al servizio dell'impresa.

Big Data

Si parla di Big Data quando si ha un dataset talmente grande da richiedere strumenti non convenzionali per estrapolare, gestire e processare informazioni entro un tempo ragionevole. Non esiste una dimensione di riferimento, ma questa cambia sempre, poiché le macchine sono sempre più veloci e i dataset sono sempre più grandi. Secondo uno studio del 2001, l'analista Doug Laney aveva definito il modello di crescita come tridimensionale (modello delle "3V"): con il passare del tempo aumentano volume (dei dati), velocità e varietà (dei dati). In molti casi questo modello è ancora valido, nonostante nel 2012 il modello sia stato esteso ad una quarta variabile, la veridicità. Vediamo queste caratteristiche nel dettaglio.

Caratteristiche

Le caratteristiche principali dei Big Data, si possono riassumere nelle seguenti definizioni:

  • volume: rappresenta la dimensione effettiva del dataset; l'ampio volume di dati che è possibile raccogliere oggi potrebbe apparentemente rappresentare un problema. In realtà quello del volume dei Big Data è un falso problema, in quanto cloud e virtualizzazione aiutano nella gestione del grosso volume di dati disponibili, semplificando i processi di raccolta, immagazinamento e accesso ai dati.
  • velocità: si riferisce alla velocità di generazione dei dati; si tende all'effettuare analisi dei dati in tempo reale o quasi;
  • varietà: riferita alle varie tipologie di dati, provenienti da fonti diverse (strutturate e non);

Il modello iniziale si fermava qui. Col tempo il modello si è esteso, andando ad aggiungere le seguenti caratteristiche:

  • variabilità: questa caratteristica può essere un problema; si riferisce alla possibilità di inconsistenza dei dati;
  • complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire; il compito più difficile è collegare le informazioni, ed ottenerne di interessanti.

Inoltre, alcune organizzazioni utilizzano una quarta V per indicare la "veridicità" dei dati, ossia la qualità dei dati intesa come il valore informativo che si riesce ad estrarre