Cos’è la deduplica dei dati

Quando parliamo di deduplica dei dati intendiamo una tipologia di compressione che elimina i dati doppi o ridondanti.

Ipotizziamo, per semplificare, che tre operatori della stessa azienda ricevano da più fonti la stessa anagrafica clienti e che debbano salvarla sul database aziendale. Questo comporterà la memorizzazione della stessa anagrafica sul database ripetuta tre volte, in modo ridondante. De-duplicare i dati in questo caso consentirebbe di ottenere un’anagrafica unica.

 

Come funziona la deduplicazione dei dati 

La deduplicazione si avvale di quello che viene definito un motore di deduplicazione. Il suo scopo è identificare, attraverso l’impiego di svariate tecniche avanzate, i file e/o i blocchi di dati duplicati durante le operazioni di salvataggio, tipicamente durante un backup. A seguito di ciò, il sistema effettua una compressione dei dati e memorizza nella posizione di destinazione solo quelli singoli, con conseguenze migliorative in termini di efficienza.

I metodi principali con cui eseguire la deduplica dei dati sono due.


Deduplicazione in linea
 

La deduplica in linea avviene quando i nuovi dati vengono inseriti nel sistema. La compressione dei dati e la verifica della presenza di duplicati avvengono in tempo reale, così come l’eventuale eliminazione. L’unico limite di questa metodologia è la necessità di molta potenza di elaborazione, poiché le operazioni avvengono in tempo reale.


Deduplicazione post-elaborazione
 

Nella deduplica post-elaborazione, i dati vengono inizialmente registrati nel sistema e poi verificati alla ricerca di duplicati. Questo approccio offre maggiore flessibilità perché consente di eseguire la deduplicazione in batch, ma richiede più capacità di storage.


Un esempio pratico di data deduplication
 

Esistono moltissimi ambiti nei quali la deduplicazione dei dati può fare la differenza. Si pensi ad esempio a tutte quelle aziende che gestiscono ampi database di clienti, prospect, transazioni e interazioni (terreno di gioco del CRM). Nel corso del tempo, è piuttosto normale che si accumulino dati duplicati dovuti a inserimenti manuali, errori di input o fusioni di dataset.   

Il caso da manuale, in realtà, è quello dell’e-mail con diversi destinatari della medesima azienda: se lo stesso contenuto (magari con un allegato di grandi dimensioni) venisse memorizzato sul server tante volte quanti sono i destinatari, lo spazio verrebbe occupato inutilmente, e di sicuro non in modo efficiente.   

La deduplicazione evita che lo stesso contenuto venga duplicato più volte e lo sostituisce con dei puntatori verso l’unico contenuto presente sul server. Qualora questo venisse modificato dall’utente, sarebbe allora necessario salvarne una nuova copia.  

 

I vantaggi della deduplica:

Meno errori

Bisogna considerare che la ripetizione dei dati, magari riguardanti informazioni elaborate manualmente, espone continuamente le organizzazioni ad alti rischi d’errore. Procedure di normalizzazione dei dati (orientate all’eliminazione delle ridondanze informative e dell’incoerenza dal database) e deduplica consentono di gestire questa “variabile umana” fino a ridurne completamente l’impatto sulla correttezza e sulla univocità delle informazioni trattate.

 

Più spazio, rapidità e meno costi

Sono innumerevoli i vantaggi offerti dalla deduplica, innanzitutto la possibilità di operare un backup aziendale e ripristino dei dati più veloce e frequente. Questo processo inoltre applica periodicamente operazioni di “garbage collection” (letteralmente “raccolta dei rifiuti”) volte a recuperare porzioni di storage non più utilizzate.

Tutto ciò ovviamente consente di ridurre i costi dello storage, ottimizzando in media fino a 30 volte lo spazio di archiviazione su disco, e conseguentemente di velocizzarne le procedure ed i meccanismi di protezione. Basti pensare che per loro stessa natura i dati di backup e di archiviazione generano un’elevata quantità di dati duplicati. Le stesse informazioni vengono memorizzate in diverse copie, sprecando spazio di storage, energia elettrica per l’alimentazione ed il raffreddamento delle unità di memoria e larghezza di banda per le repliche. Questo genera una serie di inefficienze che possono essere corrette dalle aziende grazie a strumenti di deduplica ed a precise politiche di backup incrementale o differenziale, dove la prima tipologia risulta comunque essere più veloce e meno ingombrante.

 

Deduplica dei dati, virtualizzazione e all-flash storage

Anche se le performance garantite dalla deduplicazione possono variare a seconda dei carichi di lavoro e delle impostazioni prescelte, i vantaggi rimangono indiscutibili. A maggior ragione in considerazione delle opportunità offerte dalla virtualizzazione e dalla tecnologia all-flash storage. Yari Franzini, Storage Country Manager Hewlett Packard Enterprise, ha recentemente dichiarato:

“In ambito storage, l’accento sulla tecnologia flash è sicuramente predominante, perché con essa si porta a casa dei clienti un sistema di archiviazione che rende più efficiente il data center, andando a consolidare i sistemi legacy attraverso infrastrutture che, essendo appunto basate su tecnologia flash, risultano molto più snelle, modulari, ad alte performance, ma anche ad elevata efficienza”.

Efficienze che, tra le altre, includono la deduplica con accelerazione hardware. In questo modo, anche ambienti distribuiti possono eseguire deduplicazioni virtualizzate per ogni ufficio remoto. Nondimeno le organizzazioni piccole e medie possono finalmente beneficiare delle economie ottenibili tramite la deduplicazione e dei vantaggi in termini di disaster recovery, senza dover sostituire i propri sistemi legacy.

 

 


Il tema è di tuo interesse e vorresti saperne di più, per capire come declinare queste tecnologie sul tuo business?

Contattaci → marketing@netmind.it


 

Topic: Data Storage