Data classification perché è cruciale nell'era dell'AI

Oggi, la quantità di dati prodotti da ogni tipo di realtà, dalle aziende alle istituzioni, ha importanti implicazioni, che vanno molto al di là della mera gestione tecnica. Siamo di fronte a un cambiamento epocale che, per rubare un adagio popolare, nessuno ha visto arrivare. Questo fenomeno ha spinto le istituzioni a intraprendere un processo di regolamentazione che coinvolge, inevitabilmente, anche i sistemi di intelligenza artificiale (AI), i quali, come è noto, necessitano di grandi quantità di dati per l'addestramento. È proprio in questo contesto che la data classification diventa fondamentale, poiché permette di affrontare in modo strutturato la gestione di questi dati.

 

Sommario

Data classification: definizione e scopi

I principi di base della data classification

La data classification come strumento di compliance

Data classification e intelligenza artificiale, perché è importante

Intelligenza artificiale: la cybersecurity passa dai dati

La data classification è uno strumento di sicurezza ed efficienza

 

Data classification: definizione e scopi

La data classification è il processo di organizzazione e gestione degli asset informativi in gruppi rilevanti, classi appunto, sulla base di caratteristiche condivise, come il livello di sensibilità, il rischio associato, la necessità di protezione in funzione di diverse norme e regolamenti. Parte della più ampia disciplina della Data Governance, la classificazione permette di trattare i dati secondo modalità adeguate ai diversi livelli di sicurezza richiesti. Si tratta quindi di una metodologia che rende più agile ed efficace l’accesso alle informazioni, la loro protezione e il rispetto degli adempimenti normativi.

 

Data classification_01

Tuttavia, la classificazione dei dati ha importanti ricadute operative: per esempio, applicare il massimo livello di sicurezza a tutti i dati aziendali può, paradossalmente, limitarne l'accesso e l'utilizzo, ostacolando così la valorizzazione delle informazioni. Ecco perché la data classification diventa sempre più parte integrante delle strategie di Data Governance: si tratta dell’unico modo per costruire un set di criteri di Data Loss Prevention, DLP, che combinino efficacia e flessibilità. Questo vale anche per l'addestramento dei modelli di intelligenza artificiale aziendali, che richiedono l'uso di dati in modo flessibile e immediato.

D’altro canto, la data classification offre un vantaggio cruciale: stabilisce regole precise per l'accesso e l'utilizzo dei dati. Ciò permette di applicare politiche di fruizione differenziate all'interno degli strumenti aziendali che gestiscono i dati, sia direttamente che indirettamente. Il caso più semplice è quello degli assistenti virtuali che, grazie a questa disciplina, possono fornire a ciascun operatore risposte e dati in base ai suoi ruoli, permessi e privilegi, senza rischio di permeabilità impreviste e non governabili.

 

I principi di base della data classification

Sebbene la data classification sia una disciplina complessa e articolata, possiamo riassumerla in alcune linee guida essenziali che ne facilitino la comprensione. Ai minimi termini, si tratta di conoscere i propri dati, in termini di origine, posizione, livello di rischio e così via. Ecco alcune delle informazioni indispensabili:

  • Tipi di dati: quali categorie di dati l'azienda utilizza e come vengono classificati.

  • Posizione dei dati: dove si trovano fisicamente o virtualmente i dati all'interno dell'infrastruttura aziendale.

  • Valore strategico e rischio: qual è il valore di ciascun dato per l'azienda e quali sono i rischi legati alla sua gestione.

  • Normative applicabili: i regolamenti legali e le normative che disciplinano la gestione dei dati.

  • Accesso autorizzato: chi ha il permesso di consultare, utilizzare o modificare i dati.

La data classification fornisce quindi una metodologia consistente e ripetibile che consente di organizzare i dati, identificarne il valore, stabilire regole di gestione che vanno dall’acquisizione all’elaborazione, e definire il livello di sicurezza da applicare a ciascuna categoria di dato.

 

La data classification come strumento di compliance

Oltre agli aspetti pratici e organizzativi, la data classification è necessaria per garantire la compliance con diverse normative e certificazioni vigenti in materia di protezione dei dati, cybersecurity e gestione del rischio. Permette, infatti, di:

  • identificare con precisione le informazioni soggette a obblighi legali specifici,

  • garantire la possibilità di applicare controlli mirati con agilità,

  • documentare le misure adottate, rendendo dimostrabile la compliance in sede di audit o in caso di incidente.

Vista la crescente pressione normativa nei confronti della gestione, organizzazione e messa in sicurezza dei dati, è facile prevedere un’evoluzione verso criteri ancora più stringenti. L’adozione di una buona politica di data classification permetterà di rispondere in modo più agile ed efficace anche alle necessità future.

 

Quali standard europei richiedono la data classification?

Data classification_02 - Copia

Data classification e intelligenza artificiale, perché è importante

Ora che abbiamo più chiaro perché la data classification sia importante in termini generali per le aziende, proviamo a capire meglio perché sia così rilevante quando entra in gioco l’intelligenza artificiale. Se è vero che si tratta, infatti, di uno strumento irrinunciabile per essere conforme con l’AI Act, è sufficiente approfondire l’argomento per capire come la classificazione dei dati sia necessaria a prescindere dagli adempimenti normativi.

 

L'evoluzione degli strumenti AI nelle aziende

Le aziende stanno già utilizzando strumenti evoluti, dagli ormai onnipresenti agenti AI passando per strumenti ancora più evoluti di Decision Intelligence fino ad arrivare alle AI Ops. Ed è noto e universalmente riconosciuto come tutte queste soluzioni siano tanto più efficaci quanto è migliore la qualità dei dati aziendali con cui sono addestrate.

 

Intelligenza artificiale e imprese italiane

Data classification_03

Fonte: Osservatori Politecnico di Milano

 

Le sfide legate all’AI e il ruolo della data classification

In questo contesto, emergono due sfide distinte:

  • la prima, più nota, evidente e di cui abbiamo già accennato, è legata all’accesso ai dati da parte sia dei sistemi di AI sia degli utenti che ne fruiscono;

  • la seconda ha implicazioni più profonde e riguarda le modalità stesse di addestramento dei modelli AI.

Una parte fondamentale della soluzione riguarda l'espansione della data classification anche agli output generati. A questo scopo, è stato introdotto il concetto di "classification inheritance", che assicura che i contenuti generati ereditino la stessa classificazione dei dati sorgente, garantendo così una gestione sicura e conforme anche dei dati derivati.

Inoltre, la qualità dell'addestramento dipende fortemente dalla qualità dei dati utilizzati, come recita il principio "garbage in, garbage out": dati di bassa qualità portano a risultati scadenti. Qui la data classification può diventare un potentissimo strumento per il miglioramento della qualità dei modelli. Per esempio, facendo sì che il sistema non venga nutrito con dati di bassa qualità, generati in modo incontrollato e non supervisionato o provenienti da fonti non verificate. L'effetto è duplice: da un lato, riduce i costi di addestramento, e dall'altro, migliora i risultati finali dei modelli, garantendo così soluzioni più precise ed efficaci.

 

Intelligenza artificiale: la cybersecurity passa dai dati

Il rapporto IBM “Cost of a Data Breach 2024”, pur non trattando direttamente il tema della data classification, offre alcuni spunti interessanti sul legame fra cybersecurity, dati e, secondariamente, intelligenza artificiale. Iniziamo con l’informazione meno incoraggiante: ad oggi solo il 24% delle iniziative aziendali legate all’AI generativa vengono protette in modo adeguato, mentre il rimanente 76% è esporto a violazioni di vario tipo. Nel prossimo futuro sarà quindi necessario proteggere i dati da furti e manipolazione.

Un altro rischio importante è legato a quelli che IBM definisce “shadow models”, che, per semplificare, sono i modelli di comportamento che possono nascere in modo incontrollato quando i dati di origine sono a loro volta incontrollati e di bassa qualità.

Oltre agli strumenti di protezione specifici, per esempio contro una tecnica di attacco come la prompt injection, diventa fondamentale estendere la sicurezza risalendo la filiera, fino ad arrivare, appunto, ai dati di origine. Qui torna il tema della classificazione, che semplifica di ordini di grandezza la complessità di questi controlli. Risulta importante sottolineare come questi principi siano validi in qualsiasi contesto legato alla data governance: L’Intelligenza Artificiale vi rientra, ma non ne è di sicuro una prerogativa esclusiva.

 

Data classification_04

Fonte: IBM, Cost of a Data Breach Report 2024

 

La data classification è uno strumento di sicurezza ed efficienza

I dati oggi non sono più il prodotto delle attività aziendali: sono diventati un asset il cui valore aumenta esponenzialmente quando entra in gioco l’intelligenza artificiale, ma che ha una grandissima importanza in senso assoluto. E se organizzarli, gestirli e garantirne l’accesso attraverso la Data Governance è ormai indispensabile, anche per rispondere agli obblighi normativi, classificarli in modo corretto diventa un supporto indispensabile per garantirsi agilità, sostenibilità e rapidità di azione. Se è innegabile che richiede uno sforzo iniziale, infatti, questo è ampiamente ripagato sia dalla riduzione dei rischi, sanzionatori oltre che di sicurezza, sia da un generale miglioramento della qualità del dato che, come abbiamo visto, riverbera sulla qualità dei modelli aziendali di intelligenza artificiale.

 

Data classification_CTA_02

Data classification_05

Topic: , ,