Machine learning per l'identificazione di aziende infiltrate da criminalità: studio UIF

UIF ha pubblicato, nella collana i Quaderni dell’Antiriciclaggio, lo studio n. 22 di giugno 2024, che analizza lo sviluppo di un modello di machine learning per l’identificazione di aziende collegate alla criminalità organizzata in Italia, basandosi su dati di bilancio.

Il modello, rivolto a società di capitali, utilizza un dataset di 1.804.278 imprese italiane relative al periodo 2010-2021. Il dataset include dati di bilancio, esposizione debitoria verso il sistema bancario e finanziario, dati occupazionali e informazioni sull’assetto proprietario e di governance.

Per l’addestramento del modello, è stato utilizzato un campione di 28.570 imprese ad alto rischio di collegamento con la criminalità organizzata, basato su fonti pubbliche e selezioni specifiche della UIF.

Il modello XGBoost è stato calibrato per massimizzare il tasso di recall, raggiungendo un recall del 75,6% su un campione di test indipendente, indicando che il modello ha riconosciuto correttamente 24.309 su 32.166 osservazioni di imprese infiltrate.

La specificity, ovvero la capacità del modello di riconoscere correttamente le imprese non infiltrate, è del 74,2%.

L’algoritmo permette di calcolare un indicatore di rischio per oltre 900.000 società di capitali attive in Italia, utilizzando dati di bilancio del 2021.

Questo indicatore varia da 0 a 1 e rappresenta la probabilità che una singola impresa sia collegata a contesti di criminalità organizzata. Il 78,3% delle aziende ha uno score inferiore a 0,50, mentre l’1,8% ha uno score superiore a 0,95.

Diversi esercizi di validazione del modello sono stati effettuati utilizzando dati indipendenti, come segnalazioni di operazioni sospette e dati della Guardia di Finanza, con esiti positivi.

Il modello ha anche mostrato una buona capacità di distinguere tra imprese soggette a interdittiva antimafia e quelle incluse nelle “white list”.

L’indicatore di rischio ha potenziali applicazioni sia strategiche che operative, come l’elaborazione di mappe di rischio territoriali o settoriali e il supporto alle funzioni istituzionali della UIF e degli organi investigativi.

Tuttavia, ulteriori applicazioni sul campo saranno necessarie per confermare la sua validità operativa.

Machine learning per l’identificazione di aziende infiltrate da criminalità: studio UIF