IDP: classificazione automatica dei documenti

In questo articolo, troverai tutti dettagli sulla classificazione automatica dei documenti (IDP): cos'è, le fasi del processo, metodologie di classificazione e i vantaggi nell’utilizzo di un software così innovativo.

Francesco Cavina

CEO & Co-Founder

Il processo di classificazione del documento prevede di assegnare ad ogni sua pagina, o al documento nella sua interezza, una categoria di appartenenza in modo automatico

La classificazione automatica di un documento può avvenire seguendo diverse metodologie:

attraverso la trascrizione e la successiva analisi del testo contenuto al suo interno;
attraverso l’ analisi dell’immagine del documento;
con tecniche ibride che prevedono di analizzare sia il testo che la sua immagine.

Nel flusso di lavoro di elaborazione intelligente dei documenti possono essere utilizzate tecniche di machine learning sia supervisionate che non. L’approccio non supervisionato ha un costo inferiore in fase di setup (non è necessaria la fase di data labeling) ma tipicamente offre un'accuratezza inferiore. Sulla base dell'algoritmo utilizzato, il modello può anche fornire all'utente uno score di affidabilità (Confidence Score) per trasmettere la sicurezza del modello rispetto alle sue predizioni per la classificazione del documento.

Allora, in che cosa consiste la classificazione automatica di documenti? Quali processi ne possono beneficiare? Quali sono le diverse metodologie per eseguire la classificazione automatica dei documenti? Quali sono i limiti e i vantaggi dei diversi approcci di machine learning utilizzati per automatizzare questi processi? Tutte le domande hanno risposte in questo articolo.

Introduzione

La classificazione dei documenti (automatica e non) consente all'utente di caricare diverse tipologie di documenti sia singolarmente che in batch (in blocco) e di classificarli nelle rispettive categorie. Questa operazione è essenziale anche nel caso in cui un documento complesso di molte pagine contenga più documenti da analizzare. L’operazione di classificazione è necessaria per la successiva elaborazione dei diversi tipi di documenti consentendo ad esempio la successiva assegnazione al giusto membro del team per la revisione, l'elaborazione e l'analisi. Questa operazione può rappresentare un enorme collo di bottiglia per editori, compagnie assicurative, istituti finanziari e molte altre aziende che ricevono un gran numero di documenti eterogenei da elaborare.

Un esempio concreto è dato dal processo di valutazione per il rilascio di un mutuo in cui il sottoscrittore invia 3 tipi di documenti, ipotizziamo attraverso un'e-mail: documenti di identità, busta paga e CUD (come prova di redditività). Prima di poter essere elaborati, questi documenti devono essere classificati nelle rispettive categorie e inseriti nella coda di elaborazione e rispettivamente assegnati al membro del team giusto.

Metodi di classificazione documenti

Le due principali metodologie per classificare un documento sono manuali o automatiche.

Molte aziende sfruttano ancora la classificazione manuale dei documenti nel loro workflow con le relative penalizzazioni. Se parliamo di piccole aziende con un ridotto volume di documenti processati, l’approccio è tipicamente quello di gestire il processo manuale in-house, mentre le grandi organizzazioni con processi massivi spesso danno il lavoro in outsourcing. Nonostante richieda molto tempo, la classificazione manuale è soggetta ad errori, costosa e inefficiente. Inoltre, per i casi più complessi sono necessarie risorse preparate capaci di comprendere i documenti da classificare, pensiamo ad esempio alla classificazione di documenti legali appartenenti al recupero crediti.

Gli svantaggi principali di un approccio manuale possono riassumersi in:

Un eccessivo tempo di processamento - Il costo del tempo richiesto per processare una mole considerevole di documenti può essere fondamentale.
Soggettività - Gli operatori umani spesso hanno dei bias che li portano a classificare i documenti in modo soggettivo incorrendo in errori di classificazione.

Nelle fasi di classificazione manuale un impiegato spesso spende circa il 20-40% del tempo nel recuperare i documenti e il restante tempo nel processarli.

Tuttavia, utilizzare una tecnologia di IDP può rendere automatico il processo di gestione ed elaborazione abbattendo i costi e i tempi di tutta la pipeline.

Classificazione Automatica

Le soluzioni di classificazione automatica di documenti sono più veloci ed accurate. Inoltre, utilizzando un approccio HITL (Human-in-the-loop) consentono di correggere e minimizzare gli errori. Usare una soluzione di IDP oltre a classificare i documenti automaticamente consente di strutturare in maniera più efficace il processo con i relativi vantaggi:

Scannerizzare i documenti senza un ordine particolare e senza inserire separatori fra i documenti;
Inviare automaticamente il documento al giusto reparto per il processamento;
Classificare automaticamente documenti a pagina singola e multipla;
Automatizzare le verifiche su processi sensibili attraverso i meccanismi di scoring.

Fasi del processo

In un processo di IDP tipicamente vengono sfruttate tecniche di deep-learning per identificare la classe del documento e diversi step preliminari.

Identificazione del formato del file

Le soluzioni di IDP gestiscono tipicamente formati variegati. In questa fase l’informazioni più rilevante è capire se il documento sia un pdf digitale o un immagine (jpg/png/tiff ecc). Prendendo in considerazione le immagini, in molti casi sarà necessaria una fase aggiuntiva di OCR per l’estrazione del testo contenuto nel documento.

Identificazione del tipo di documento

In base al tipo di documento si possono utilizzare tecniche che sfruttano o meno alcune caratteristiche del documento. Le principali caratteristiche usate sono l’immagine, il testo e la geometria del documento (rispettive coordinate del testo).

Le principali categorie di documenti possono essere riassunte in:

Documenti strutturati - Questi documenti sono tipicamente omogenei nel formato e nel contenuto informativo e spesso possono essere elaborati con un approccio puramente posizionale. Tipico esempio un documento di identità
Documenti semi-strutturati - Questi documenti contengono un set prefissato di informazioni o tabelle ma che possono variare fortemente in termini di template e posizione delle informazioni. In questo caso è utile analizzare sia il testo che la posizione e l’immagine del documento. Un tipico esempio sono le fatture
Documenti non strutturati - Questi documenti non seguono un formato e possono contenere informazioni fortemente variabili. In questo caso l’ analisi del linguaggio naturale e in alcuni casi della geometria e dell immagine del documento possono essere usati per elaborare il documento. Un classico esempio sono i contratti.

É importante avere ben in mente la tipologia di documenti che si vuole elaborare per creare una pipeline performante sfruttando l’algoritmo che più si adatta allo specifico caso d’uso.

Identificazione della classe documentale

In questa fase si cerca di identificare automaticamente la categoria di appartenenza del documento. Di solito questa fase è articolata in più fasi.

1. Pre-processing

In molti processi di IDP è necessario eseguire delle operazioni preliminari prima di poter classificare correttamente il documento. Tipicamente i documenti vengono binarizzati, ruotati e si cerca di eliminare il rumore, aumentando la qualità e la leggibilità del documento.

2. OCR

Se si vogliono sfruttare le features testuali (tipicamente mediante tecniche di Natural Language Processing) è necessario ottenere la trascrizione del documento (qualora non sia un pdf digitale). In molti trascurano questa fase affidandosi a motori tradizionali di OCR ma in realtà una corretta trascrizione è fondamentale per classificare correttamente un documento complesso. In un flow performante di IDP aver la possibilità di riaddestrare il proprio motore di OCR può essere importante al fine di ridurre gli errori e processare documenti di difficile leggibilità.

3. Classificazione del documento

Le metodologie principali sono:

i) Approccio Visuale

In questo caso, sfruttando tecniche di computer vision è possibile analizzare l’aspetto visuale del documento senza avere la necessita di trascriverlo. La ricorrenza della posizione delle informazioni o del layout del documento consentono di classificarlo automaticamente. Queste tecniche funzionano correttamente su documenti strutturati e, se si posseggono dati a sufficienza, anche su documenti semi-strutturati. Uno dei vantaggi di questo approccio è che non richiede una fase di OCR lavorando direttamente sull’immagine.

ii) Approccio basato sul testo

Sfruttando tecniche di NLP è possibile analizzare il testo contenuto nel documento in maniera automatica e determinare la categoria di appartenenza del documento. Queste metodologie consentono di elaborare efficacemente anche documenti non strutturati come contratti. Tuttavia, in molti casi non poter analizzare l’immagine e la geometria del documento ricopre un ruolo fondamentale nell’introduzione di errori.

iii) Approccio multimodale

Gli approcci più moderni propongono di analizzare tutte le caratteristiche salienti di un documento: testo, layout e immagine. Questo approccio garantisce i benefici più interessanti delle tecniche precedenti e una maggiore versatilità in termini applicativi. Ciò permette di elaborare con la stessa pipeline documenti strutturati, semi-strutturati e non.

Sfruttando algoritmi pre addestrati con tecniche non supervisionate è possibile abbattere la quantità di dati necessari per istruire questi algoritmi consentendo di automatizzare anche processi con volume limitato di documenti. In tutti i casi precedentemente esposti, in base al tipo di algoritmo utilizzato, è anche possibile ottenere uno score di confidenza per revisionare i documenti più critici.

Vantaggi della classificazione automatica

Indipendentemente da quanto sia sofisticato l’algoritmo utilizzato per classificare i documenti, i benefici principali che si possono ottenere sono i seguenti:

1. Gestione di documenti con forte variabilità nel formato e contenuto

Con gli avanzamenti nel campo del Deep Learning e con tecniche di Data Augmentation, si possono automatizzare i processi più disparati con risultati eccellenti

2. Risparmiare tempo e denaro

Automatizzare la classificazione documentale elimina o abbatte la necessità di un intervento umano per il processo stesso, il quale è fortemente time-consuming e ripetitivo con le relative conseguenze in termini di costi e errori. Inoltre, le risorse vengono liberate e migliorano la qualità della propria vita lavorativa.

3. Prevenire data breaches

Gestire in modo automatizzato e centralizzato i dati riduce il rischio di falle di sicurezza.

Classificazione Automatica con myBiros

myBiros è una soluzione di IDP che consente l’elaborazione automatica di documenti di qualunque tipologia. Tra le principali funzionalità troviamo l’estrazione di informazioni e la classificazione automatica di documenti. myBiros fornisce un set prebuilt di API pronte all’uso con modelli pre-addestrati per i casi d’uso più comuni e la possibilità di riaddestrare l’intera pipeline (sia il motore di OCR che il sistema di interpretazione del documento) per casi custom.

Sfruttando tecniche avanzate di deep learning che analizzano features multimodali è possibile elaborare tutte le tipologie documentali sopra citate con la stessa soluzione. Grazie all’utilizzo di modelli pre-addestrati e tecniche di data augmentation è possibile addestrare il sistema con un numero limitato di dati. Questo consente di poter addestrare modelli di IA anche a chi non è in possesso di estese moli di documenti. Attraverso il meccanismo di scoring il sistema consente di ridurre i falsi positivi abilitando la possibilità di revisionare i dati a bassa confidenza minimizzando gli errori. L’interazione con un utente umano consente di correggere gli errori del sistema continuando ad addestrarlo così da non ripetere gli errori commessi in passato (Human-in-the-loop. e continuous learning). L’elevata scalabilità dell architettura cloud-based consente infine di elaborare moli fortemente variabili di documenti senza dover preventivamente allocare costose risorse.

Se sei curioso di sapere come funziona myBiros e vuoi scoprire come semplificare l'elaborazione dei documenti per diversi settori con la possibilità di estrarre dati accuratamente dai documenti, classificarli e validare i risultati, contattaci. Ci piacerebbe avere informazioni sul tuo caso d'uso aziendale e capire come possiamo aiutarti!

‍