In questo articolo, troverai tutti dettagli sulla classificazione automatica dei documenti (IDP): cos'è, le fasi del processo, metodologie di classificazione e i vantaggi nell’utilizzo di un software così innovativo.
Il processo di classificazione del documento prevede di assegnare ad ogni sua pagina, o al documento nella sua interezza, una categoria di appartenenza in modo automatico
La classificazione automatica di un documento può avvenire seguendo diverse metodologie:
Nel flusso di lavoro di elaborazione intelligente dei documenti possono essere utilizzate tecniche di machine learning sia supervisionate che non. L’approccio non supervisionato ha un costo inferiore in fase di setup (non è necessaria la fase di data labeling) ma tipicamente offre un'accuratezza inferiore. Sulla base dell'algoritmo utilizzato, il modello può anche fornire all'utente uno score di affidabilità (Confidence Score) per trasmettere la sicurezza del modello rispetto alle sue predizioni per la classificazione del documento.
Allora, in che cosa consiste la classificazione automatica di documenti? Quali processi ne possono beneficiare? Quali sono le diverse metodologie per eseguire la classificazione automatica dei documenti? Quali sono i limiti e i vantaggi dei diversi approcci di machine learning utilizzati per automatizzare questi processi? Tutte le domande hanno risposte in questo articolo.
La classificazione dei documenti (automatica e non) consente all'utente di caricare diverse tipologie di documenti sia singolarmente che in batch (in blocco) e di classificarli nelle rispettive categorie. Questa operazione è essenziale anche nel caso in cui un documento complesso di molte pagine contenga più documenti da analizzare. L’operazione di classificazione è necessaria per la successiva elaborazione dei diversi tipi di documenti consentendo ad esempio la successiva assegnazione al giusto membro del team per la revisione, l'elaborazione e l'analisi. Questa operazione può rappresentare un enorme collo di bottiglia per editori, compagnie assicurative, istituti finanziari e molte altre aziende che ricevono un gran numero di documenti eterogenei da elaborare.
Un esempio concreto è dato dal processo di valutazione per il rilascio di un mutuo in cui il sottoscrittore invia 3 tipi di documenti, ipotizziamo attraverso un'e-mail: documenti di identità, busta paga e CUD (come prova di redditività). Prima di poter essere elaborati, questi documenti devono essere classificati nelle rispettive categorie e inseriti nella coda di elaborazione e rispettivamente assegnati al membro del team giusto.
Le due principali metodologie per classificare un documento sono manuali o automatiche.
Molte aziende sfruttano ancora la classificazione manuale dei documenti nel loro workflow con le relative penalizzazioni. Se parliamo di piccole aziende con un ridotto volume di documenti processati, l’approccio è tipicamente quello di gestire il processo manuale in-house, mentre le grandi organizzazioni con processi massivi spesso danno il lavoro in outsourcing. Nonostante richieda molto tempo, la classificazione manuale è soggetta ad errori, costosa e inefficiente. Inoltre, per i casi più complessi sono necessarie risorse preparate capaci di comprendere i documenti da classificare, pensiamo ad esempio alla classificazione di documenti legali appartenenti al recupero crediti.
Gli svantaggi principali di un approccio manuale possono riassumersi in:
Nelle fasi di classificazione manuale un impiegato spesso spende circa il 20-40% del tempo nel recuperare i documenti e il restante tempo nel processarli.
Tuttavia, utilizzare una tecnologia di IDP può rendere automatico il processo di gestione ed elaborazione abbattendo i costi e i tempi di tutta la pipeline.
Le soluzioni di classificazione automatica di documenti sono più veloci ed accurate. Inoltre, utilizzando un approccio HITL (Human-in-the-loop) consentono di correggere e minimizzare gli errori. Usare una soluzione di IDP oltre a classificare i documenti automaticamente consente di strutturare in maniera più efficace il processo con i relativi vantaggi:
In un processo di IDP tipicamente vengono sfruttate tecniche di deep-learning per identificare la classe del documento e diversi step preliminari.
Le soluzioni di IDP gestiscono tipicamente formati variegati. In questa fase l’informazioni più rilevante è capire se il documento sia un pdf digitale o un immagine (jpg/png/tiff ecc). Prendendo in considerazione le immagini, in molti casi sarà necessaria una fase aggiuntiva di OCR per l’estrazione del testo contenuto nel documento.
In base al tipo di documento si possono utilizzare tecniche che sfruttano o meno alcune caratteristiche del documento. Le principali caratteristiche usate sono l’immagine, il testo e la geometria del documento (rispettive coordinate del testo).
Le principali categorie di documenti possono essere riassunte in:
É importante avere ben in mente la tipologia di documenti che si vuole elaborare per creare una pipeline performante sfruttando l’algoritmo che più si adatta allo specifico caso d’uso.
In questa fase si cerca di identificare automaticamente la categoria di appartenenza del documento. Di solito questa fase è articolata in più fasi.
In molti processi di IDP è necessario eseguire delle operazioni preliminari prima di poter classificare correttamente il documento. Tipicamente i documenti vengono binarizzati, ruotati e si cerca di eliminare il rumore, aumentando la qualità e la leggibilità del documento.
Se si vogliono sfruttare le features testuali (tipicamente mediante tecniche di Natural Language Processing) è necessario ottenere la trascrizione del documento (qualora non sia un pdf digitale). In molti trascurano questa fase affidandosi a motori tradizionali di OCR ma in realtà una corretta trascrizione è fondamentale per classificare correttamente un documento complesso. In un flow performante di IDP aver la possibilità di riaddestrare il proprio motore di OCR può essere importante al fine di ridurre gli errori e processare documenti di difficile leggibilità.
Le metodologie principali sono:
In questo caso, sfruttando tecniche di computer vision è possibile analizzare l’aspetto visuale del documento senza avere la necessita di trascriverlo. La ricorrenza della posizione delle informazioni o del layout del documento consentono di classificarlo automaticamente. Queste tecniche funzionano correttamente su documenti strutturati e, se si posseggono dati a sufficienza, anche su documenti semi-strutturati. Uno dei vantaggi di questo approccio è che non richiede una fase di OCR lavorando direttamente sull’immagine.
Sfruttando tecniche di NLP è possibile analizzare il testo contenuto nel documento in maniera automatica e determinare la categoria di appartenenza del documento. Queste metodologie consentono di elaborare efficacemente anche documenti non strutturati come contratti. Tuttavia, in molti casi non poter analizzare l’immagine e la geometria del documento ricopre un ruolo fondamentale nell’introduzione di errori.
Gli approcci più moderni propongono di analizzare tutte le caratteristiche salienti di un documento: testo, layout e immagine. Questo approccio garantisce i benefici più interessanti delle tecniche precedenti e una maggiore versatilità in termini applicativi. Ciò permette di elaborare con la stessa pipeline documenti strutturati, semi-strutturati e non.
Sfruttando algoritmi pre addestrati con tecniche non supervisionate è possibile abbattere la quantità di dati necessari per istruire questi algoritmi consentendo di automatizzare anche processi con volume limitato di documenti. In tutti i casi precedentemente esposti, in base al tipo di algoritmo utilizzato, è anche possibile ottenere uno score di confidenza per revisionare i documenti più critici.
Indipendentemente da quanto sia sofisticato l’algoritmo utilizzato per classificare i documenti, i benefici principali che si possono ottenere sono i seguenti:
Con gli avanzamenti nel campo del Deep Learning e con tecniche di Data Augmentation, si possono automatizzare i processi più disparati con risultati eccellenti
Automatizzare la classificazione documentale elimina o abbatte la necessità di un intervento umano per il processo stesso, il quale è fortemente time-consuming e ripetitivo con le relative conseguenze in termini di costi e errori. Inoltre, le risorse vengono liberate e migliorano la qualità della propria vita lavorativa.
Gestire in modo automatizzato e centralizzato i dati riduce il rischio di falle di sicurezza.
myBiros è una soluzione di IDP che consente l’elaborazione automatica di documenti di qualunque tipologia. Tra le principali funzionalità troviamo l’estrazione di informazioni e la classificazione automatica di documenti. myBiros fornisce un set prebuilt di API pronte all’uso con modelli pre-addestrati per i casi d’uso più comuni e la possibilità di riaddestrare l’intera pipeline (sia il motore di OCR che il sistema di interpretazione del documento) per casi custom.
Sfruttando tecniche avanzate di deep learning che analizzano features multimodali è possibile elaborare tutte le tipologie documentali sopra citate con la stessa soluzione. Grazie all’utilizzo di modelli pre-addestrati e tecniche di data augmentation è possibile addestrare il sistema con un numero limitato di dati. Questo consente di poter addestrare modelli di IA anche a chi non è in possesso di estese moli di documenti. Attraverso il meccanismo di scoring il sistema consente di ridurre i falsi positivi abilitando la possibilità di revisionare i dati a bassa confidenza minimizzando gli errori. L’interazione con un utente umano consente di correggere gli errori del sistema continuando ad addestrarlo così da non ripetere gli errori commessi in passato (Human-in-the-loop. e continuous learning). L’elevata scalabilità dell architettura cloud-based consente infine di elaborare moli fortemente variabili di documenti senza dover preventivamente allocare costose risorse.
Se sei curioso di sapere come funziona myBiros e vuoi scoprire come semplificare l'elaborazione dei documenti per diversi settori con la possibilità di estrarre dati accuratamente dai documenti, classificarli e validare i risultati, contattaci. Ci piacerebbe avere informazioni sul tuo caso d'uso aziendale e capire come possiamo aiutarti!
Qui di seguito troverete un glossario che elenca e definisce i termini essenziali per comprendere e sfruttare al meglio l'automazione intelligente dei documenti.
Leggilo oraOgni reparto aziendale prevede la gestione di documenti, necessari per registrare informazioni, comunicare con clienti e fornitori e archiviare dati importanti. Se svolte manualmente, queste attività espongono l'azienda a numerosi rischi.
Leggilo oraGli errori dovuti al data entry manuale hanno un costo significativo per le aziende. È importante investire in processi di data entry affidabili e controlli di qualità adeguati, affinché si possa ovviare ad errori e conseguenti costi.
Leggilo oraL’onboarding del cliente è il processo attraverso cui un’azienda introduce un nuovo cliente al proprio prodotto o servizio. Il seguente articolo spiega cos’è l’onboarding digitale, la sua automazione e i vantaggi che ne conseguono.
Leggilo oraLa trasformazione digitale comprende l'implementazione di tecnologie innovative e la ridefinizione dei processi aziendali per automatizzare.
Leggilo oraMolte aziende gestiscono le spese ancora manualmente, provocando scarsa produttività da parte dei dipendenti. Oggi, la gestione delle spese può essere automatizzata, riducendo tempi, costi e attività ripetitive che causano frustrazione.
Leggilo ora