Oggi non è possibile prescindere dal machine learning nei task di analisi dei testi di ogni genere. Infatti, l’enorme disponibilità di testo scritto in formato digitale (dai social network ai documenti amministrativi pubblicati on-line, alle wiki) rappresenta una grande opportunità per le imprese, ma può rappresentare anche un ostacolo insormontabile. Non si può, infatti, basare un’analisi su dati parziali. Tuttavia l’analisi di una grossa mole di dati (si parla di big data per quantità di almeno un petabyte, cioè 1024 terabyte) compiuta in maniera non automatizzata presuppone improponibili sforzi per ogni ente pubblico o privato che abbia necessità di effettuare questo tipo di lavoro. Diventa necessario quindi affidarsi al machine learning. Le caratteristiche che fanno del machine learning lo strumento adatto per chi si trova a dover trattare enormi quantità di dati sono in primis la velocità: la capacità di calcolo degli attuali calcolatori permette la gestione in modo rapido di quantità di testo che fino a pochi anni fa sembrava impensabile. I dati testuali, infatti, non sono computazionalmente pesanti, ma possono diventarlo quando si inizia a parlare di centinaia di milioni di parole. Da questo punto di vista il limite del machine learning sta solo nella potenza del calcolatore utilizzato. Secondo elemento fondamentale è la versatilità degli algoritmi di Machine Learning: essi sono spesso indipendenti sia dalla lingua che dal dominio, o, in caso non lo siano, possono essere facilmente adattati. I risultati di questo tipo di algoritmi possono essere incrementati fornendo alla macchina le competenze linguistiche in grado di portare alla luce strutture di significato che altrimenti potrebbero rimanere nascoste. Gli algoritmi possono essere dotati di conoscenze linguistiche di tipo morfologico, sintattico e semantico che strutturano i testi non strutturati e rendono più precisa l’analisi automatica. Non si tratta, quindi, di costruire sistemi basati esclusivamente su regole, ma di “ibridare” i sistemi automatici rendendoli più precisi.
In particolare, Theuth si è specializzata in
- Preprocessing automatico
- Classificazione automatica supervisionata
- Classificazione automatica non-supervisionata
- Question answering
Il punto di partenza per i progetti di Theuth è un sistema di pre-processing totalmente ibridato, dove alla velocità dei POS Tagger automatici viene affiancata la potenza dei dizionari elettronici. In tal modo le informazioni semantiche di dominio possono essere di volta in volta aggiunte al testo andando a fornire una prima sottostruttura semantica indispensabile per future analisi.
In secondo luogo, Theuth ha sviluppato una metodologia di Classificazione, sia supervisionata che non, basata su algoritmi automatici affiancati da algoritmi che sfruttano la sinergia tra regole sintattiche e dizionari elettronici. Questi ultimi sono algoritmi già in gran parte compilati che però possono essere agevolmente adattati alle specificità di ogni dominio.
Gli algoritmi rule-based vanno dunque ad intervenire successivamente alla fase di pre-processing per far emergere le strutture di significato che li caratterizzano.
A seguito di questa fase è possibile poi scegliere algoritmi già esistenti di classificazione automatica che cercano di inserire il testo in classi già esistenti (nel caso di algoritmi supervisionati, in cui le categorie della classificazione vengono decise da un esperto di dominio) o cercando di identificare una rete di similitudini tra i testi e clusterizzarli (nel caso di mancanza di training set o di dominio dalla complessa classificazione).