Via Giovanni Paolo, Fisciano (SA) - Italy
+39 089 963019
info@theuthlinguistic.com

Linguistica Computazionale

Specialisti in linguaggi naturali e intelligenze artificiali

La linguistica computazionale vive da sempre una dicotomia tra Linguisti e Informatici. I primi, forti di una conoscenza dei meccanismi della lingua, sono però poveri di competenze ingegneristiche. I secondi, invece, competenti nelle materie informatico-matematiche, non attribuiscono il corretto valore ai meccanismi e alle strutture fondamentali del linguaggio. Questa dicotomia, tra l’altro, si è accentuata soprattutto negli ultimi decenni, con l’aumento delle risorse computazionali e con la progressiva informatizzazione del mondo. Le tecnologie di Machine Learning, ad esempio, divenute imperanti nell’ambito dell’Intelligenza Artificiale, che permettono alle macchine di “imparare” a partire dagli esempi che manualmente gli vengono forniti, viene sempre più spesso applicato alla Linguistica proprio per superare lo scoglio rappresentato dal linguaggio e dalla sua rappresentazione formale. 

I due principali filoni interni alla Linguistica Computazionale prediligono da un lato i metodi basati sulle regole, che cercano di imitare il modo in cui l’uomo utilizza e comprende il linguaggio, riproducendo le strutture sintattiche che sono alla base di questo processo di comprensione, costruendo risorse lessicali come i dizionari elettronici, le tassonomie, le ontologie; dall’altro i metodi basati sulla statistica che, al contrario, trattano la lingua come un insieme di parole, quantificando queste in modo matematico e cercando di estrarre informazioni senza la necessità di individuare le strutture sintattiche o, addirittura, cercando di rendere capace la macchina stessa di imparare la sintassi.

Il problema principale è l’incomunicabilità tra i due mondi dovuta alle differenze sostanziali che li caratterizzano. Da un lato il funzionamento del linguaggio e le sue caratteristiche sono guardate con rispetto e con interesse, con l’abitudine ad un lavoro di analisi, a volte manuale, lento ma approfondito. Dall’altro lato, una mentalità ingegneristica che vede nel linguaggio un ostacolo al raggiungimento di uno scopo, che cerca nell’algoritmo la maniera più efficace e più veloce per evitare di affrontare questo problema o per affidarlo completamente al calcolo ed al ragionamento della macchina.

Tuttavia, questa incomunicabilità non è una inconciliabilità, e, dunque, come accadeva agli inizi della linguistica computazionale il panorama più auspicabile e quello che ad oggi offre i risultati migliori è quello di una unione delle differenti metodologie.

L’innovatività della proposta di Theuth è proprio nell’intento di superare questa dicotomia adottando strategie ibride che mettono la linguistica “classica” al servizio del Machine Learning. In Theuth le competenze decennali nella creazione di dizionari elettronici, nel collezionare corpora di dominio o generici, nei metodi Rule-Based sono messi al servizio degli algoritmi di Machine Learning.

Il problema principale del ML sta proprio nel dover “imparare” le caratteristiche di un testo e “prendere una decisione” autonoma su come trattarlo. Tuttavia, qualunque essere umano, privo di un’adeguata istruzione, non sarebbe in grado di prendere una simile decisione. Proprio a questo scopo vengono implementate regole e dizionari elettronici, per fornire agli algoritmi automatici le conoscenze linguistiche necessarie per favorire le giuste decisioni, le corrette strategie.

Soprattutto in presenza di testo libero (non strutturato, cioè privo di metadati compilati manualmente) gli algoritmi intelligenti necessitano di strutture alle quali appigliarsi, e la maniera più facile per fornigliele è attraverso l’analisi linguistica di tipo morfologico, sintattico e semantico.