Via Giovanni Paolo, Fisciano (SA) - Italy
+39 089 963019
info@theuthlinguistic.com

Linguistica computazionale

Specialisti in linguaggi naturali e intelligenze artificiali

Linguistica computazionale

La linguistica è una delle diverse scienze del linguaggio e si occupa delle descrizioni e delle teorie relative alle lingue umane, per definizione storico-naturali, cioè originate da una facoltà di linguaggio mentale e sviluppate esclusivamente all’interno di comunità sociali soggette al mutamento nel tempo.

La linguistica computazionale è la scienza della lingua basata su modelli logico-matematici al fine di descriverne il funzionamento in vista di applicazioni computazionali, cioè attraverso i computer. In generale si parla di “Trattamento del linguaggio naturale” (Natural Language Processing) per le applicazioni basate soprattutto sull’informatica e la statistica. Molte delle applicazioni che oggi sono disponibili nell’ambito delle comunicazioni che avvengono attraverso strumenti elettronici come i computer e gli smartphone fanno riferimento alla lingua parlata e scritta dagli utenti: i motori di ricerca, i chatbot che permettono di dialogare con clienti ed utenti, i sistemi che utilizzano la lingua per interagire nel web cosiddetto 2.0 (basato sul contributo degli utenti stessi): Whatsapp, Facebook, Instagram, Twitter. Smartphone e computer vengono usati nei social network per esprimere opinioni, sensazioni, emozioni, valutazioni in genere.

La ricerca e l’utilizzo delle opinioni espresse nel web 2.0 sono ormai molto diffusi in ambiti diversi: economia, soprattutto nel marketing, politica, soprattutto a fini persuasivi ed elettorali, spettacolo, per indirizzare i consumatori verso determinati prodotti o autori o per valutarne il gradimento da parte del pubblico, e così via. La disponibilità di milioni se non miliardi di dati linguistici  sul web permette di parlare anche in questo campo di Big Data. Recentemente, le tecnologie di Machine Learning, divenute imperanti nell’ambito dell’Intelligenza Artificiale, permettono alle macchine di “imparare” a partire dagli esempi che manualmente o automaticamente gli vengono forniti, cercando di superare lo scoglio rappresentato dalle difficoltà delle lingue umane e dalla loro difficile rappresentazione formale. 

Nel tempo si sono creati due principali filoni all’interno della Linguistica Computazionale: da una parte quello che predilige i metodi basati sulle regole, che cercano di imitare il modo in cui l’uomo utilizza e comprende il linguaggio, riproducendo le strutture sintattiche che sono alla base di questo processo di comprensione, costruendo risorse lessicali come  dizionari elettronici, tassonomie, ontologie; dall’altro quello che predilige i metodi basati sulla statistica che, al contrario, trattano le parole della lingua come un insieme di oggetti, da quantificare in modo matematico per cercare di estrarre informazioni senza la necessità di ricorrere alle strutture sintattiche o, addirittura, cercando di rendere capace la macchina stessa di apprendere la sintassi.

La linguistica computazionale vive da sempre una dicotomia tra Linguisti e Informatici. I primi, forti di una conoscenza dei meccanismi della lingua, sono però poveri di competenze ingegneristiche. I secondi, invece, competenti nelle materie informatico-matematiche, non attribuiscono il corretto valore ai meccanismi e alle strutture fondamentali del linguaggio. Il problema principale è l’incomunicabilità tra i due mondi dovuta alle differenze sostanziali che li caratterizzano. Da un lato il funzionamento del linguaggio e le sue caratteristiche sono guardate con rispetto e con interesse, con l’abitudine ad un lavoro di analisi, a volte manuale, lento ma approfondito. Dall’altro lato, una mentalità ingegneristica che vede nel linguaggio un ostacolo al raggiungimento di uno scopo, che cerca nell’algoritmo la maniera più efficace e più veloce per evitare di affrontare questo problema o per affidarlo completamente al calcolo ed al ragionamento della macchina. Tuttavia, questa incomunicabilità non è una inconciliabilità, e, dunque, come accadeva agli inizi della linguistica computazionale il panorama più auspicabile e quello che ad oggi offre i risultati migliori è quello di una unione delle differenti metodologie.

L’innovatività della proposta di Theuth consiste nel superare questa dicotomia adottando strategie ibride che mettano la linguistica “classica” al servizio del Machine Learning. In Theuth le competenze decennali nella creazione di dizionari elettronici, nel collezionare corpora di dominio o generici, nei metodi Rule-Based sono messi al servizio degli algoritmi di Machine Learning.  Proprio a questo scopo vengono implementate regole e dizionari elettronici, per fornire agli algoritmi automatici le conoscenze linguistiche necessarie (morfologiche, sintattiche e semantiche) per favorire le giuste decisioni, le corrette strategie.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *