Theuth ha sperimentato con successo la realizzazione di un corpus riguardante il Cultural Heritage. I testi, estratti da svariate fonti web (siti istituzionali come il MiBACT ma anche portali web come TripAdvisor o Touring Club), sono stati strutturati tramite l’uso di dizionari elettronici di dominio contenenti parole semplici e composte, etichettate per area semantica.
L’approccio di Theuth considera risorsa culturale non solo il luogo storico-artistico o naturale né solo l’artefatto artistico, ma anche l’oggetto dell’esperienza turistica e di intrattenimento. In un senso lato, Theuth si volge anche al mercato dell’alimentazione intesa come un processo/oggetto culturale. Sia i testi formali (testi istituzionali) sia quelli prevalentemente informali (le recensioni dei viaggiatori) possono essere considerati di fatto come delle piccole guide turistiche in grado di orientare il lettore nelle scelte future e di descrivere, valorizzandolo o meno, un determinato territorio.
I testi raccolti possono essere analizzati da un punto di vista sintattico in maniera automatica, per poi valutare gli aspetti semantici legati all’organizzazione stessa del testo. In questo modo è possibile infatti stabilire quantitativamente e qualitativamente:
- la suddivisione per macro-generi, (per esempio comunicazione istituzionale e comunicazione non istituzionale)
- la caratterizzazione di tipologie del turismo (turismo montano, marittimo, religioso, enogastronomico, ecc.) in relazione alla testata ospitante, che sia un sito specializzato, un blog di viaggio o una recensione su TripAdvisor.
Inoltre, al corpus potrebbero aggiungersi i testi forniti dagli utenti di social network in forma di post, didascalie e hashtag. L’analisi automatica di tali testi rappresenta infatti un’ulteriore risorsa per la valutazione delle esperienze culturali. Le narrazioni delle esperienze individuali fornite dai social e i dati che ne derivano possono essere utili anche alle istituzioni per la gestione del patrimonio culturale. L’analisi dei social media può contribuire anche al miglioramento delle politiche di promozione culturale dei territori e dei loro attrattori.
Theuth dispone di un corpus di risorse culturali elaborato nell’ambito del progetto Horizon 2020 “Encore”, costituito da mille testi etichettati sulla base dell’ontologia di riferimento definita in tre classi (con le relative sottoclassi):
- A -storico-artistiche (A01 – Aree archeologiche; A02 – Museo; A03 – Architettura; A04- Opera)
- B – naturali (B01 – Itinerari; B02 – Parchi; B03 – Aree naturali)
- C – culturali (C01 – Oggetti; C02 – Eventi)
A classi e sottoclassi corrispondono i tag relativi alle risorse culturali. Il materiale raccolto costituisce una base di lavoro per la classificazione dei tipi di testo per generi testuali in materia di turismo. Una prima distinzione in generi e sottogeneri testuali è resa possibile anche da tre nuovi dizionari elettronici:
- Dizionario dei Nomi Propri del dominio Cultural Heritage (6584 nomi composti estratti ed etichettati manualmente dal sito del Ministero dei Beni Culturali)
- Dizionario delle parole Semplici e Composte Generiche del dominio Cultural Heritage (1165 termini, semplici e composti, e una ulteriore selezione di termini afferenti al dominio del Cultural Heritage)
- Dizionario dei Composti Polirematici Comuni del dominio Cultural Heritage (8711 Nomi Composti Flessi, estratto dal dizionario CDic dei composti generici dell’Italiano di proprietà del Dipartimento di Scienze Politiche e della Comunicazione dell’Università di Salerno).