La linguistica computazionale: definizione, storia e applicazioni

Le lingue, e la loro formazione, sono una materia complessa e affascinante poiché, per affrontarne lo studio e l’analisi, è necessario non solo usare la lingua stessa (funzione metalinguistica della lingua), ma fare uso e impiego dell’astrazione, dell’interpretazione e della ricerca del senso.

Per tale motivo, per essendo le lingue affrontabili e classificabili tramite uno studio empirico, richiedono comunque una capacità di saper vedere oltre e realizzare un senso, capacità insita in ogni essere vivente.
Osserviamo, per esempio, gli studi di Karl von Frisch, secondo cui le api, tramite pattern di movimento specifici, possono comunicare con le altre api dell’alveare, in modo da predisporre determinati tipi di azioni o movimenti.

Essendo quindi le lingue una materia articolata e soggetta ad interpretazione, la linguistica si prefissa come obiettivo di spiegarla e analizzarla nel modo più completo possibile. A tal motivo è nata la linguistica computazionale, che ha, come funzione, la raccolta e la catalogazione, tramite l’uso di computer, di corpora. Si definisce invece corpus l’insieme dei testi presi in considerazione per l’analisi.

Come afferma Gian Luigi Beccaria, si intende quindi generalmente una “raccolta di dati linguistici che possono costituire la base empirica per l’analisi della lingua naturale”.

Corpora e corpus con esempi

Un corpora è, per l’appunto, un testo, che può essere sia una trascrizione di un dialogo, sia un libro, che può essere utilizzato per verificare l’uso, in dettaglio, della terminologia. In questo caso, parliamo quindi del significato intrinseco del termine in un determinato contesto.

Prendiamo, ad esempio, un dialogo tra due personaggi del telefilm Six Feet Under, dall’episodio due della prima stagione.

Possiamo osservare alcune particolarità sia nel testo originale, che nel testo tradotto.

Il termine “schianto” può sia volere indicare un qualcosa che travolge tumultuosamente qualcos’altro, o una persona particolarmente bella. Nel caso di questi dialoghi, “schianto” assume il secondo significato, senza particolare accezione. Segue la risposta di David, che, in originale, usa il termine inglese “clever” (intelligente, ingegnoso), che però ha un’accezione sarcastica, da cui segue l’adattamento “grazie mille”.

Immaginiamo adesso di imbatterci nel termine “fag”, magari leggendo, su Internet, dei post in risposta a un qualche argomento. Ad esempio, un commento di reddit:

“Overall Reddit seems to be a relatively progressive place, but I’m confused whenever I see OP referred to as a fag or a faggot for reposting or the like. I get that it doesn’t have to do with sexual orientation, but how is that different from playfully calling someone a nigga? I am so confused. Is there some underlying meaning or alternate definition I missed?”

Solitamente, il termine “fag” si può tradurre come “sigaretta”, oppure “lavoraccio”. Tuttavia, nel post si vede un uso differente del termine. Scopriamo infatti che “fag” può avere quindi un’accezione dispreggiativa e omofobica, letteralmente il termine “omosessuale” utilizzato in senso denigratorio.

“A word used by ignorant homophobic teenage males to describe anybody/thing but themselves. This is almost always in a subconscious attempt to prove that they are not gay; everybody around them is. See also faggot and homo.”
Urban Dictionary

Potremo anche rimanere confusi dal termine “OP”, che stavolta indicherà colui che cominciato una discussione su un sito Internet. Sempre da Urban Dictionary: “Short for Original Poster. Used on online message boards and forums.”

Tale uso è diventato sempre più comune dopo l’avvento di Internet e la nascita di forum di discussione.

I corpus e la linguistica computazionale sono utili anche per lo studio dell’italiano, dei dialetti e dei regionalismi. Per esempio:

L’espressione “assa fa a’ Maronna” è tipica del dialetto napoletano. Grazie a una veloce ricerca online, possiamo venire a sapere che il termine significa “finalmente”.

Nella porzione di testo presa in considerazione, la testata, cominciando con la colorita espressione napoletana, vuole probabilmente impostare un senso ironico e accattivante, per rendere interessante l’articolo.

Immaginando di dovere dunque catalogare ogni termine con ogni sua possibile accezione, nonché per rimanere al passo con l’evoluzione di senso della terminologia, lo studio delle lingue si avvale, come summenzionato, della lingua stessa e della sua interpretazione.

I corpus sono quindi raccolte di testi consultabili e reperibili in qualsiasi momento online, con lo scopo di verificare, confrontare e analizzare la terminologia utilizzata, costruendo e realizzando quindi veri e propri dizionari e vocabolari online.

Si prenda, ad esempio, Google Traduttore:

L’espressione tipicamente inglese “it’s raining cats and dogs” è particolare e, se tradotta letteralmente in italiano, non avrebbe alcun senso (piovono gatti e cani). Grazie invece alla raccolta e all’analisi di testi, è stato possibile implementare in Google Traduttore il riconoscimento dell’espressione “piove a catinelle”, traducendolo in un’espressione che esiste solo in lingua inglese.

Ancora, un altro esempio, dal sito Linguee:

Traducendo dalla lingua inglese “clinical trial” in lingua italiana, grazie alla raccolta dei testi, si può venire a conoscenza che, in ambito prettamente medico, il termine “trial clinico” è comunemente impiegato.

I database di corpus si estendono anche alla lingua latina. Per esempio, sul sito MyMemory, cercando il termine “terminos”, possiamo osservare dei confronti di testi sia in lingua latina, che nella traduzione italiana (in linguistica italiana si parla di corpus paralleli, in questo caso):

Tramite l’uso di corpus paralleli, sarà quindi possibile demarcare e studiare il senso complessivo del termine, e l’impiego sia in lingua originale che in quella in cui si traduce.

Infine, I corpus sono anche utili per lo studio degli acronimi: essendoci oggigiorno diverse interpretazioni, una raccolta elettronica di acronimi sarà utile per venire tempestivamente a conoscenza del significato.

Ad esempio, l’acronimo “LOD” assume significati a seconda del contesto. Dal sito Acronyms:

La storia della Linguistica Computazionale

L’impiego della tecnologia, in ambito linguistico, risale agli inizi degli anni ’50, quando, appunto, vennero creati i primi computer.
Tra i primi pionieri della manipolazione della parola, Padre Roberto Busa, durante una ricerca per la stesura della tesi di laurea all’Università Gregoriana, affronta l’uso del lessico di Tommaso D’Aquino, rendendosi conto che il concetto di “interiorità” è presente nella forma “essere in”, tuttavia non sempre le ricorrenze del termine erano reperibili.

Tracciò quindi a mano 10.000 schede, ma essendo il lavoro troppo lungo e complesso, decise di rivolgersi all’istituto IBM di New York e al suo presidente Thomas Watson. Avendo dunque a disposizione delle macchine, Busa creò progressivamente la metodologia con cui affrontare gli studi terminologici, e la sua opera più grande, l’Index Thomisticus, una impressionante raccolta di oltre 11 milioni di parole, effettivamente il primo ipertesto virtuale a essere consultabile virtualmente al seguente link: Corpusthomisticum

Per esempio, inserendo nuovamente il termine latino “terminos”, potremo verificare in quali testi il termine compare, e con quale frequenza.

Nel 1957, Noam Chomsky pubblica “Syntactic Structures”, fondando la grammatica generativa. Si definisce, tramite linguistica generativa, l’esistenza di una “grammatica innata” in tutti gli esseri umani, una sorta di linguaggio comune, che in seguito è stato regolarizzato con le diverse lingue e le loro regole.

Ogni parlante crea nuove situazioni, e, in base al suo giudizio, reputa se la frase è grammaticalmente sensata, o agrammaticale. Contemporaneamente esiste una distinzione fra competence (la conoscenza della lingua) e performance (l’uso della lingua a seconda del contesto).

Questa distinzione, quindi, tra linguaggi formali e linguaggi naturali, Chomsky arriva a creare fondamenti di grammatica per il riconoscimento dell’uso del linguaggio.

Un risultato di questo lavoro è l’invenzione dei linguaggi di programmazione, ovvero linguaggi che consentono di programmare gli elaboratori elettronici, e dunque di riuscire a dare loro istruzioni che permettano azioni complesse.
Più la grammatica è in grado di generare linguaggi complessi, più complesso è la struttura della macchina necessaria a riconoscerla. Chomsky quindi crea la Gerarchia di Chomsky, ovvero una strutturazione a quattro livelli per identificare la complessità della grammatica.

Nel 1961 viene introdotto il primo corpora computazionale, da Francis e Kučera della Brown University. Utilizzando metodi statistici per estrarre dai testi le ricorrenze linguistiche, basi per la descrizione della struttura del linguaggio, si creò il primo “metodo empirista”, dunque basato sui dati e su un corpora per lo studio della varietà linguistica (in questo caso, l’inglese americano).

Per leggere velocemente i dati a disposizione e catalogarli correttamente, nacquero in seguito, grazie ai contributi di linguisti come Minsky, Schank, Winograd, et al., modelli simbolici.

Tra questi abbiamo, ad esempio, l’XML, in questo caso un “modello giocattolo” per la lettura dei corpus, con voci e cataloghi già preparati (e in seguito convenzionati).

Altri contributi giungono grazie a Leech, Sinclair, Herdan, et al., che fondarono il concetto di Corpus Linguistics, ovvero l’analisi dei corpus analizzando l’uso della parola in applicazioni reali, catalogandole e frammentandole in dati empirici: la loro ricorrenza (e in quali contesti), il loro uso e così via.

Questo ha portato, al giorno d’oggi, alla creazione di diversi programmi per l’analisi delle informazioni di interazioni reali, quali il customer experience, l’analisi dei social media, dei fenomeni e dell’evoluzione della lingua e così via.

Tra i programmi ci sono: il Sophia Semantic Engine, che estrae informazioni da corpora testuali, ad esempio dalle collezioni di risposte aperte delle survey; Text-O-Phone, sistema di trascrizione fonetica in cui il corpora viene usato come test, quindi per valutare la capacità del trascrittore e la sua capacità di gestire i fenomeni fonetici delle diverse lingue; il Cbook, che analizza le opere letterarie, quindi usando la letteratura come corpus.

Analisi di un corpus

In questo paragrafo si prenderà in esame un corpora, nello specifico un articolo del The New York Times su Trump e in cambiamenti climatici:

President Trump is about to be a party of one. Earlier this week, Syria announced during an international conference in Bonn, Germany, that it would add its name to the historic 2015 Paris climate agreement, in which nearly 200 countries pledged their best efforts to reduce greenhouse gas emissions. This would leave the United States as the only country to have rejected the Paris deal, which Mr. Trump did in a Rose Garden rant on June 1 that was notable, even by Trumpian standards, for its dishonesty. Our advice to the delegates in Bonn is this: Ignore Mr. Trump, who seems, on this issue anyway, to be beyond persuasion. Honor your pledges. Get on with the talks, which are supposed to build on the Paris agreement by establishing benchmarks to measure how well you’re doing now and to lay the groundwork for even more ambitious targets in 2020. And hope, as we do, that efforts now underway by state and local governments and by private businesses to control emissions and move the United States to a cleaner energy future will make up for Mr. Trump’s indifference. That Mr. Trump wants out of Paris is only one measure of that indifference. A better measure is provided by policies that would move exactly in the wrong direction, policies aimed at overturning greenhouse gas regulations on power plants, repealing limits on methane emissions, weakening automobile efficiency standards, enlarging subsidies for coal plants and increasing oil drilling in the Arctic. Meanwhile, the hacks, industry careerists and global warming deniers he has appointed to run agencies responsible for climate policy are mostly a joke, the latest howler being Kathleen Hartnett White, a former Texas regulator whom Mr. Trump has named to run the White House Council on Environmental Quality. Mrs. White, who, if approved, would coordinate the administration’s environmental policy, has dismissed carbon dioxide as a “harmless trace gas” (but a useful “plant food”) and described as “paganism” the belief that man-made pollutants are warming the atmosphere. Outlandish though her views are, she’ll fit right in with the see-no-evil likes of Scott Pruitt, the administrator of the Environmental Protection Agency, who has scrubbed references to climate change from the agency’s website and barred its scientists from presenting reports on the subject; Rick Perry, the energy secretary with various oddball schemes to prop up coal plants; and all the others in high office who seem impervious to the real-time evidence of climate change — the wildfires, hurricanes and rising seas — as well as one authoritative study after another, the latest being a congressionally mandated National Climate Assessment that directly contradicts the administration’s view that humans are not responsible. We’ve been here before. In the George W. Bush administration, government officials doctored scientific reports, Vice President Dick Cheney stacked the top ranks of government with friends of the fossil fuel industry, and the president himself rejected a climate agreement adopted in 1997 in Kyoto, Japan, as “fatally flawed” because, he said, it would damage the economy. Mr. Bush made many of the same flawed arguments that Mr. Trump is making. He, too, fretted unnecessarily about federal overreach, while greatly underestimating the jobs and economic benefits a clean energy economy could bring. There was, however, one big difference. Amid all of Mr. Bush’s flimflam was a solid beef about the Kyoto agreement, namely, that while it committed the big industrial countries to making legally binding emissions reductions targets, it let developing countries — which then included China and India — off the hook. That complaint is no longer valid. One of the great achievements of the Paris accord, engineered in large part by President Barack Obama and his secretary of state, John Kerry, is that it ropes in everyone. Everyone, that is, except the one nation whose president bailed out.”
“New York Times Mr. Trump, Alone With His Lies in a Warming World Editorial Board, NOV. 9, 2017“

L’articolo descrive l’incapacità dell’amministrazione Trump di aderire all’accordo di Parigi, e quindi di lasciare l’America in uno stato di inquinamento che non dovrebbe esistere, laddove le precedenti amministrazioni abbiano dimostrato trasparenza e impegno per quanto riguarda la problematica.

Vogliamo adesso analizzare il corpora secondo i modelli della linguistica computazionale.

Utilizzeremo quindi il MonoConc, scaricabile da: http://www.monoconc.com/

MonoConc è un programma di analisi testuale per Windows semplice e pratico. Il programma è di capacità media in quanto a prestazioni.

Supporta le espressioni regolari e la ricerca di etichette (se il corpora è già etichettato). Il programma permette la personalizzazione dell’alfabeto di caratteri usati, esegue concordanze e liste di frequenza. Utile soprattutto nella visualizzazione delle occorrenze, utilizza il formato KWIC oltre a quello per frase, elimina le occorrenze non importanti, visualizza un contesto molto ampio, e posiziona tags.

Adesso procediamo a caricare il corpora riportato.

L’operazione è: File, Load Corpus File(s)…, seleziona file corpus.

Solitamente, le parole più ricorrenti in un corpus sono gli articoli (determinativi ed indeterminativi), e i sostantivi che più caratterizzano il corpus. Quindi, abbiamo bisogno di limitarlo. Si sceglierà “corpus frequency data” dal menu “Frequency” e selezionare “Frequency order” se si desidera visualizzarle in ordine di frequenza, oppure “Alphabetical order” se in ordine alfabetico. Nel menu “Frequency” c’è il sottomenu “Frequency option” dal quale è possibile limitare i dati in diversi modi: settando il numero massimo di linee della frequency list, settando il limite inferiore di frequenza accettabile oppure settando il limite superiore di frequenza accettabile (la frequenza massima).

La ricerca di concordanze trova patterns, utilizzando un search query. Questo permette, ad esempio, di trovare istanze di parole o stringhe o stringhe in altre stringhe.

Per realizzare delle query più articolate, si ricorrerà alle Regular Expressions e al matching, cioè la verifica che una stringa appartenga all’insieme descritto dall’espressione regolare. Si procede selezionando Concordance, e poi Search.

Da “Advanced” possiamo impostare dei setting particolari, quali, ad esempio, cercare il present perfect in un corpus di inglese non annotato o, come summenzionato, effettuare ricerche più complesse tramite le Regular Expressions.

La linguistica computazionale è un potentissimo strumento d’uso per analizzare, catalogare ed etichettare la lingua.

Ogni giorno, diverse parole possono mutare di significato, o formare delle espressioni diverse, e tenere conto e traccia di ogni mutamento sarebbe impossibile, se non ci fosse modo di archiviare questo vasto numero di testi, sia di forma parlata che scritta.

La linguistica computazionale aiuta quindi a districarci in questa fitta rete, rimanendo al costante passo ed offrendo mezzi immediati per la verifica della terminologia e del suo significato.

Grazie alla diffusione del web, dei thesaurus e dei vocabolari online, quindi, non si parlerà più di un “caos plurilinguistico” postumo di Babele descritto da Dante, ma piuttosto di un ordine corretto, preciso, aggiornato e di immediato uso.

Autore: Gabriele Glinni

Dottore in Mediazione Linguistica con riguardo verso la traduzione specialistica. Amante della scrittura creativa, della tecnologia e autore del romanzo Ascend-ent. Sostenitore dell'arte della composizione di messaggi efficaci ed eloquenti. Leggi tutti gli articoli di Gabriele Glinni