La statistica del linguaggio: cos'è la legge di Zipf

Perché tutte le lingue sembrano avere delle strutture comuni tra loro? La risposta è nella legge di Zipf

Non è chiaro quando il genere umano iniziò a comunicare: le stime variano da 50,000 a 2 milioni di anni fa (quindi forse anche prima del sapiens) a seconda che si leghi questa evoluzione alla creazione dei primi strumenti, delle espressioni artistiche o di altre attività astratte. L’invenzione della proto-scrittura è molto più recente e risale circa al 7000 A.C., mentre i primi esempi di scrittura vera e propria sono datati intorno al 3600 A.C. Studi recenti mostrano che la pratica di memorizzare in maniera permanente idee e concetti si sia sviluppata indipendentemente almeno quattro volte, in Mesopotamia, Egitto, Cina e America centrale. Linguaggi scritti e parlati si sono poi evoluti e ramificati in una miriade di scritture, spesso indipendentemente dalla lingua parlata. Al giorno d’oggi, il cinese è la lingua più parlata al mondo (1.1 miliardi di persone), seguita (ma la classifica varia se si considerano solo i madrelingua o tutti coloro che parlano più o meno bene una data lingua) dall’inglese (900miloni) e dall’hindi (544 milioni, a seconda delle stime). L’italiano si colloca intorno al ventesimo posto della classifica (circa 85 milioni di persone di cui 25 fuori dalla nostra repubblica). Dei 6500 linguaggi attualmente in uso sulla terra, circa 2000 sono purtroppo in via di estinzione: nella sola Amazzonia vi sono ben 330 linguaggi parlati da meno di 500 persone.

Figura 1: Distribuzione di Zipf per alcuni autori o opere in lingua italiana

Il lessico di una lingua è spesso figlio delle condizioni ambientali in cui questo si è evoluto e della grammatica in cui è strutturato. Le diverse strutture grammaticali (declinazioni, coniugazioni, parole composte) rendono complesso un paragone diretto tra i vocabolari. Un mero conteggio di termini del dizionario ci rivela comunque che il coreano è la lingua con il numero maggiore di parole (1.1milioni di parole), seguito dal finlandese (800,000) e dal turco (616,000). La lingua di Dante si attesta, al pari di inglese, giapponese e lituano, sul mezzo milione di lemmi.

Se un confronto diretto risulta poco utile ai fini della comprensione del linguaggio inteso come trasmissione di informazione, vi sono caratteristiche più profonde che risultano comuni a tutti i linguaggi umani. A cavallo tra gli anni ’30 e ’40, il linguista George Kingsley Zipf ordinò le parole secondo la frequenza con cui compaiono in un testo o in un gruppo di essi. Assegnò quindi a ciascuna parola un numero sequenziale, o grado G, che cresce al decrescere della frequenza f con cui essa viene usata nel testo considerato

In italiano la congiunzione “e” è la parola più comune: ad esempio nei Promessi Sposi compare circa il 4% delle volte. Seguono “che”, “di”, “a” con una frequenza che va dal 3% al 2%.

In inglese, invece, l’unico articolo determinativo ‘the” è il termine più comune (Nel Signore degli Anelli compare il 6% delle volte, seguito da “and”, 4% e ‘of’ 2.7%). L’opera più nota di Tolkien è composta, introduzioni e appendici a parte, di 13,000 termini distinti per un totale di 588,000 parole. Il 20% di esse è ascritto a 7 lemmi più frequenti (la testa della distribuzione) mentre 8000 parole sono necessarie per costituire il quinto del testo meno comune (la coda della distribuzione).

Figura 2: Distribuzione di Zipf per alcuni autori in lingua inglese

Zipf mostrò che la relazione tra la frequenza con cui compare una parola ed il suo grado segue una legge empirica di proporzionalità inversa: poche parole – a partire da quelle citate sopra – compaiono spesso mentre la maggior parte dei lemmi appare raramente. L’andamento segue con buona approssimazione la legge di proporzionalità inversa f=1/G. Si tratta dunque di una legge di potenza il cui esponente è circa -1, ossia per ogni parola utilizzata con frequenza f ve ne sono circa dieci che compaiono un decimo delle volte, cento che compaiono un centesimo e così via.

Questa legge è presente in tutti i testi di tutti i linguaggi, sia di quelli evolutisi naturalmente che di quelli creati a tavolino come l’esperanto o il klingon.

Le leggi alla base di questa struttura universale del linguaggio non sono state completamente identificate, ma si ritiene *1 che la trasmissione di informazione che si intende veicolare utilizzando il linguaggio debba essere il più succinta possibile, evitando per quanto possibile ridondanze ed orpelli che non forniscono nuovi dati all’ascoltatore o al lettore. Questa ed altre ossature statistiche del linguaggio sono state utilizzate nella decrittazione di messaggi segreti (il caso più noto è quello del codice Enigma nella Seconda Guerra Mondiale). Queste tecniche sono anche di ausilio nell’analisi di testi letterari di provenienza o natura ignota. Tra questi citiamo il Manoscritto Voynich, un misterioso testo ricco di disegni fantastici e corredato di un testo redatto in caratteri inventati. Anche se il testo del manoscritto è ancora non decifrato, il grafico di Zipf applicato ai suoi caratteri mostra come il testo non sia un’accozzaglia di caratteri casuali, come ci si aspetterebbe nel caso di un falso storico, e dunque sembrerebbe celare un reale, seppur ancor sconosciuto, contenuto *2.

La legge di Zipf è importante per la generalità della sua struttura statistica: l’ordine delle parole può infatti cambiare a seconda della natura del testo (poesia, prosa, saggio) e del suo autore. Ad esempio, in Shakespeare ‘the’ compare solo nel 3% dei casi, la metà delle volte rispetto ad altri autori inglesi, dal già citato Tolkien, a Dickens ad Asimov.

Se la natura del testo ed il linguaggio utilizzato tendono a rispecchiarsi nella parte iniziale della distribuzione, la ricchezza del linguaggio e l’ampiezza del vocabolario di un autore si traducono nella struttura e nella lunghezza della coda della distribuzione. Tuttavia, se una brutale analisi statistica non è grado di quantificare la bellezza di un testo o la sua potenza evocativa e meno che mai essere utilizzata in un raffronto tra vari autori essa può fornire informazioni utili a comprendere alcuni aspetti della struttura narrativa e del lessico di un testo o di un corpus narrativo. Alcuni autori (ma è una posizione dibattuta)*3 hanno ad esempio ipotizzato che i lavori di Shakespeare siano il frutto della mano di più autori, dato che la struttura lessicale che emerge dalla legge di Zipf applicata alle opere del Bardo farebbe pensare ad una struttura più complessa e variegata di quella di un solo autore, per quanto geniale.

(1) Qui una live in cui abbiamo discusso la scienza di Tolkien

*1 Si vedano i lavori di André Martinet sul Principio di Economia del linguaggio (grazie AnnaRita della referenza!)

*2 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0066344

Qui il plot della legge di zipf su Voyinch

*3 Qui Zipf applicata ai lavori del project Gutemberg (e si dice che Shakespeare segue Zipf), Qui un altro lavoro

Immagine di copertina: language by CHM3N/Shutterstock

Trackback/Pingback

La Statistica di Tolkien - Scientificast - […] della frequenza (In questo post avevamo parlato della legge di ZIpf e della statistica del suo linguaggio, mentre in…
La statistica di Tolkien (2): Niente magia, siamo elfi - Scientificast - […] La statistica del linguaggio: cos’è la legge di Zipf […]
Quizzone: Il lessico di Tolkien (e la legge di Heaps) - Scientificast - […] Si dimostra che è equivalente a quella di Zipf di cui abbiamo parlato in questa sede, sempre applicandola agli…

Invia commento Annulla risposta

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

La statistica del linguaggio: cos’è la legge di Zipf

Trackback/Pingback

Invia commento Annulla risposta