Anche Openpolis ci è cascata: l’analisi sbagliata del discorso di Mattarella

salta_macacoOrmai tutti sanno fare analisi quantitativa dei testi. O meglio, credono di saperla fare. Credono che basti prendere un testo, così come viene, e darlo in pasto a un software (immaginiamo pure il migliore del mondo), per ottenere dati attendibili su cui basare una descrizione e una interpretazione del testo. Insomma, la filosofia di molte ricerche testuali è quella ben rappresentata dal detto veneto (che qui ho citato altre volte) «struca boton, salta macaco», cioè «premi il bottone e salta fuori la scimmietta», così, senza nessuna operazione intermedia.

Ci è cascata anche Openpolis, che il 4 gennaio 2024 ha dedicato un ampio post all’analisi del discorso di fine 2023 di Sergio Mattarella. Openpolis è oggi una fondazione che, riassumo la sua autopresentazione, dal 2006 tratta i dati che che riguardano il potere, la politica, l’economia, i territori e le comunità locali. Dapprima ha sviluppato strumenti e piattaforme online per favorire l’accesso alle informazioni pubbliche. Dal 2011 aggiunge alla raccolta e pubblicazione dei dati la loro narrazione e la loro interpretazione nel sito openpolis.it.

Nel caso del discorso del Presidente della repubblica, la sintesi dell’analisi è questa:

sintesi_openpolisPeccato che non sia vero. Le parole più frequenti sono pace, significare, diritto, potere, violenza (l’ho scritto, già il primo gennaio, proprio in questo blog) e la lunghezza media delle frasi è di 18,4 parole per frase.

Perché questa discrepanza rispetto a quanto scritto da Openpolis? Perché Openpolis ha preso il testo così com’è e lo ha sottoposto a un software di analisi automatica dei dati testuali, senza trasformarlo in dati analizzabili.

Per il lessico l’ho già spiegato, inutilmente a quanto pare, nel post precedente: se voglio stilare una corretta lista di frequenza, devo lemmatizzare il testo, in modo che siano messe insieme tutte le occorrenze di una parola, qualunque sia la forma in cui appaiono. Devo, insomma, attribuire allo stesso lemma, rispettivamente, diritto e diritti, guerra e guerre, significa e significano, e via dicendo. Solo così posso sapere davvero quali sono le parole più usate.

Direi che è ancora più semplice capire perché il computo della lunghezza delle frasi è sballato. I software, per calcolare la lunghezza delle frasi, si basano sulla punteggiatura. Sono i segni di punteggiatura «forte» (principalmente i punti fermi) che fungono da segmentatore delle frasi. Se il testo analizzato ha una punteggiatura che non rappresenta la struttura delle frasi (per esempio se il punto divide, per isolarli graficamente, elementi della frase), il computo è scorretto.

Ora, il testo del discorso del Presidente pubblicato nel sito del Quirinale ha una punteggiatura che non corrisponde alla sintassi delle frasi: isola, ripetutamente, singoli elementi nominali. Vediamo un esempio:

sintassi_mattarellaSe diamo a un software questo testo, il software vi riconosce otto frasi. Questa analisi regge? Certamente no. Basta una banalissima analisi del periodo per capire che si tratta di tre frasi:

La guerra non nasce da sola.

Non basterebbe neppure la spinta di tante armi, che ne sono lo strumento di morte, così diffuse, sempre più letali, fonte di enormi guadagni.

Nasce da quel che c’è nell’animo degli uomini,  dalla mentalità che si coltiva, dagli atteggiamenti di violenza, di sopraffazione, che si manifestano.

Fonte di enormi guadagni non può certamente essere considerata una frase autonoma. È un’apposizione di armi. È solo un esempio. Non voglio annoiare i lettori con un’analisi completa.

Un esercizio che consiglio a chi lavora nella Fondazione di Openpolis è quella di fare l’analisi del periodo di questo testo (a scuola, quando ci andavo io, tantissimi anni fa, si chiamava così). Oppure può provare a trascrivere il discorso, senza guardare il testo ufficiale. Oltre a individuare qualche differenza marginale, certamente correderà il testo di una punteggiatura diversa, più, per così dire, sintattica. In entrambi i casi, si accorgerà con facilità che il testo non può essere sottoposto automaticamente a un’analisi sintattica nella forma in cui è stato pubblicato nel sito del Quirinale. Quella resa pubblica è, verosimilmente, la versione predisposta per la lettura da parte del Presidente (che a volte apporta anche qualche modifica all’ultimo istante): la punteggiatura aiuta il Presidente a scandire il testo, segmentando i componenti delle frasi (e Mattarella lo fa, ma non sempre seguendo le indicazioni della punteggiatura offertagli, perché spesso queste segmentazioni sono innaturali per un parlante).

Offrendo a qualsiasi software (ma basta usare Word) il testo con una punteggiatura che rappresenti l’analisi sintattica, il dato della lunghezza media delle frasi (quelle vere, non quelle artificiosamente costruite dalla scrittura del Quirinale) si alza, come ho anticipato, a 18,4 parole per frase. Rimane un dato basso, possiamo dire uno dei più bassi della serie dei discorsi di fine anno, ma non il più basso. A battere il Mattarella del 2023 è il Mattarella di anni precedenti. Basta vedere questa tabella, con la lunghezza media (vera) delle frasi dei 9 discorsi di fine anno di Sergio Mattarella:

lunghezza frasiUna cosa, comunque è certa: sulla base della mia banca dati (verificata non solo sui testi ufficiali, ma anche sulle registrazioni dei disorsi effettivamente pronunciati) posso confermare che Mattarella è il Presidente che ha la minore lunghezza media delle frasi. Ma nel 2023 non ha il valore così basso ipotizzato da Openpolis.

Sono convinto che Openpolis sappia trattare dati di altra natura con maggiore accuratezza. Ma qui proprio non ci siamo.

Resta lo sconforto per la leggerezza con cui molti credono di poter analizzarei testi con strumenti quantitativi, senza possedere nemmeno i fondamentali, proprio quelli basici, per poter raccogliere dati attendibili. E senza capire che, senza una verifica e, se necessaria, una rielaborazione della forma dei  testi, qualsiasi analisi è fondata sul nulla.

 

Anche Openpolis ci è cascata: l’analisi sbagliata del discorso di Mattarellaultima modifica: 2024-01-05T13:30:58+01:00da cortmic
Reposta per primo quest’articolo