NLP ed indicatori d’impatto (parte prima)


L’analisi del testo può aiutare nella valutazione degli indicatori d’impatto?

In questo primo articolo vediamo come l’analisi del linguaggio naturale o Natural Language Processing (NLP) possa contribuire alla valutazione degli indicatori d’impatto.

Per raccontare questa possibilità prendiamo come riferimento un ipotetico Ente che vuole verificare l’impatto diretto dei grant erogati in termini di sviluppo culturale ed economico. Partiremo da informazioni prevalentemente testuali e qualitative per ricavare informazioni quantitative e cercheremo al contempo di identificare informazioni più precise.

In questo articolo vedremo due esempi di uso della NLP per la classificazione delle attività e per la separazione tra dati qualitativi e quantitativi. Nei prossimi articoli ci focalizzeremo su tecniche ed idee per calcolare indicatori d’impatto.


Classificazione Automatica delle Attività

Le Attività svolte a fronte dei Grant erogati sono classificate dall’Ente con alcune categorie di primo livello: Attività Culturali, Comunicazione, Formazione, Gestione Progetto, Opere, Ricerca. Oltre alla categoria primaria vi è anche una descrizione della attività in testo libero. Utilizziamo la NLP su questa descrizione testuale per cercare di identificare in modo automatico delle sotto categorie più specifiche.

Per questo obiettivo ci viene incontro la Document Term Matrix (DTM), semplice tecnica NLP che calcola la frequenza dei termini nei documenti. Tipicamente le parole più frequenti (escluse le “stopwords”: articoli, preposizioni, congiunzioni…) sono delle buone candidate per classificare un testo e nel nostro caso a diventare sotto categorie. Tra le parole più frequenti sceglieremo i verbi in quanto indicano una tipologia di attività eseguita.

Nell’esempio in figura, i documenti sono le descrizioni testuali delle attività memorizzate nella colonna TipoAttività. La DTM viene creata estraendo dai vari documenti i termini e la loro frequenza. (Nell’esempio in figura vediamo che “manutenzione” appare una volta nei documenti 1 e 7) . Analizzando la DTM per la categoria Opere possiamo così identificare alcune sotto categorie: manutenzione, progettazione, fornitura, riqualificazione…

Estrazione termini – Creazione DTM – Uso dei termini per categorizzare

Su questa base possiamo dunque creare una piccola tassonomia di attività con categorie di primo livello e sotto categorie di secondo livello. Quello che si nota è che molti termini di secondo livello sono utilizzati in modo coerente con la catalogazione delle attività (per esempio Docenza è solamente presente in attività di Formazione) ma alcuni termini sono utilizzati in più categorie (per esempio Seminari è presente in circa egual misura sia in attività di Formazione che in attività di Comunicazione).

Tassonomia ed ambiguità di classificazione

Probabilmente alcune delle ambiguità rilevate dovranno essere risolte manualmente ma con buona percentuale è possibile individuare automaticamente attività più precise.

Al termine di questa fase possiamo quindi quantificare non solo attività di primo livello, come per esempio “Attività Culturali”, ma possiamo definire se sono attività di progettazione, di valorizzazione o di animazione.


Ottenere dati quantitativi dai dati qualitativi

A fronte di indicatori d’impatto, l’Ente raccoglie diverse informazioni cercando di guidare la separazione tra i dati quantitativi e quelli qualitativi. A tale scopo viene utilizzato un foglio excel con colonne “Descrizione” e “Quantità“, anche se molte informazioni quantitative vengono inserite nelle colonne di descrizione. Per ricavare informazioni quantitative la NLP si spinge oltre ad una semplice frequenza di termini arrivando sino ai livelli di analisi lessicale , sintattica e grammaticale.

Processando i dati testuali delle descrizioni corrispondenti ad un indicatore (nell’esempio in figura l’indicatore 7.1) e ricercando pattern specifici (es: numero-sostantivo) possiamo identificare informazioni quantitative anche dal testo.

Esempio delle tipologie di partecipanti relativi ad un certo evento

A titolo esemplificativo in figura abbiamo quantificato il “bacino di utenza” coinvolto in una certa manifestazione ma naturalmente è possibile quantificare altre entità (pasti, quadri, articoli di giornale, spettacoli…).


Prime Conclusioni

Al termine di questa prima fase abbiamo quindi raccolto in una “griglia quali-quantitativa” alcune informazioni relative ai vari indicatori ed abbiamo ottenuto una tassonomia più dettagliata rispetto alla classificazione iniziale.

Griglia “Quali-Quantitativa”, Tassonomia e dati esterni

Nella seconda e terza parte dell’articolo vedremo come queste informazioni verranno sfruttate e come alcuni indicatori potranno essere calcolati integrando fonti di dati esterne all’Ente.

Tratteremo anche il riconoscimento delle entità in quanto importante per aggregare informazioni a livello di “oggetto” della erogazione . Cercheremo, per esempio, di aggregare le attività svolte nell’ambito di una specifica manifestazione (promozione, seminari, stampe, spettacoli…) o le attività svolte per il recupero di un bene culturale (restauro, manutenzione…).

Le analisi sono state effettuate con il linguaggio R e l’ambiente open source RStudio .

Continua (Parte Seconda)