NLP ed indicatori d’impatto (parte terza)


L’analisi del testo può aiutare nella valutazione degli indicatori d’impatto?

Nei precedenti articoli (parte prima, parte seconda) ci siamo concentrati sulla estrazione di valori quantitativi dalle descrizioni testuali utilizzate nella raccolta delle informazioni per la valutazione degli indicatori d’impatto.

Proseguiamo analizzando ulteriori indicatori cercando di identificare altre tecniche utili al loro calcolo. Le aree tematiche prese inconsiderazione sono:

  • Patrimonio Culturale e Paesaggio
  • Sistemi di Beni, Connettività e Fruizione
  • Formazione
  • Media e Nuove Tecnologie

Patrimonio Culturale e Paesaggio

Indice 4.1 Caratteri e tipi di patrimonio storico-culturale coinvolti dal progetto, in rapporto ai propri contesti

Questo indicatore richiede l’individuazione dei beni su cui si è intervenuto, proviamo quindi a valutare l’Entity Recognition su questa tipologia si informazioni. Il primo passo è isolare le entità tramite lanalisi grammaticale e la ricerca si sostantivi. Un secondo passo è attribuire ad ogni sostantivo un significato semantico o di categoria di appartenenza (Villa, Museo, Parco…) .

Entità rilevate per l’indicatore 4.1

In figura si nota come il riconoscimento di identità sia problematico in alcune situazioni (lo stesso museo viene individuato con due nomi diversi). Vedremo in seguito come dati esterni potrebbero aiutare nella risoluzione di questi conflitti.

Indice 4.2 Spesa pubblica in favore della conservazione del patrimonio culturale e paesaggistico da parte degli enti coinvolti dal progetto.

Individuate le Entità è possibile associare il numero di interventi effettuati sul bene e la spesa associata (conservazione, restauro…). In alcuni casi non sarà possibile associare una categoria ed otterremmo dei classici N/A (Not Available) a fronte di dati non classificati o mancanti.

Numerosità Interventi e dettaglio economico per singolo Bene

Indice 4.3 Estensione di territorio coinvolta dal progetto, in modo diretto (progetti di trasformazione e riqualificazione di porzioni estese di territorio, progetti di rigenerazione urbana alle diverse scale) o indiretto (aree di paesaggio fruito, aree di visibilità ecc.)

Con questo indice possiamo sfruttare sempre le tecniche di Entity Recognition ma approfittiamo per dare cenno anche ad altre tecniche che danno la sensibilità di quanto il progetto sviluppato coinvolga il territorio circostante. A fronte di ogni attività associamo l’area di intervento (per esempio il comune) e procediamo con una georeferenziazione automatica. Il posizionamento sulla mappa delle azioni effettuate nei vari comuni ci può dare la “densità” degli interventi ed anche il loro “raggio di azione“.

Area geografica di intervento

Sistemi di Beni, Connettività e Fruizione

Indice 5.1 Individuazione/selezione di un “bene faro” trainante nei confronti del sistema o del “punto di ingresso” privilegiato al sistema di beni e verifica della distribuzione dei flussi di visitatori (analisi di quanti visitatori fruiscano della rete, piuttosto che di uno o più singoli beni)

Questo tipo di indice può essere calcolato senza particolari tecniche NLP ma semplicemente utilizzando i dati già raccolti o riferendosi a dati istituzionali se il bene è noto. Talvolta è però problematico effettuare la raccolta dei feedback dei visitatori, una possibilità è l’utilizzo di sistemi che consentono la creazione di questionari on-line (es: google forms). Il questionario strutturato è sicuramente un modo per indirizzare meglio le indagini qualitative e per dare la possibilità ai visitatori di compilare questionari quando è più conveniente. I questionari possono essere poi sempre analizzati utilizzando tecniche di Sentiment Analysis.

Questionari ed analisi

Cultura ed Attività Produttive

Indice 6.1 Azioni per il coinvolgimento e crescita di imprese locali (che insistano sul territorio di riferimento del progetto) con competenze specifiche che siano direttamente legate al progetto

Questo è un indice di tipo economico che si riferisce alle “filiere corte” legate alla idea progettuale (fornitori locali di beni intermedi). L’Ente raccoglie l’informazione relativa alla distanza della azienda a cui si è ricorsi per l’acquisto di prestazioni (entro 30 minuti, entro 60 minuti, oltre 60 minuti). Aggregando questi valori di distanza per le sotto categorie ricavate dalla tassonomia è possibile capire quali tipi di prestazione sono state effettuate localmente.

Distanza delle spese rispetto al centro della erogazione

Il grafico a barre mostra molte spese entro i 30 minuti che assicura una buona località delle imprese ingaggiate. Dal grafico si nota anche come alcune sotto categorie siano esclusivamente oltre i 60 minuti (Cancelleria, Internet, Seminari) e come anche la Didattica abbia una componente di acquisto oltre i 60 minuti.

Dalla tipologia di fornitori ingaggiati è anche possibile capire quale “mix di aziende” chi riceve il Grant ha utilizzato (Nell’esempio in figura vediamo anche un caso di utilizzo prevalentemente dei dipendenti). Naturalmente è sempre possibile confrontare i dati con il contesto di riferimento (in questo caso utilizzando dati della Camera di Commercio).

Mix di aziende fornitrici e contesto

Formazione

Indice 7.1 Didattica scolastica (numeri di docenti e studenti coinvolti, attività, bacini utenza, ecc.)

Gli indicatori sulla formazione si distinguono per tipologia di formazione ( formazione professionale, università…) . In questo caso la determinazione degli indicatori coinvolge diverse informazioni ricavate dalla griglia quali-quantitativa (scuole, nomi di comuni, presenze…) e sono integrate con i soliti dati di contesto che forniscono un riferimento. Anche in questo caso l’Entity Recognition è una tecnica importante. In figura vediamo come i dati della regione identificano correttamente l’entità (la scuola) e possono correggere i dati dei resoconti con un nome di entità “ufficiale”.

Identificazione entità con dati raccolti nella griglia Quali-Quantitativa e dati ufficiali

Media e Nuove Tecnologie

Indice 8.1 Capacità di coinvolgimento della stampa locale e sovra locale
Indice 8.2 Capacità di coinvolgimento di canali televisivi tradizionali e web

Per questo specifico casi si è utilizzato uno strumento online di l’Entity Recognition della Fondazione Bruno Kessler che riconosce le “Nominal Phrases“. Ricordiamo che la maggior parte degli analizzatori NLP in commercio ed Open Source sono per la lingua inglese e quelli disponibili per la lingua italiana sono più difficili da trovare.

In figura notiamo anche qualche problema che è necessario risolvere (per esempio con le preposizioni articolate) ma in generale vengono ben identificate le Nominal Phrases. Nell’esempio abbiamo utilizzato un misto di dati esterni, istituzionali e liberi sul web.

Identificazione di Entità tramite dati esterni

Indice 8.3 Azioni per lo sfruttamento delle potenzialità del web

Questo ultimo indicatore serve per definire l’articolazione della struttura dell’eventuale sito web (o della app), i servizi offerti, l’analisi dei contatti e le modalità di interazione con gli utenti. Abbiamo già accennato al sito web nell’indicatore relativo al Turismo, vediamo più in dettaglio le possibilità.

Una prima fonte informativa sono le statistiche di utilizzo del sito web che possono dare l’idea del bacino di utenza raggiunto utilizzando gli indirizzi IP.

Una seconda fonte è l’analisi delle pagine html del sito utilizzando tecniche di NLP come:

  • Calcolo delle Occorrenze : ripetizioni delle parole all’interno dell’HTML analizzato.
  • TF-IDF (*) : rarità di ogni singolo termine in rapporto a tutti i termini individuati nelle pagine analizzate

(*) Term Frequency–Inverse Document Frequency è una classica tecnica NLP che misura l’importanza di un termine rispetto ad un documento o ad un insieme di documenti. L’obiettivo è dare importanza a termini che compaiono nel documento, ma che in generale sono poco frequenti. Questo valore è una sorta di indice di specificità che consente di definire le caratteristiche peculiari del documento.

TF-IDF e web site Ranking

Conclusioni

L’utilizzo di NLP può sicuramente aiutare ad identificare output, outcome ed impatti al fine di abilitare:

  • Il calcolo degli indicatori.
  • L’analisi economico/finanziarie più precise rispetto a: beni, eventi, tipologie di attività.

Fattore importante è la Entity Recognition per determinare le entità locali. e la territorialità delle iniziative. Le possibilità di identificare le Entità sono:

  • Collezione dati in rete e dai Partner (Nazionali-Regionali-Provinciali)
  • Richiesta “strutturata” di informazioni agli Enti coinvolti (locali).
  • Estrazione di entità nuove tramite analisi del testo. (che vanno validate)

L’integrazione e l’arricchimento continuo di queste informazioni potrebbe aiutare a creare un dizionario/tassonomia di beni, eventi, tipologie di attività, luoghi, … Ricordiamo che molte erogazioni si riferiscono a piccole realtà territoriali la cui conoscenza a livello nazionale non è così elevata ed il riferimento a dati ufficiali non è facile..

Analizzando i dai dell’Ente con le sole tecniche NLP si è comunque ricavato in modo semi-automatico:

  • Un dettaglio più preciso rispetto alle categorie.
  • Alcune informazioni quantitative ed Entità (musei, ville,…).

Chiaramente più il corpus testuale storico è ampio più l’apprendimento diventa preciso.

Nonostante i limiti di alcuni esempi, speriamo con questa serie di articoli di aver fornito una idea di come NLP possa essere utilizzata nella misurazione d’impatto.

Le analisi sono state effettuate con il linguaggio R e l’ambiente open source RStudio .