Cos'è la text analytics?

La Text analytics unisce una serie di tecniche di machine learning, statistiche e linguistiche per elaborare grandi volumi di testo non strutturato o testo che non ha un formato predefinito, per ricavare intuizioni e modelli. Consente alle aziende, ai governi, ai ricercatori e ai media di sfruttare l'enorme contenuto a loro disposizione per prendere decisioni cruciali. La text analytics utilizza una varietà di tecniche: sentiment analysis, topic modelling, riconoscimento di entità nominate, term frequency ed estrazione di eventi.

Diagramma di text analytics

Qual è la differenza fra text mining e text analytics?

Text mining e text analytics sono spesso usati in modo intercambiabile. Il termine text mining è generalmente usato per ricavare intuizioni qualitative da testi non strutturati, mentre la text analytics fornisce risultati quantitativi.

Per esempio, il text mining può essere usato per rilevare se i clienti sono soddisfatti di un prodotto analizzando le loro recensioni e i loro sondaggi. La text analytics è usata per intuizioni più profonde, come identificare un modello o una tendenza dal testo non strutturato. Per esempio, la text analytics può essere usata per cogliere un picco negativo nell'esperienza del cliente o nella popolarità di un prodotto.

I risultati della text analytics possono quindi essere utilizzati con tecniche di visualizzazione dei dati per una più facile comprensione e un rapido processo decisionale.

Qual è la rilevanza della text analytics nel mondo di oggi?

Al 2020, circa 4,57 miliardi di persone hanno accesso a Internet. È circa il 59% della popolazione mondiale. Di cui, circa il 49% delle persone è attivo sui social media. Un'enorme quantità di dati testuali viene generata ogni giorno sotto forma di blog, tweet, recensioni, discussioni nei forum e sondaggi. Inoltre, la maggior parte delle interazioni con i clienti è ora digitale, il che crea un altro gigantesco database di testo.

La maggior parte dei dati di testo è non strutturata e sparsa in giro per il web. Se questi dati di testo vengono raccolti, collazionati, strutturati e analizzati correttamente, è possibile ricavarne una conoscenza preziosa. Le organizzazioni possono usare queste conoscenze per intraprendere azioni che migliorano la redditività, la soddisfazione dei clienti, la ricerca e persino la sicurezza nazionale.

Vantaggi della text analytics

Ci sono una serie di modi in cui la text analytics può aiutare le imprese, le organizzazioni e i movimenti sociali di eventi:

  • Aiuta le aziende a capire le tendenze dei clienti, le prestazioni dei prodotti e la qualità dei servizi. Questo si traduce in un rapido processo decisionale, migliorando la business intelligence, una maggiore produttività e risparmi sui costi.
  • Aiuta i ricercatori a esplorare una grande quantità di letteratura preesistente in poco tempo, estraendo ciò che è rilevante per il loro studio. Questo aiuta a velocizzare le grandi scoperte scientifiche.
  • Assiste nella comprensione delle tendenze e delle opinioni generali nella società, che permettono ai governi e agli organi politici di prendere decisioni.
  • Le tecniche di text analytics aiutano i motori di ricerca e i sistemi di recupero delle informazioni a migliorare le loro prestazioni, fornendo così un'esperienza utente veloce.
  • Affina i sistemi di raccomandazione dei contenuti degli utenti categorizzando i contenuti correlati.
Soluzione di text analytics
Prova TIBCO Data Science - Prova gratuita
Democratizzare, collaborare e rendere operativo il machine learning in tutta l'azienda con TIBCO Data Science.

Tecniche di text analytics e casi d'uso

Ci sono diverse tecniche relative all'analisi del testo non strutturato. Ognuna di queste tecniche è utilizzata per diversi scenari di casi d'uso.

Sentiment analysis

La sentiment analysis è usata per identificare le emozioni trasmesse dal testo non strutturato. Il testo di input include recensioni di prodotti, interazioni con i clienti, post di social media, discussioni di forum o blog. Ci sono diversi tipi di sentiment analysis. L'analisi della polarità è usata per rilevare se il testo esprime un sentimento positivo o negativo. La tecnica di categorizzazione è usata per un'analisi più dettagliata delle emozioni: confuso, deluso o arrabbiato.

Casi d'uso della sentiment analysis:

  • Misurare la risposta dei clienti a un prodotto o a un servizio
  • Capire le tendenze del pubblico nei confronti di un marchio
  • Capire le nuove tendenze nello spazio dei consumatori
  • Dare priorità ai problemi del servizio clienti in base alla gravità
  • Monitorare come il sentimento dei clienti si evolve nel tempo

Topic modelling

Questa tecnica è usata per trovare i temi o gli argomenti principali in un enorme volume di testo o in un insieme di documenti. Il topic modeling identifica le parole chiave usate nel testo per individuare l'argomento dell'articolo.

Casi d'uso del topic modeling:

  • I grandi studi legali usano il topic modeling per esaminare centinaia di documenti durante i grandi processi.
  • I media online usano il topic modeling per cogliere gli argomenti di tendenza sul web.
  • I ricercatori usano il topic modeling per la revisione esplorativa della letteratura.
  • Le imprese possono stabilire quali dei loro prodotti hanno successo.
  • Il topic modeling aiuta gli antropologi a stabilire le questioni e le tendenze emergenti in una società sulla base dei contenuti che le persone condividono sul web.

Riconoscimento di entità nominate (NER)

Il NER è una tecnica di text analytics usata per identificare entità nominate come persone, luoghi, organizzazioni ed eventi in testi non strutturati. Il NER estrae i nomi dal testo e stabilisce valori di questi nomi.

Casi d'uso del riconoscimento di entità nominate:

  • Il NER è usato per classificare il contenuto delle notizie in base a persone, luoghi e organizzazioni presenti in esse.
  • I motori di ricerca e di raccomandazione usano il NER per il recupero delle informazioni.
  • Nelle grandi catene di aziende, il NER è usato per smistare le richieste al servizio clienti e assegnarle a una città specifica o a un punto vendita.
  • Gli ospedali possono usare il NER per automatizzare l'analisi dei referti di laboratorio.

Frequenza del termine (TF) – frequenza inversa del documento (IDF)

La funzione TF-IDF è usata per stabilire quanto spesso un termine appare in un grande testo o gruppo di documenti e quindi l'importanza di quel termine per il documento. Questa tecnica usa un fattore di frequenza inversa del documento per filtrare le parole, gli articoli, le proposizioni e le congiunzioni che appaiono frequentemente ma che non hanno importanza.

Estrazione di eventi

Questa è una tecnica di text analytics che è un progresso rispetto all'estrazione di entità nominate. L'estrazione di eventi riconosce gli eventi menzionati nel contenuto del testo, per esempio, fusioni, acquisizioni, mosse politiche o riunioni importanti. L'estrazione di eventi richiede una comprensione avanzata della semantica del contenuto del testo. Gli algoritmi avanzati cercano di riconoscere non solo gli eventi, ma anche il luogo, i partecipanti, la data e l'ora ove possibile. L'estrazione di eventi è una tecnica vantaggiosa che ha molteplici usi in tutti i campi.

Casi d'uso dell'estrazione di eventi:

  • Analisi dei collegamenti. Questa è una tecnica per capire "chi ha incontrato chi e quando" attraverso l'estrazione di eventi dalla comunicazione sui social media. È usata dalle forze dell'ordine per prevedere possibili minacce alla sicurezza nazionale.
  • Analisi geospaziale. Quando gli eventi sono estratti insieme alle loro posizioni, le intuizioni possono essere usate per sovrapporli su una mappa. Questo è utile nell'analisi geospaziale degli eventi.
  • Monitoraggio del rischio aziendale. Le grandi organizzazioni hanno a che fare con più aziende partner e fornitori. Le tecniche di estrazione degli eventi permettono alle aziende di monitorare il web per scoprire se qualcuno dei loro partner, come fornitori o venditori, sta affrontando eventi avversi come cause legali o fallimenti.

Fasi coinvolte nella text analytics

La text analytics è una tecnica sofisticata che comporta diversi fasi preliminari per raccogliere e pulire il testo non strutturato. Ci sono diversi modi in cui la text analytics può essere eseguita. Questo è un esempio di un modello di flusso di lavoro.

  1. Raccolta di dati. I dati testuali sono spesso sparsi nei database interni di un'organizzazione, comprese le chat dei clienti, le e-mail, le recensioni dei prodotti, i ticket di servizio e i sondaggi Net Promoter Score. Gli utenti generano anche dati esterni sotto forma di post di blog, notizie, recensioni, post sui social media e discussioni sui forum in rete. Mentre i dati interni sono facilmente disponibili per l'analisi, i dati esterni devono essere raccolti.
  2. Preparazione dei dati. Una volta che i dati di testo non strutturati sono disponibili, devono superare diverse fasi preparatorie prima che gli algoritmi di machine learning possano analizzarli. Nella maggior parte dei software di text analytics, questa fase avviene automaticamente. La preparazione del testo include diverse tecniche che utilizzano l'elaborazione del linguaggio naturale come segue:
    • Tokenizzazione. In questa fase, gli algoritmi di analisi del testo scompongono la stringa continua di dati di testo in token o unità più piccole che compongono intere parole o espressioni. Per esempio, i token di carattere potrebbero essere ogni singola lettera in questa parola: P-E-S-C-A. Oppure, si può scomporre in token di sottoparole: pesca-re. I token rappresentano la base di tutta l'elaborazione del linguaggio naturale. Questo passaggio scarta anche tutti i contenuti indesiderati del testo, inclusi gli spazi bianchi.
    • Part-of-speech-tagging. In questa fase, ad ogni token nei dati viene assegnata una categoria grammaticale come nome, verbo, aggettivo e avverbio.
    • Parsing. Il parsing è il processo di comprensione della struttura sintattica del testo. Dependency parsing e constituency parsing sono due tipiche tecniche usate per ricavare la struttura sintattica.
    • Lemmatizzazione e stemming. Questi sono due processi utilizzati nella preparazione dei dati per rimuovere i suffissi e gli affissi associati ai token e mantenere la sua forma di dizionario o lemma.
    • Rimozione delle stop words. Questa è la fase in cui tutti i token che hanno un'occorrenza frequente non hanno però valore nella text analytics. Comprende parole come 'e', 'il' e 'un'.
  3. Text analytics. Dopo la preparazione dei dati di testo non strutturati, possono essere ora eseguite le tecniche di text analytics per ricavare informazioni utili. Ci sono diverse tecniche utilizzate per la text analytics. Le più importanti sono la classificazione del testo e l'estrazione del testo.

    Classificazione del testo. Questa tecnica è anche conosciuta come categorizzazione del testo o tagging. In questa fase, alcuni tag vengono assegnati al testo in base al suo significato. Per esempio, quando si analizzano le recensioni dei clienti, vengono assegnati tag come "positivo" o "negativo". La classificazione del testo viene spesso effettuata usando sistemi basati su regole o sistemi basati sul machine learning. Nei sistemi basati su regole, gli esseri umani definiscono l'associazione tra il modello linguistico e un tag. "Buono" può indicare una recensione positiva; "cattivo" può identificare una recensione negativa.

    I sistemi di machine learning utilizzano esempi passati o dati di addestramento per assegnare tag a un nuovo insieme di dati. I dati di addestramento e il loro volume sono cruciali, poiché insiemi di dati più grandi aiutano gli algoritmi di machine learning a fornire risultati di etichettatura accurati. I principali algoritmi utilizzati nella classificazione del testo sono le macchine a vettori di supporto (SVM), la famiglia di algoritmi Naive Bayes (NB) e gli algoritmi di deep learning.

    Estrazione del testo. È il processo di estrazione di informazioni riconoscibili e strutturate dal testo di input non strutturato. Queste informazioni includono parole chiave, nomi di persone, luoghi ed eventi. Uno dei metodi semplici per l'estrazione del testo sono le espressioni regolari. Tuttavia, questo è un metodo complicato da mantenere quando la complessità dei dati di input aumenta. I campi casuali condizionali (CRF) sono un metodo statistico usato nell'estrazione del testo. Il CRF è un modo sofisticato ma efficace di estrarre informazioni vitali dal testo non strutturato.

Cosa succede dopo la text analytics?

Una volta che i metodi di text analytics vengono utilizzati per elaborare i dati non strutturati, le informazioni in uscita possono essere trasmesse a sistemi di visualizzazione dei dati. I risultati possono quindi essere visualizzati sotto forma di grafici, diagrammi, tabelle, infografiche o dashboard. Questi dati visivi permettono alle aziende di individuare rapidamente tendenze nei dati e prendere decisioni.

Text Analytics Software
Try TIBCO Data Science - Free Trial
Democratize, collaborate, and operationalize machine learning across your organization with TIBCO Data Science.