Che cos'è la Data Science?

La data science è un approccio multidisciplinare per trovare, estrarre e far emergere modelli nei dati attraverso una fusione di metodi analitici, competenze e tecnologia. Questo approccio include generalmente i campi del data mining, della previsione, del machine learning, della predictive analytics, della statistica e della text analytics. Poiché i dati stanno crescendo a un ritmo allarmante, le aziende sono in corsa per sfruttare le insight nei loro dati. Tuttavia, la maggior parte delle organizzazioni si trova di fronte a una carenza di esperti che analizzano i loro big data per trovare intuizioni ed esplorare problemi che l'azienda non sapeva nemmeno di avere. Per realizzare e monetizzare il valore della data science, le organizzazioni devono infondere approfondimenti predittive, previsioni e strategie di ottimizzazione nei sistemi aziendali e operativi. Molte aziende stanno ora potenziando i loro lavoratori della conoscenza con piattaforme che possono aiutarli a condurre i propri progetti e compiti di machine learning. La possibilità di estrarre le tendenze e le opportunità nelle enormi quantità di dati che vengono infuse in un business darà all'organizzazione un vantaggio competitivo.

La data science include funzionalità descrittive, diagnostiche, predittive e prescrittive. Questo significa che con la data science, le organizzazioni possono usare i dati per capire cosa è successo, perché è successo, cosa succederà e cosa dovrebbero fare per raggiungere il risultato previsto.

Capire come funziona la Data Science

Concettualmente, il processo della Data Science è molto semplice da capire e comporta i seguenti passi:

  1. Capire il problema aziendale
  2. Raccogliere e integrare i dati grezzi
  3. Esplorare, trasformare, pulire e preparare i dati
  4. Creare e selezionare modelli basati sui dati
  5. Testare, mettere a punto e distribuire i modelli
  6. Monitorare, testare, aggiornare e governare i modelli

Come funziona la data science

Capire il problema aziendale

Il processo della data science inizia con la comprensione del problema che l'utente aziendale sta cercando di risolvere. Per esempio, un utente aziendale potrebbe voler chiedere e capire "Come posso aumentare le vendite?" o "Quali tecniche funzionano meglio per vendere ai miei clienti?". Queste sono domande molto ampie e ambigue che non portano a un'ipotesi immediatamente ricercabile. È il lavoro del data scientist di scomporre questi problemi di business in ipotesi ricercabili e testabili. Per esempio, "Come posso aumentare le vendite?" potrebbe essere scomposto in diverse domande più piccole come "Quali condizioni hanno portato all'aumento delle vendite? È stata una promozione, il tempo, o la stagionalità?", "Come possiamo ottimizzare le nostre vendite in base ai vincoli?", e "Quali sono le vendite probabili domani/la prossima settimana/il prossimo mese per ogni negozio?". La cosa importante da ricordare è che bisogna capire la decisione di business che deve essere presa, e lavorare a ritroso da lì. Come cambierebbe il vostro processo aziendale se poteste prevedere qualcosa un'ora/giorno/settimana/mese nel futuro?

Raccolta e integrazione dei dati grezzi

Una volta compreso il problema di business, il passo successivo consiste nel raccogliere e integrare i dati grezzi. Per prima cosa, l'analista deve vedere quali dati sono disponibili. Spesso, i dati saranno in molti formati diversi e in molti sistemi diversi, quindi tecniche di data wrangling e preparazione dei dati sono spesso utilizzate per convertire i dati grezzi in un formato utilizzabile adatto alle tecniche analitiche specifiche che saranno utilizzate. Se i dati non sono disponibili, i data scientist, i data engineer e l'ufficio IT generalmente collaborano per portare i nuovi dati in un ambiente sandbox per i test.

Esplorare e preparare i dati

Ora i dati possono essere esplorati. La maggior parte dei professionisti della data science impiegheranno uno strumento di Data Visualization che organizzerà i dati in grafici e visualizzazioni per aiutarli a vedere modelli generali nei dati, correlazioni di alto livello e qualsiasi potenziale outlier. Questo è anche il momento in cui l'analista inizia a capire quali fattori possono aiutare a risolvere il problema. Ora che l'analista ha una comprensione di base di come i dati si comportano e dei potenziali fattori che possono essere importanti da considerare, egli trasformerà, creerà nuove funzionalità (ovvero variabili) e preparerà i dati per la modellazione.

Testare, mettere a punto e distribuire i modelli

Questo è il punto in cui la maggior parte degli analisti utilizzerà algoritmi per creare modelli dai dati inseriti utilizzando tecniche come machine learning, deep learning, forecasting, o elaborazione del linguaggio naturale (cioé text analytics) per testare diversi modelli. I modelli statistici e gli algoritmi vengono applicati al set di dati per cercare di generalizzare il comportamento della variabile obiettivo (ad esempio, ciò che si sta cercando di prevedere) sulla base dei predittori di input (ad esempio, i fattori che influenzano l'obiettivo).

Gli output sono di solito previsioni, proiezioni, anomalie e ottimizzazioni che possono essere visualizzate in dashboard o rapporti incorporati, o inseriti direttamente nei sistemi aziendali per prendere decisioni vicine al punto di impatto. Successivamente, dopo che i modelli sono stati distribuiti nella visualizzazione o nei sistemi aziendali, vengono utilizzati per valutare nuovi dati di input che non sono mai stati visti prima.

Monitorare, testare, aggiornare e governare i modelli

Dopo che i modelli sono stati rilasciati, essi devono essere monitorati in modo da poter essere aggiornati e riqualificati quando i dati si spostano a causa del cambiamento del comportamento degli eventi del mondo reale. Quindi, è fondamentale che le aziende abbiano una strategia di operazioni di modello in atto per disciplinare e gestire le modifiche ai modelli di produzione.

Oltre a distribuire modelli su dashboard e sistemi di produzione, i data scientist possono anche creare sofisticate pipeline di data science che possono essere richiamate da uno strumento di visualizzazione o dashboard. Spesso, questi hanno un insieme ridotto e semplificato di parametri e fattori che possono essere regolati da un citizen data scientist. Questo aiuta ad affrontare la carenza di competenze di cui sopra. Così, un citizen data scientist, spesso un esperto di business o di dominio, può selezionare i parametri di interesse ed eseguire un flusso di lavoro di data science molto complesso senza doverne comprendere la complessità. Questo permette loro di testare diversi scenari senza dover coinvolgere un data scientist.

In sintesi, i data scientist raccontano una storia utilizzando i dati e poi forniscono insight predittive che il business può utilizzare per applicazioni nel mondo reale. Il processo utilizzato, come mostrato nel grafico qui sotto, è il seguente:

  • Inserimento dati
  • Preparazione dati
  • Applicazione del machine learning
  • Distribuire, segnare e gestire i modelli
  • Output dei dati

Come funziona la data science
Quale supereroe di DataScience sei?
Quale supereroe di DataScience sei?
Scarica questo ebook per apprendere le sei abilità principali di cui hai bisogno per distinguerti come Data Scientist.

Passi chiave nel processo di data science

Comprensione del business

  • Comprendere la decisione commerciale da prendere
  • Stabilire quali dati sono necessari per prendere la decisione
  • Comprendere come cambierà il proprio business a seguito della decisione
  • Determinare l'architettura necessaria per sostenere la decisione
  • Mettere insieme un team tecnico e di gestione del progetto interfunzionale

Capire il processo di Machine Learning

  • Acquisizione e integrazione dei dati
  • Data Exploration, preparazione e pulizia di dati
  • Pre-elaborazione dei dati, trasformazione e generazione di funzionalità
  • Sviluppo e selezione del modello
  • Test e messa a punto del modello
  • Implementazione del modello

Comprendere le operazioni del modello e il processo di governance

  • Repository di modelli, documentazione e controllo delle versioni
  • Calcolo del punteggio del modello, ambito API e strategia del container
  • Ambiente di esecuzione del modello
  • Distribuzione, integrazione e risultati del modello
  • Monitoraggio, test e aggiornamento del modello

Quali competenze sono necessarie per la Data Science?

Skill di business: Collaborazione, lavoro di team, comunicazione, esperienza/conoscenza del business

Skill di analytics: Preparazione dei dati, machine learning, statistiche, analisi geospaziale, data visualization

Competenze informatiche/IT: pipeline di dati, implementazione, monitoraggio, gestione, programmazione/codifica di modelli

Chi usa la Data Science?

"I talenti nascosti" ovvero i Citizen Data Scientist: Utilizzano dati e analisi su base giornaliera per risolvere specifici problemi di business con un'interfaccia point-and-click.

Coloro che sono "orientati al business": Si concentrano sulle iniziative guidate dalla business unit e sul miglioramento delle operazioni aziendali.

Gli "Specialisti": Lavorano in tutte le funzioni e le business unit per risolvere i problemi e collaborare con l'Ufficio IT per rendere operativi i modelli di machine learning. Ottengono buy-in e finanziamenti dai dirigenti.

Gli "assi": Sfruttano una moltitudine di fonti di dati per risolvere nuovi problemi, prototipare soluzioni utilizzando il machine learning ed eseguono flussi di lavoro di data science su scala. Favoriscono strumenti come R, Python, Scala, Hadoop e Spark.

"Il potenziale non sfruttato": Vogliono "buttarsi", ma non pensano di avere il sostegno o la formazione o non lavorano per un'organizzazione con una tecnologia che offre modelli riutilizzabili.

Compiti principali della data science

  • Comprensione e analisi dei problemi
  • Raccolta di dati, preparazione/pulizia dei dati e analisi esplorativa di base dei dati
  • Sviluppo e test del modello
  • Implementazione, monitoraggio e governance del modello
  • Comunicazione dei risultati ai decisori aziendali

Quali sfide affronta la data science?

Di seguito sono riportati alcuni esempi delle sfide che la data science sta affrontando in diversi settori:

Energy

La data science viene utilizzata soprattutto nel settore dell'energia per ottimizzare l'esplorazione, la produzione e le operazioni, prevedendo richieste come:

  • Prevedere i guasti delle attrezzature
  • Prevedere i futuri volumi e prezzi del petrolio
  • Ottimizzare la distribuzione
  • Ridurre le emissioni
  • Analizzare la composizione del terreno
  • Caratterizzare i serbatoi

Finanza e assicurazione

Nel settore finanziario e assicurativo, la data science si concentra soprattutto sulla riduzione dei rischi, l'individuazione delle frodi e l'ottimizzazione dell'esperienza del cliente. Alcuni esempi di utilizzo della data science sono:

  • Prevenzione del rischio di credito
  • Rilevamento delle frodi
  • Analisi dei clienti
  • Gestione del rischio di portafoglio
  • Determinazione della probabilità di abbandono
  • Rispetto dei regolamenti come SOX, Basilea II

Sanità

La data science nell'assistenza sanitaria è usata soprattutto per migliorare la qualità delle cure, migliorare le operazioni e ridurre i costi.

  • Prevedere il rischio di malattia
  • Rilevare reclami fraudolenti
  • Prescrivere dosi personalizzate di farmaci
  • Analizzare le immagini per individuare i tumori
  • Gestire i reclami
  • Migliorare la sicurezza del paziente
  • Determinare chi è più a rischio

Settore farmaceutico

La data science nel settore farmaceutico è utilizzata principalmente per garantire la sicurezza, la qualità del prodotto e l'efficacia dei farmaci come:

  • Determinare il batch ideale
  • Analizzare la sperimentazione clinica
  • Tracciare i prodotti
  • Analizzare la stabilità e la durata
  • Convalidare il reporting e l'analisi per la conformità normativa
  • Analizzare i processi di produzione, i dati

Manufacturing

Nella produzione, la data science aiuta a ottimizzare i processi, migliorare la qualità e monitorare i fornitori. Alcuni esempi sono:

  • Migliorare i rendimenti
  • Ridurre gli scarti, le rilavorazioni, & richiami
  • Rilevare le frodi in garanzia
  • Rispettare i regolamenti
  • Prevedere e impedire i guasti alle attrezzature

Sfide che i data scientist devono affrontare

Dati inaccessibili

Indirizzato da:

  • Combinare facilmente i dati da fonti multiple ed eterogenee in un Virtual Data Layer
  • Manipolare visivamente, pulire e trasformare i dati per renderli pronti per l'analisi
  • Usare l'introspezione e la scoperta delle relazioni per capire e convalidare le relazioni tra i dati per la costruzione di modelli

Dati grezzi

Indirizzato da:

  • Wrangling visivo alimentato dall'IA per suggerire automaticamente le trasformazioni, rimuovere i valori anomali e pulire i dati
  • Controllo automatico della salute dei dati per riempire i valori mancanti, rimuovere le variabili non importanti e preparare i dati per l'analisi
  • Formattazione e preparazione dei dati attraverso fonti disparate su scala

Talento e competenze limitati

Indirizzato da:

  • Usare suggerimenti automatici e insight visive per dare un senso alla complessità
  • Sfruttare la creatività dell'intero team, non solo di alcuni data scientist, e collaborare per tutto il ciclo di vita analitico end-to-end
  • Creare modelli parametrizzati riutilizzabili che possono essere eseguiti da citizen data scientist per scalare il machine learning

Risultati non utilizzati

Indirizzato da:

  • Semplificare l'implementazione ai sistemi operativi per incorporare il machine learning nei processi aziendali al punto di impatto
  • Rendere operativa la data science con il monitoraggio dei modelli, la riqualificazione e la governance
  • Garantire passaggi di mansioni di successo lungo il ciclo di vita analitico end-to-end: pipeline di dati, costruzione di modelli, scoring e sviluppo di app
Prova gratuita di Data Science
TIBCO Data Science - Prova gratuita
Democratizzare, collaborare e rendere operativo il machine learning in tutta l'azienda con TIBCO Data Science.

Risolvere le sfide della data science

Data Science per tutti: Democratizzare e collaborare alla data science con automazione, modelli riutilizzabili e un quadro collaborativo comune per i team trasversali

Accelerare l'innovazione: Prototipare rapidamente soluzioni nuove e flessibili con algoritmi nativi, open source ed ecosistemi di partner, garantendo al contempo la governance

AnalyticOps: Monetizzare il valore della data science concentrandosi sistematicamente sulle sue operazioni attraverso il monitoraggio, la gestione, l'aggiornamento e la governance della pipeline

Formazione: Fornire istruzione e formazione ai citizen data scientist e ad altri che vogliono apprendere le pratiche della data science.

Centro di eccellenza: Stabilire un CoE per promuovere le migliori pratiche e favorire l'innovazione e la riusabilità in modo che la data science possa essere scalata in tutta l'azienda