¿Qué es Data Science?

La ciencia de datos es un enfoque multidisciplinario para encontrar, extraer y hacer emerger patrones en los datos a través de una fusión de métodos analíticos, la experiencia en el dominio y la tecnología. Este enfoque generalmente incluye los campos de minería de datos, pronósticos, Machine Learning, analítica predictiva, estadísticas y Text Analytics . A medida que los datos se desarrollan a un ritmo alarmante, comienza la carrera para que las empresas aprovechen los conocimientos de sus datos. Sin embargo, la mayoría de las organizaciones se enfrentan a una escasez de expertos para analizar su Big Data para encontrar información y explorar problemas que la empresa ni siquiera sabía que las tenía. Para darse cuenta y monetizar el valor de la ciencia de datos, las organizaciones deberán incorporar los conocimientos predictivos, los pronósticos y las estrategias de optimización en los sistemas operativos y comerciales. En la actualidad, muchas empresas ahora están capacitando a sus expertos con plataformas que les ayudarán a realizar sus propios proyectos y tareas de Machine Learning. Ser capaces de extraer las tendencias y las oportunidades en las cantidades masivas de datos que se incorporarán en una empresa le dará a la misma una ventaja competitiva.

La ciencia de datos incluye capacidades descriptivas, de diagnóstico, predictivas y prescriptivas, lo cual significa que con la ciencia de datos, las organizaciones podrán usar los datos para averiguar qué sucedió, por qué sucedió, qué sucederá y qué deberán hacer con el resultado anticipado.

Comprender cómo funciona la ciencia de datos

Conceptualmente, el proceso de la ciencia de datos es muy simple de entender e involucra los siguientes pasos:

  1. Comprender el problema empresarial
  2. Recopilar e integrar los datos sin procesar
  3. Explorar, transformar, limpiar y preparar los datos
  4. Crear y seleccionar los modelos basados en los datos
  5. Evaluar, ajustar e implementar los modelos
  6. Monitorear, evaluar, actualizar y controlar los modelos

Cómo funciona la ciencia de datos

Comprender el problema empresarial

El proceso de la ciencia de datos comienza con la comprensión del problema que el usuario empresarial está tratando de resolver. Por ejemplo, un usuario empresarial podría preguntar "¿cómo podría aumentar las ventas?" o "¿qué técnicas funcionarían mejor para vender a mis clientes?". Estas son preguntas muy amplias y ambiguas que no conducen a una hipótesis de investigación inmediata. El trabajo del científico de datos es descomponer estos problemas empresariales en hipótesis comprobables e investigables. Por ejemplo, la pregunta "¿cómo puedo aumentar las ventas?" podría dividirse en varias preguntas más pequeñas, como “¿qué condiciones conducen al aumento de las ventas? ¿fue una promoción, el clima o la temporada?”, “¿cómo podemos optimizar nuestras ventas en función de las limitaciones?” y “¿cómo serán las ventas en cada tienda el día de mañana/la próxima semana/el próximo mes?”. Es importante recordar que es necesario comprender la decisión empresarial que se deberá asumir y trabajar en retrospectiva a partir de allí. ¿cómo cambiaría el proceso empresarial si pudiera predecir algo dentro de una hora/día/semana/mes en el futuro?

Recopilar e integrar los datos sin procesar

Una vez que se comprende el problema empresarial, el siguiente paso consiste en recopilar e integrar los datos sin procesar. Primero, el analista observará qué datos están disponibles. A menudo, los datos estarán en una gran variedad de formatos y sistemas, por lo que frecuentemente las técnicas de Data Wrangling y la preparación de datos se utilizan para convertir los datos sin procesar en un formato utilizable adecuado para las técnicas analíticas específicas que se emplearán. Si los datos no están disponibles, los científicos de datos, los ingenieros de datos y el departamento de TI normalmente colaborarán para llevar los nuevos datos a un entorno de pruebas.

Explorar y preparar los datos

Ahora que los datos se pueden explorar, la mayoría de los profesionales de la ciencia de datos emplearán una herramienta de visualización de datos que organizará los datos en gráficos y visualizaciones para ayudarlos a ver patrones generales en los datos, correlaciones generalizadas y posibles valores atípicos. Este es también el momento en que el analista comienza a comprender qué factores pueden ayudar a resolver el problema. Ahora que el analista tiene una comprensión básica de cómo se comportan los datos y los factores potenciales que pueden ser importantes para su consideración, el analista transformará, creará nuevas características (también conocidas como variables) y preparará los datos para el modelado.

Evaluar, ajustar e implementar los modelos

Este es el punto en el que la mayoría de los analistas utilizarán algoritmos para crear modelos a partir de los datos de entrada utilizando técnicas como Machine Learning, Deep Learning, los pronósticos o el procesamiento del lenguaje natural (también conocido como Text Analytics) para evaluar diferentes modelos. Los modelos y algoritmos estadísticos se aplican al conjunto de datos para intentar generalizar el comportamiento de la variable objetivo (por ejemplo, lo que está intentando predecir) en función de los predictores de entrada (por ejemplo, factores que influyen en el objetivo).

Los resultados suelen ser predicciones, pronósticos, anomalías y optimizaciones que se pueden mostrar en tableros o informes integrados, o se pueden incorporar directamente en los sistemas empresariales para tomar decisiones cercanas al punto de impacto. Luego, una vez que los modelos se implementen en los sistemas empresariales o de visualización, se utilizarán para conseguir nuevos datos de entrada que antes no se habían observado.

Monitorear, evaluar, actualizar y controlar los modelos

Una vez que se implementan los modelos, se deberán monitorear para que puedan actualizarse y re-adaptarse a medida que se modifican los datos debido al cambio del comportamiento en los eventos del mundo real. Por lo tanto, es imperativo que las organizaciones cuenten con una estrategia de operaciones modelo para controlar y gestionar los cambios en los modelos de producción.

Además de implementar los modelos en los tableros y los sistemas de producción, los científicos de datos también pueden crear canales sofisticados de ciencia de datos a los que se puede recurrir desde una herramienta de visualización o un tablero. A menudo, estos tienen un conjunto reducido y simplificado de parámetros y factores que pueden ser ajustados por un Citizen Data Scientist, lo cual ayudará a abordar la escasez de aptitudes mencionada anteriormente. Por lo tanto, un Citizen Data Scientist, a menudo un experto en el ámbito de los negocios, podrá seleccionar los parámetros de interés y ejecutar un flujo de trabajo de ciencia de datos muy complejo sin la necesidad de entender la complejidad detrás del mismo lo que permitirá evaluar diferentes escenarios sin tener que involucrar a un científico de datos.

En resumen, los científicos de datos hilvanan una historia utilizando datos y luego brindan información predictiva que la empresa podrá aplicarlas en el mundo real. El proceso utilizado, como se muestra en el gráfico a continuación, es:

  • Datos de entrada
  • Datos de preparación
  • Aplicar Machine Learning
  • Implementar, lograr y administrar modelos
  • Salida de datos

Cómo funciona la ciencia de datos
¿Qué superhéroe de DataScience eres?
¿Qué superhéroe de DataScience eres?
Descargue este libro electrónico para aprender las seis aptitudes principales que necesita para diferenciarse como científico de datos.

Pasos clave en el proceso de ciencia de datos

Comprensión empresarial

  • Comprender la decisión empresarial que se deberá tomar.
  • Determinar qué datos se necesitan para tomar una decisión
  • Comprender cómo cambiará su actividad comercial como resultado de la decisión.
  • Determinar la arquitectura necesaria para respaldar la decisión
  • Reunir un equipo técnico y de gestión de proyectos interdisciplinario

Comprender el proceso Machine Learning

  • Adquisición e integración de datos
  • Exploración, preparación y limpieza de datos
  • Pre-procesamiento, transformación y generación de funciones de datos
  • Desarrollo y selección de modelos
  • Prueba y ajuste de modelos
  • Despliegue de modelos

Comprender el proceso de dirección y las operaciones del modelo

  • Repositorio, documentación y control de versiones de modelos
  • Calificación, plataforma API y estrategia de contenedores de modelos
  • Entorno de ejecución de modelos
  • Despliegue, integración y resultados de modelos
  • Monitoreo, evaluación y actualización de modelos

¿Qué aptitudes se requieren para la ciencia de datos?

Aptitudes empresariales: colaboración, trabajo en equipo, comunicación, especialización/conocimiento empresarial

Aptitudes analíticas: preparación de datos, Machine Learning, estadísticas, análisis geoespacial, visualización de datos

Ciencias de la computación/Aptitudes de TI: canalización de datos, implementación de modelos, monitoreo, administración, programación/codificación

¿Quiénes utilizan la ciencia de datos?

“The Hidden Talent”, también conocidos como Citizen Data Scientists: utilizan los datos y la analítica de manera regular para resolver problemas empresariales específicos con una interfaz de "señalar y activar".

“The Business-driven”: se centran en las iniciativas dirigidas por la unidad de negocios y en la mejora de las operaciones comerciales.

“Los especialistas”: trabajan en todas las funciones y las unidades de negocios para resolver problemas y colaboran con TI para poner en funcionamiento los modelos de Machine Learning para la aceptación y el financiamiento de los ejecutivos.

“The Hotshots”: aprovechan una multitud de fuentes de datos para resolver nuevos problemas, realizan un prototipo de soluciones mediante Machine Learning y ejecutan flujos de trabajo de la ciencia de datos a escala. Favorecen a herramientas como R, Python, Scala, Hadoop y Spark.

"The Untapped Potential": Desean intervenir, pero no sienten que tienen el apoyo o la capacitación o no trabajan para una organización con tecnología que ofrece modelos reutilizables.

Principales tareas de la ciencia de datos

  • Comprensión y análisis de problemas
  • Recopilación de datos, preparación/limpieza de datos y análisis de datos exploratorios básicos
  • Desarrollo y evaluación de modelos
  • Implementación, monitoreo y dirección de modelos
  • Comunicación de los resultados a los responsables de la toma de decisiones empresariales

¿Qué desafíos aborda la ciencia de datos?

A continuación, se muestran algunos ejemplos de los desafíos que la ciencia de datos está abordando en diferentes industrias:

Energía

La ciencia de datos se utiliza principalmente en el sector energético para optimizar la exploración, la producción y las operaciones al tiempo que se anticipa a demandas como:

  • Predecir fallas en el equipo
  • Pronosticar volúmenes y precios futuros del petróleo
  • Optimizar la distribución
  • Reducir emisiones
  • Analizar la composición del suelo
  • Caracterizar los yacimientos

Finanzas y seguros

En la industria de las finanzas y los seguros, la ciencia de datos se centra principalmente en reducir los riesgos, detectar el fraude y optimizar la experiencia del cliente. Algunos ejemplos de cómo se utiliza la ciencia de datos son:

  • Predecir el riesgo de crédito
  • Detecta fraudes
  • Analizar clientes
  • Gestionar el riesgo de la cartera
  • Determinar la probabilidad de migración de clientes
  • Cumplir con regulaciones como SOX, Basel II

Sector sanitario

La ciencia de datos en el cuidado de la salud se utiliza principalmente para mejorar la calidad de la atención, mejorar las operaciones y reducir los costos.

  • Predecir el riesgo de enfermedad
  • Detectar reclamos fraudulentos
  • Prescribir dosis personalizadas de medicamentos
  • Analizar imágenes para detectar un tipo de cáncer
  • Gestionar reclamaciones
  • Mejorar la seguridad del paciente
  • Determinar quién está en mayor riesgo

Industria farmacéutica

La ciencia de datos en el sector farmacéutico se utiliza principalmente para garantizar la seguridad, la calidad del producto y la eficacia de los medicamentos, tales como:

  • Determinar el lote ideal
  • Analizar ensayo clínicos
  • Trazas
  • Analizar la estabilidad y la vida útil
  • Validar informes y la analítica para el cumplimiento normativo
  • Analizar procesos y datos de fabricación

Sector industrial

En la fabricación , la ciencia de datos ayuda a optimizar los procesos, mejorar la calidad y monitorear a los proveedores. Algunos ejemplos son:

  • Mejorar los rendimientos
  • Reducir los desechos, el re-procesamiento y las retiradas de productos
  • Detectar fraudes sobre garantías
  • Cumplir con las regulaciones
  • Predecir y prevenir fallas en los equipos

Desafíos a los que se enfrentan los científicos de datos

Datos inaccesibles

Temas tratados al:

  • Combinar fácilmente los datos de una gran diversidad de fuentes en una capa de datos virtual
  • Manipular, limpiar y transformar visualmente los datos para que estén listos para el análisis.
  • Uso de la introspección y la detección de relaciones para comprender y validar las relaciones de datos para la construcción de modelos.

Datos sucios

Temas tratados al:

  • La AI impulsó el manejo visual para sugerir transformaciones automáticamente, eliminar valores atípicos y limpiar datos
  • Verificación automatizada del estado de los datos para completar los valores faltantes, eliminar variables sin importancia y preparar los datos para el análisis.
  • Formatear y preparar datos en distintas fuentes a escala

Limitaciones en talento y experiencia

Temas tratados al:

  • Utilizar sugerencias automatizadas e información visual para dar sentido a la complejidad
  • Aprovechar la creatividad de todo el equipo, no solo de algunos científicos de datos, para colaborar en todo el ciclo de vida analítico de un extremo a otro
  • Crear modelos parametrizados reutilizables que podrán ejecutar los Citizen Data Scientist para ajustar Machine Learning

Resultados fuera de uso

Temas tratados al:

  • Simplificar la implementación en los sistemas operativos para integrar Machine Learning en los procesos empresariales en el punto de impacto.
  • Operacionalización de la ciencia de datos con el monitoreo, la readaptación y la dirección de modelos
  • Garantizar transferencias exitosas en todo el ciclo de vida analítico de un extremo a otro: canalización de datos, creación de modelos, calificación y desarrollo de aplicaciones.
Prueba gratuita de ciencia de datos
Pruebe TIBCO Data Science - Prueba gratuita
Democratice, colabore y ponga en funcionamiento Machine Learning en toda su organización con TIBCO Data Science.

Resolución de los desafíos de la ciencia de datos

Ciencia de datos para todos: democratice y colabore en la ciencia de datos con la automatización, los modelos reutilizables y una plataforma de colaboración común para equipos interdisciplinarios.

Acelerar la innovación: realice rápidamente prototipos de soluciones nuevas y flexibles con algoritmos nativos, código abierto y ecosistemas de socios al tiempo que garantiza la dirección del mismo.

AnalyticOps: Monetice el valor de la ciencia de datos centrándose sistemáticamente en sus operaciones a través del monitoreo, la gestión, la actualización y la dirección de la canalización.

Capacitación: brinde educación y capacitación a los Citizen Data Scientists y a otras personas que tengan la intención de aprender las prácticas de la ciencia de datos.

Centro de excelencia: establezca un CoE para promover las mejores prácticas y fomentar la innovación y la reutilización para que la ciencia de datos se pueda ajustar en toda la empresa