¿Qué es la transmisión de datos?
La transmisión de datos surge cuando existe un flujo continuo y constante de datos que se generan y procesan. Esto es posible gracias a la tecnología de procesamiento de flujos, donde los flujos de datos se pueden administrar, almacenar, analizar y luego accionar, todo en tiempo real. La transmisión de datos también se puede llamar procesamiento de transmisión de eventos o transmisión de datos (con los que la mayoría de nosotros estamos familiarizados, gracias a Netflix).
Para comprender mejor la transmisión de datos, es mejor comenzar con el concepto de transmisión en sí. La transmisión se refiere a un flujo ininterrumpido de datos que no tiene un punto de partida ni de finalización. Este flujo constante de datos se puede utilizar sin necesidad de descargarlos. Es similar al flujo de un río. Un montón de pequeños arroyos, afluentes y cuerpos de agua que fluyen a diferentes velocidades e intensidades para fusionarse en un solo río, sin principio ni fin desde su punto de vista.
Del mismo modo, los flujos de datos se originan a partir de una variedad de fuentes en numerosos formatos e intensidades de volumen. Estas fuentes pueden ser aplicaciones, dispositivos en red, archivos de registro del servidor, actividades en línea de varios tipos, así como datos basados en la ubicación. Todas estas fuentes se pueden recopilar en tiempo real para formar una única fuente principal de análisis e información en tiempo real.
Un ejemplo de transmisión de datos es una aplicación para compartir viajes. Si realiza una reserva en Uber o Lyft, se le conectará con un conductor en tiempo real y la aplicación podrá decirle qué tan lejos está de usted y cuánto tiempo le llevará llegar a su destino según datos de tráfico en tiempo real. Otros ejemplos de transmisión de datos incluyen operaciones bursátiles en tiempo real y gestión de inventario minorista.

Cómo funciona la transmisión de datos
El concepto de procesamiento de datos no es nuevo. En sus primeros años, la infraestructura heredada se estructuraba más fácilmente porque los datos se generaban a partir de muchas menos fuentes. Se podrían crear estructuras completas de una manera que trabajaría en la especificidad y unificación de los datos y las estructuras de origen.
Sin embargo, los datos modernos provienen de una cantidad infinita de fuentes, que pueden ser cualquier cosa, incluidos sensores de hardware, servidores, dispositivos personales, aplicaciones y navegadores de Internet. Esto hace que sea imposible regular o hacer cumplir la estructura de los datos o permitir el control de la intensidad y la frecuencia de los datos que se generan.
Para poder manejar el flujo de datos moderno, se necesitan aplicaciones con la capacidad de analizar y procesar flujos de datos, un paquete de datos a la vez, en una secuencia. Cada paquete de datos que se genera también deberá tener la fuente y la marca de tiempo, y esto ayuda a que las aplicaciones funcionen con flujos de datos.
Las aplicaciones que se utilizan para trabajar con flujos de datos necesitan dos funciones principales: almacenamiento y procesamiento. Para el almacenamiento, debe tener la capacidad de registrar flujos masivos de datos en una secuencia y de manera consistente. Para el procesamiento, el software debe poder manejar la interacción con el almacenamiento, el consumo de datos almacenados, el análisis de los datos almacenados y la ejecución de los cálculos necesarios sobre los datos.
Existen varias consideraciones y desafíos que surgen con la creación de flujos de datos, y hoy en día existe una variedad de plataformas y herramientas que las organizaciones pueden usar para ayudar a las empresas a construir su infraestructura de transmisión de datos. Los flujos de datos desempeñan un papel integral en Big Data y proporcionan la base para los análisis en tiempo real, así como para integración de datos y la ingestión de datos.
En qué se diferencia el procesamiento por lotes heredado de las transmisiones en tiempo real
En comparación con los primeros días de los métodos heredados de procesamiento de datos por lotes, los flujos modernos en tiempo real pueden ser bastante diferentes. En el procesamiento por lotes heredado, los datos se recopilan en lotes, después de lo cual se procesan, almacenan o analizan según la necesidad. En la transmisión de datos, el flujo de entrada de datos es continuo y se procesa en tiempo real. No hay que esperar a que los datos lleguen en forma de lote.
Los datos de hoy fluyen en flujos constantes y vienen en una variedad de volúmenes y formatos, desde decenas de ubicaciones y desde la nube, en las instalaciones o incluso en una nube híbrida. Los métodos de procesamiento de datos heredados se han vuelto obsoletos en gran medida en las situaciones actuales. Las organizaciones de hoy en día utilizan flujos de datos en tiempo real actualizados al milisegundo, lo que ofrece a las empresas una amplia gama de formas de transformar la forma en que trabajan.
Beneficios de la transmisión de datos
A continuación, un vistazo de las formas en las que se puede aplicar la transmisión de datos para ayudar a las situaciones de trabajo del mundo real.
Alertas mejoradas
El beneficio inmediato y más obvio de las capacidades proporcionadas por la transmisión de datos es cómo ayuda a la transmisión de análisis. Existe la retroalimentación instantánea cuando comienza a ocurrir un evento, anomalía o tendencia. Las alertas no son un aspecto único de la transmisión, pero el simple hecho de que quienes reciben alertas puedan actuar de inmediato una respuesta hace que sea importante. Esto puede suceder porque, a diferencia del procesamiento por lotes, tecnológicamente no hay demora. Estos son algunos ejemplos de cómo pueden funcionar las alertas:
- En el caso de la seguridad cibernética, la transmisión de datos se puede utilizar para señalar un comportamiento fuera de lugar en el curso de una investigación. Una gran cantidad de entornos de seguridad cibernética están optando por Machine Learning para ayudar a identificar comportamientos potencialmente sospechosos tan pronto como puedan ocurrir en una red. Hacer uso de visualizaciones de alerta junto con resultados de Machine Learning es la mejor manera de permitir que un amplio grupo de ciberanalistas detecte amenazas. De esta manera, una empresa podrá expandir su red de seguridad a una gama más amplia de personas que solo expertos en seguridad y desarrolladores.
- La industria minorista también se beneficia enormemente de las alertas. Cada tienda prioriza diferentes cosas y los equipos de tecnología de la información deben tener prioridades para las cuales se puede personalizar el código. La transmisión de datos se puede utilizar para detectar cosas como un inventario bajo o un interés inusualmente alto por parte de los clientes. Las herramientas analíticas se activan para enviar alertas al personal no técnico en lugar del personal técnico, y esto permite respuestas positivas donde más importa: en el taller.
Uso de análisis histórico y basado en flujo de datos en tándem
Existen numerosas situaciones en las que los datos históricos se utilizan junto con el análisis de datos en tiempo real para brindar a las organizaciones una imagen más completa de su negocio. El mejor caso de uso para explicar esto sería en la evaluación de riesgos para instituciones financieras. Los procesos tienen en cuenta todo el círculo de la transacción, desde el pasado, que ya se ha ejecutado, hasta el presente, que implica cambios, transferencias o cierres.
Al colocar un evento comercial en contexto, esto significa que los datos sobre las transacciones del evento ayudarán a los organizadores a comprender los patrones que se aplican a su conjunto más amplio de carteras. La información recopilada a partir de un análisis de datos históricos y en tiempo real en esta situación puede significar la diferencia entre el éxito y una pérdida masiva para eventos futuros.
Beneficios en la creación de registros completos
En casi todos los aspectos de la vida cotidiana, comercial o de otro tipo, el Internet de las cosas (IoT) es el camino a seguir y muchas organizaciones ya lo utilizan. Sin embargo, el gran problema aquí es que se pueden generar múltiples registros idénticos a partir de la transmisión de datos, lo que resulta en una duplicación de la información. Hacer un seguimiento de la fuente de datos, si bien es esencial, dará como resultado que la misma información se repita varias veces. Con miles de puntos de origen, esto puede volverse problemático rápidamente y hacer que gran parte de los datos sean redundantes. Para que la utilización de IoT sea una opción más viable, lo que se puede hacer es poner toda la información repetitiva en una sola tabla de búsqueda. Unir el flujo de datos con la tabla de búsqueda ayudará a crear un registro completo sin el problema de la repetición.
Podemos ver un ejemplo de esta solución en acción en una plataforma petrolera, con la información repetitiva del nombre y la ubicación del fabricante. Colocar estos dos detalles en una tabla de búsqueda y unirlos con el flujo de datos con una clave, como 'manu_id', ahorrará una gran cantidad de espacio de datos. Esta clave luego se puede usar para determinar si la ubicación afecta varios aspectos, como el desgaste, las capacidades de rendimiento, los requisitos de mantenimiento adicionales y más. Mediante el uso de una tabla de búsqueda, el tiempo improductivo se puede reducir considerablemente.
Información que no se puede encontrar en ningún otro lugar
Actualmente, existe un interés y desarrollo sin precedentes centrado en las tecnologías de transmisión. Esto está siendo impulsado por los avances tecnológicos e impulsado aún más por la comprensión de que el análisis de la transmisión de datos aporta un inmenso valor comercial. Las empresas que buscan su próxima ventaja sobre la competencia recurrirán a la transmisión de datos para obtener información que no pueden generar a partir de sus enfoques analíticos existentes. Algunas de las áreas en las que esta tecnología tiene las aplicaciones beneficiosas más obvias incluyen:
- La utilización de los datos de ubicación
- Detección de fraude
- Operaciones bursátiles en tiempo real
- Marketing, ventas, y analítica empresarial
- Seguimiento y análisis de la actividad del cliente o usuario
- Supervisión y elaboración de informes sobre los sistemas informáticos internos
- Ayudar con el monitoreo de registros
- Información de seguridad y gestión de eventos (SIEM)
- Inventario minorista y de almacén a través de múltiples canales
- Mejorar la coincidencia de viajes compartidos
- Combinación de datos para su uso en Machine Learning y análisis basados en inteligencia artificial
- Abra nuevos caminos en el análisis predictivo
Desafíos en la creación de aplicaciones de transmisión de datos
Como ocurre con la mayoría de los sistemas tecnológicos, la transmisión de datos también conlleva una serie de desafíos. A continuación, un vistazo a algunas de las dificultades asociadas con la creación de aplicaciones de transmisión de datos:
Escalabilidad en un entorno de trabajo
En el caso de una falla del sistema, los datos de registro provenientes de cada dispositivo pueden aumentar desde una tasa de envío de kilobits por segundo a megabits por segundo. Cuando se agrega, la tasa de envío puede incluso escalar hasta gigabits por segundo. El aumento necesario en la capacidad, los recursos y los servidores requeridos a medida que estas aplicaciones se amplían y la cantidad de datos sin procesar generados aumenta al mismo tiempo que debe ocurrir de manera instantánea. Ser capaz de diseñar aplicaciones integradas que puedan ampliarse en entornos de trabajo que transmiten datos es un trabajo exigente que requiere tener en cuenta muchos procesos simultáneos diferentes.
La importancia de las secuencias
Determinar la secuencia de datos en un flujo de datos no es un problema menor. La secuencia de datos dentro de un flujo de datos es clave para saber qué tan bien pueden utilizarlo las aplicaciones. Si los desarrolladores buscan depurar un problema con una aplicación de chat de bot, la secuencia de la conversación es importante para determinar dónde pueden estar fallando las cosas. Cada línea en la revisión del registro agregado debe estar en secuencia. El problema suele surgir de discrepancias en la secuencia del paquete de datos generado y la secuencia en la que el paquete de datos llega al punto de destino. También puede haber diferencias en las marcas de tiempo, así como en los relojes de los dispositivos que generan los datos.
Mantener la consistencia y la durabilidad
Entre los problemas más difíciles con el procesamiento de la transmisión de datos se encuentra su consistencia y acceso. Los datos generados a menudo se distribuyen a múltiples centros de datos en todo el mundo. Existen posibilidades de que, para cuando se acceda a él en un centro de datos, ya se haya utilizado y se haya hecho redundante en otro. La durabilidad de los datos cuando se trabaja con flujos de datos en la nube también es un desafío constante para los desarrolladores.
Tolerancia a fallas y garantías de datos
Es importante tener en cuenta tanto la tolerancia a fallas como las garantías de datos cuando se trabaja con el procesamiento de transmisión de datos en sistemas distribuidos. Cuando tiene datos provenientes de numerosas fuentes y ubicaciones en una variedad de formatos y volúmenes variables, los sistemas organizacionales deben estar preparados para evitar las interrupciones que pueden surgir de un único punto de falla. Estos sistemas deberían poder almacenar flujos masivos de datos de manera duradera. Asegurar esto no es tarea fácil.
Cualquier interrupción en el flujo constante de datos también respalda el sistema. Si el sistema no puede almacenar la información interrumpida y luego tener la capacidad de ponerse al día, todo el sistema está soportando una gran carga de datos retrasados.

El futuro de la transmisión de datos
Ha habido y sigue habiendo un rápido crecimiento e interés en el uso de software como servicio, aplicaciones móviles y basadas en Internet, y el uso de ciencia de datos y análisis avanzado por parte de un amplio espectro de organizaciones. Casi todas las empresas medianas y grandes tienen algún tipo de proyecto de transmisión de datos que está en curso o en proceso. Todo esto se basa en el deseo de mantenerse a la vanguardia y analizar los recorridos de los clientes, los datos del flujo de clics y varios otros casos de uso que pueden generar informes útiles.
Hubo una vez un punto en el que la transmisión de datos se concentraba en un pequeño grupo de personas dentro de una organización, principalmente ingenieros de big data y científicos de datos. Estos profesionales trabajaron con conjuntos de habilidades increíblemente complejos y en flujos como Spark, Flink, MapReduce y Scala. Trabajaron en conjunto con analistas comerciales y profesionales de inteligencia comercial, todos con un enfoque principal en ejecutar consultas SQL en bases de datos relacionales.
A medida que avanzamos en un nuevo año, esto está a punto de cambiar. Dado que cada vez más empresas confían en las fuentes de transmisión, los usuarios comerciales querrán poder trabajar con la transmisión de datos combinados con otros conjuntos de datos, en forma de paneles interactivos y análisis ad-hoc, al igual que los equipos de desarrollo de software lo harían. Esto permitirá que los datos sean más accesibles para todas las personas en todas las jerarquías de una organización.