¿Qué es la gestión de datos de referencia?
La gestión de datos de referencia es el proceso de gestión de clasificaciones y jerarquías entre sistemas y líneas de negocio, lo cual puede incluir realizar análisis de datos de referencia, rastrear cambios en los datos de referencia, distribuir datos de referencia y más. Para una gestión eficaz de los datos de referencia, las empresas deberán establecer políticas, marcos y estándares para dirigir y gestionar los datos de referencia tanto internos como externos.
Después de alcanzar una importancia generalizada en 2012, la gestión de datos de referencia (RDM) se convirtió en un elemento clave en la gestión de datos maestros (MDM). RDM proporciona los procesos y tecnologías para reconocer, armonizar y compartir conjuntos de datos codificados y relativamente estáticos para "referencia" por parte de múltiples grupos (personas, sistemas y otros dominios de datos maestros). Dicho sistema proporciona gobernanza, proceso, seguridad y control de auditoría en torno al dominio de los datos de referencia. Además, los sistemas RDM también gestionan mapeos complejos entre diferentes representaciones de datos de referencia y diferentes dominios de datos en toda la empresa. La mayoría de los sistemas RDM contemporáneos también brindan conectividad, generalmente una capa de servicio de arquitectura orientada a servicios (SOA) (también conocida como microservicios), para compartir datos de referencia con aplicaciones empresariales, analíticas/ciencia de datos y aplicaciones de gobernanza.

¿Por qué es tan importante la gestión de datos de referencia?
Antes de la disponibilidad de soluciones RDM comerciales, las organizaciones creaban soluciones personalizadas utilizando software existente como RDBMS, hojas de cálculo, software de flujo de trabajo (gestión de procesos de negocio o BPM) y otras herramientas. Estos sistemas a menudo carecían de gestión de cambios, controles de auditoría y seguridad/permisos granulares. Como resultado, estas soluciones tradicionales se convirtieron cada vez más en riesgos de cumplimiento. Debido a que los datos de referencia se utilizan para impulsar los procesos comerciales clave y la lógica de la aplicación, los errores en los datos de referencia pueden tener un impacto comercial negativo y multiplicador importante. Discrepancias en los datos de referencia: (1) afectan la calidad de los datos; (2) afectan la integridad de los informes de BI; y (3) también son una fuente común de fallas en la integración de aplicaciones. Así como las empresas ya no construyen sus propios sistemas CRM, ERP y MDM, las organizaciones también comienzan a adquirir soluciones comerciales RDM o RDG, que pueden adaptarse o configurarse fácilmente y cuentan con el soporte completo y continuo de un importante proveedor de software.
¿Cuáles son los beneficios de la gestión de datos de referencia?
Uno de los beneficios de la gestión de datos de referencia es que, al centralizar el control, garantizará que se mantengan la coherencia y el cumplimiento. Ayuda a los equipos comerciales a acceder, distribuir y actualizar datos de referencia en múltiples sistemas de una manera coherente y controlada para satisfacer las necesidades comerciales. La gestión eficaz de los datos de referencia permitirá que una empresa amplíe sus operaciones y procesos de análisis, también podrá proporcionar la capacidad de reaccionar rápidamente a los nuevos requisitos de datos o cambios del mercado sin reestructurar los datos de toda la empresa.
La gestión de datos de referencia aportará coherencia a sus datos. Al administrar cada versión de los datos de referencia y conectarlos a través de cuadros de correspondencia, las empresas lograrán una coherencia semántica a lo largo del tiempo y entre diferentes estándares. Sin esta coherencia, las organizaciones sufrirían una mala calidad de los datos y los pequeños errores podrían convertirse en errores costosos a largo plazo.

Criterios de evaluación de la gestión de datos de referencia
- Capacidad para mapear datos de referencia: además de los conjuntos de datos de referencia convencionales (códigos de país, monedas, idiomas, etc), un centro RDM deberá administrar nuevas versiones específicas de aplicaciones, industrias, y casos de uso, y también adaptaciones locales (por ejemplo, versiones en idiomas extranjeros). Además, es necesario gestionar las relaciones entre los conjuntos de datos de referencia y todas esas permutaciones.
- Administración de tipos de datos de referencia: uno de los problemas comunes con las soluciones de datos de referencia propios es que un solo modelo de datos no puede representar fácilmente los diferentes tipos de datos de referencia. El modelo de datos deberá ampliarse para admitir nuevos conjuntos de datos de referencia y nuevas propiedades específicas para los diversos tipos de datos de referencia que se gestionan.
- Gestión y experiencia del usuario de conjuntos de datos de referencia: las soluciones RDM deberán diseñarse pensando en el usuario empresarial. Al proporcionar interfaces de usuario intuitivas y un modelo de datos flexible, una empresa puede instalar, configurar e importar datos de referencia rápidamente con una necesidad mínima de participación continua de TI.
- Arquitectura/Rendimiento: debido a la naturaleza altamente relacionada de los datos de referencia, el modo semántico es útil para administrar las relaciones entre conjuntos de datos de referencia y a través del tiempo. Claramente, la necesidad de documentar los datos de referencia y sus complejas conexiones con otros dominios requiere que la plataforma tenga un modelo sólido de datos/semántica.
- Gestión de jerarquías sobre conjuntos de datos de referencia: las tablas de códigos de referencia pueden ser listas planas o jerarquías. La estructura jerárquica es un aspecto clave de los datos de referencia que deberá administrarse además de los valores y las relaciones de mapeo.
- Conectividad: Es vital que una solución RDM proporcione múltiples medios de conexión flexibles para proporcionar la máxima "accesibilidad". Los datos de referencia deberán estar fácilmente disponibles para los sistemas de aplicaciones downstream, suscriptores remotos, etc. Además, cada consumidor de datos RDM deberá poder acceder a los datos en un medio y formato que le resulte más conveniente.
- Importación y exportación: una solución RDM deberá permitir la importación y exportación de datos de referencia en múltiples formatos. Por ejemplo, para mapeos entrantes y salientes desde/hacia definiciones de datos, orígenes y destinos, como archivos planos o bases de datos, así como formatos CSV y XML.
- Compatibilidad con el control de versiones: las soluciones RDM también deberán admitir el control de versiones de conjuntos de datos de referencia y mapeos relacionados. Este control de versiones se utiliza junto con la gestión del ciclo de vida para gestionar los cambios en los conjuntos de datos de referencia y los mapeos a lo largo del tiempo.
- Seguridad y control de acceso: las soluciones RDM modernas brindan una sólida seguridad basada en roles. Por ejemplo, el acceso CRUD a una entidad en particular deberá estar controlado por el rol del usuario, el grupo del que el usuario es miembro y la propiedad relacionada de la entidad, más el estado del ciclo de vida de la propia entidad.
- Gestión del ciclo de vida de un extremo a otro: las soluciones RDM deberán emplear la UI de gobernanza y los procesos de flujo de trabajo para proporcionar soporte para la gobernanza formal de los datos de referencia, poniendo la gestión del ciclo de vida de un extremo a otro (E2E) de los datos de referencia empresarial en manos de los usuarios comerciales, lo cual reducirá la carga sobre TI y mejorará la calidad general de los datos utilizados en toda la organización.