Gestión de datos maestros

  • Josep Curto Díaz

PID_00283700
Segunda edición: octubre 2021
© de esta edición, Fundació Universitat Oberta de Catalunya (FUOC)
Av. Tibidabo, 39-43, 08035 Barcelona
Autoría: Josep Curto Díaz
Producción: FUOC
Todos los derechos reservados
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada, reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita del titular de los derechos.

Introducción

El modelo de datos de las organizaciones se está volviendo más y más complejo al tener que dar soporte a lo que conocemos como la transformación digital. Esta transformación se traduce en que los activos digitales empresariales están distribuidos (en múltiples sistemas de información, dispositivos y en la nube) y desacoplados (en diferentes capas de abstracción y servicios), y al mismo tiempo deben ser analizados (mediante técnicas analíticas) y cumplir los marcos de regulación pertinentes (tanto generales como vinculados al sector de actividad).
Sin una estrategia adecuada, frecuentemente se generan silos de información que conforman un visión dispersa, fragmentada e incoherente de clientes, productos, empleados, proveedores y procesos.
Para dar respuesta a la necesidad de gestionar esta complejidad, dentro del gobierno del dato, existe lo que se conoce como la gestión de datos maestros (master data management) que permite limpiar, racionalizar e integrar los datos en un sistema de registro empresarial para dar soporte a todas las funciones básicas de la organización.
En una primera instancia podemos entender que master data management pone el foco en el principio de estandarización del gobierno de datos.
En este módulo estudiaremos qué es y en qué consiste la gestión de datos maestros, qué es un programa de gestión de datos maestros, cómo se desarrolla dicho programa, qué aspectos es necesario tener en cuenta para llevar a buen puerto esta iniciativa y qué técnicas y tecnologías son necesarias para la gestión de datos maestros.

Objetivos

Este material didáctico está dirigido a:
  1. Desarrolladores y consultores que quieren conocer qué significa gestión de datos maestros o master data management.

  2. Desarrolladores y consultores que quieren ayudar al desarrollo de estrategias de negocio que incluyan gestión de datos maestros.

  3. Gestores que están interesados en la transformación digital de su organización y en la inclusión de gestión de datos maestros como uno de sus pilares fundamentales.

En los materiales didácticos de este módulo encontraremos las herramientas indispensables para asimilar los siguientes objetivos:
  1. Entender el concepto de master data management, las situaciones en las que es necesario desplegar una solución de este tipo y las ventajas que proporciona.

  2. Conocer en qué consiste un programa de gestión de datos maestros.

  3. Enumerar y dar a conocer mejores prácticas de gestión de datos maestros.

  4. Conocer técnicas y tecnologías para la gestión de datos maestros.

Si bien la obra es autocontenida en la medida de lo posible, los conocimientos previos necesarios son:
  1. Conocimientos básicos sobre business intelligence, big data y data science.

  2. Conocimientos sobre estrategia y gestión de las tecnologías de la información (TI).

Se introducirán los conceptos necesarios para el seguimiento de este material.

1.Gestión de datos maestros

1.1.La necesidad de la gestión de datos maestros

La gestión de datos maestros está recibiendo cada vez más atención en el contexto empresarial. Existen diversos motivos para este interés. Por un lado, el dato juega un papel fundamental en la generación de ingresos, el control de costes y la mitigación de riesgos. Ser capaces de compartir, almacenar, proteger y recuperar los datos relevantes cuando es necesario puede derivar en importantes ventajas competitivas. En definitiva, las organizaciones deben cumplir normativas (propias del sector y genéricas) y verificar requerimientos estratégicos de negocio como los siguientes:
Con el objetivo de capturar, retener y generar valor de los clientes, toda organización necesita una visión de 360 grados de los datos de clientes, desde sus datos de perfil y contrato hasta las transacciones e interacciones con cada uno de los departamentos y canales de venta y soporte.
Con el objetivo de establecer un análisis completo de gastos, el departamento financiero debe acceder a toda la información con independencia del centro de coste.
Desde junio de 2007, las organizaciones que tienen procesos industriales deben cumplir la Ley de la Unión Europea (UE) sobre las sustancias químicas y su uso y seguridad, conocida como REACH (1) (Registro, evaluación, autorización y restricción de sustancias y preparados químicos). Los objetivos de esta ley son: proteger mejor la salud y el medio ambiente de los posibles riesgos derivados de las sustancias químicas, promover el uso de métodos alternativos de comprobación de la seguridad, y mejorar la manipulación y el uso de estas sustancias con total seguridad en todos los sectores de la industria.
En el sector financiero, las organizaciones que participan en el sector deben tener en cuenta directivas como MiFID II (2) (Markets in Financial Instruments Directive), que armoniza la regulación sobre los mercados de valores, los instrumentos financieros que en ellos se negocian, la organización y relación con los clientes de las entidades financieras que prestan servicios de inversión y protección al inversor. En esencia, esta directiva obliga a una mayor transparencia de los mercados en aras de la mayor proyección de los inversores, lo que obliga a que todo tipo de dato de la entidad deben ser consistentes, actualizados y completos.
Todas estas responsabilidades empujan a las organizaciones a dedicar tiempo a gestionar el dato. Sin embargo, muchas organizaciones o bien no han desarrollado estas
estrategias de forma integrada y transversal, o bien solo son iniciativas puntuales o manuales, por lo que frecuentemente se ven obligadas a arreglar y mejorar el dato en lugar de usarlo y tomar mejores decisiones. Cuando se llega a esta situación, se ha llegado al límite de las capacidades de mantenimiento manual y el dato se convierte en un activo tóxico para la organización, tal y como apunta Nassim Nicholas Taleb. El principal problema de tener que arreglar el dato de forma recurrente es la pérdida de confianza de los usuarios de negocio, puesto que no pueden usar el dato para la toma de decisiones cuando realmente se necesita y tiene su máximo valor.

1.2.¿Qué es master data management?

Existen muchas formas de clasificar los datos. En el contexto de estos materiales vamos a introducir una nueva. Según Reichert, Otto y Österle, los datos de una organización pueden dividirse en datos maestros, datos transaccionales y datos de inventario.
  • Datos maestros: Hacen referencia a las características de los objetos básicos de negocio dentro de una organización. Este tipo incluye datos de materiales, productos, proveedores, clientes, empleados y activos. Por ejemplo, respecto del cliente, su nombre y apellidos forman parte de los datos maestros.

  • Datos transaccionales: Describen las transacciones comerciales y representan la entrada y salida de los procesos empresariales. Se crea constantemente en el curso de las actividades empresariales, hace referencia a datos maestros e indica cambios en los datos de inventario. Por ejemplo, imaginemos que tenemos una cafetería, la compra de un café y una galleta para desayunar y los datos vinculados a dicha compra (importe, hora...) son datos transaccionales.

  • Datos de inventario: Hacen referencia a los niveles de existencias y cuentas. Por ejemplo, si continuamos con el tema de la cafetería, la cantidad en existencia de café, en qué fecha se compró o la fecha de caducidad son datos de inventario.

Cada uno de estos tipos de datos tiene características diferentes que podemos comparar y que nos permiten comprender mejor las diferencias entre ellos (y que se resumen en la tabla 1):
  • Referencia temporal: Hace referencia a la dependencia del dato respecto de un determinado punto en el tiempo.

  • Frecuencia actualización: Hace referencia a la frecuencia con la que un dato se actualiza o cambia durante un determinado periodo de tiempo.

  • Volatilidad volumen: Hace referencia al crecimiento del dato en volumen respecto al tiempo.

  • Independencia existencial: Hace referencia al grado en el que el dato hace referencia a otros tipos de datos.

Tabla 1. Tipos de datos y características

Tipo

Referencia temporal

Frecuencia actualización

Volatilidad volumen

Independencia existencial

Datos maestros

Baja

Baja

Baja

Alta

Datos transaccionales

Alta

Baja

Alta

Baja

Datos de inventario

Alta

Alta

Baja

Baja

Vamos a ejemplificar estas características:
  • El nombre y apellidos de un cliente, que sabemos que es un dato maestro, son datos que no suelen cambiar en el tiempo, por lo que está claro que las tres primeras características tienen el valor «baja», y la cuarta, «alta».

  • En el caso de la compra del café y la galleta, este dato está ligado a un cierto momento en el tiempo; no se va a actualizar, depende de los datos maestros (cliente y productos).

  • En el caso del nivel de existencia de café, depende del tiempo; se actualiza tras cada transacción en la que se vende un café, depende de los datos maestros y las transacciones, pero tan solo cambia un registro.

Teniendo en cuenta estos tipos de datos, así como sus características, queda patente que necesitamos una disciplina para poder gestionar los datos maestros.
Se entiende por gestión de datos maestros, o master data management (MDM), el conjunto de procesos, gobierno, políticas, estándares y herramientas que definen y gestionan constantemente los datos críticos de una organización para proporcionar un único punto de referencia.
Por consiguiente:
  • La gestión de datos maestros es una pieza fundamental para las operaciones y la toma de decisiones analíticas.

  • Los datos maestros se pueden encontrar dispersos por toda la organización, e incluso fuera de ella.

  • El dato maestro establece una definición estándar para datos críticos desde la perspectiva de negocio que se comparte a lo largo de la organización, y representa la única fuente de verdad.

En el contexto de MDM, frecuentemente, se habla del registro de oro (golden record), o versión única de la verdad:
Se entiende por golden record la versión única y bien definida de todas las entidades de datos en un ecosistema organizacional.
La gestión de datos maestros busca generar este tipo de registros dentro de la organización respondiendo a las siguientes preguntas:
  • ¿Cuáles son las entidades importantes de negocio que se usan como referencia repetidamente?

  • ¿Qué datos describen la misma entidad de negocio?

  • ¿Dónde están almacenados los datos?

  • ¿Qué datos son los más exactos?

  • ¿Qué datos son más relevantes para tareas específicas?

  • ¿Qué datos de diferentes y múltiples fuentes de origen pueden ser integrados para crear una vista más completa y comprensible de la entidad de negocio?

  • ¿Qué reglas de negocio se pueden establecer de forma automática para combinar, emparejar, identificar, etc.?

  • ¿Cómo identificamos y restauramos datos que han sido combinados y emparejados de forma incorrecta?

1.3.Tipos de datos maestros

Aunque en general hablamos de gestión de datos maestros, la realidad es que existen diferentes tipos, más allá del ámbito de negocio al que hacen referencia, que, como ya sabemos, pueden ser materiales, productos, proveedores, clientes, empleados y activos. Podemos diferenciar los siguientes:
  • Datos de referencia: Es el conjunto de valores admisibles que deben ser utilizados por otros campos de datos (maestros o transacciones). Los datos de referencia, normalmente, cambian lentamente, reflejando cambios en los modos de operación de la empresa, en lugar de cambiar en el curso normal de los negocios.

  • Datos de maestros: Son una fuente única de datos empresariales comunes utilizados en múltiples sistemas, aplicaciones y/o procesos.

  • Datos maestros corporativos: Hacen referencia a la fuente única de datos empresa riales comunes utilizados en todos los sistemas, aplicaciones y procesos de toda una empresa (todos los departamentos, divisiones, empresas y países).

  • Datos maestros de mercado: Son la fuente única de datos comerciales comunes para todo un mercado. Los datos maestros de mercado se utilizan entre empresas dentro de la cadena de valor. Un ejemplo de datos maestros de mercado es el UPC (Universal Product Code), que se encuentra en los productos de consumo. Este tipo de dato maestro es necesario para vender productos en Amazon (3) .

Estos tipos de datos maestros tiene asociados metadatos que son relevantes como, por ejemplo, significado y propósito del dato, en qué fuentes de origen aparece el dato, la versión del dato en cada fuente de origen, origen del dato en la fuente de origen, versión disponible en el sistema MDM, fecha de actualización del dato maestro, cómo se realiza el mantenimiento del dato y quién es responsable de la gestión del dato y del metadato.

1.4.¿Qué beneficios aporta la gestión de datos maestros?

Master data management aporta múltiples beneficios a una organización que van mucho más allá de tener una visión única del dato. La creación y gestión de datos maestros proporciona:
  • Una comprensión consistente de los activos de datos más críticos y comunes de la organización.

  • Mecanismos para el uso consistente de los datos maestros a lo largo de la organización.

  • Está diseñado para la gestión de cambio, lo que ayuda a una organización a adaptarse al mercado.

Vamos a entrar en detalle en tres beneficios que aportan valor desde el punto de vista operativo.
El primero de ellos permite optimizar y evitar errores en diferentes procesos de negocio al trabajar con datos maestros consistentes, confiables y compartidos entre todos ellos. Entre ellos destacamos la mejora de:
  • Informes financieros

  • Gestión y atención de clientes

  • Gestión de reclamos

  • Gestión del cumplimiento regulatorio de procesos y productos

  • Gestión de la privacidad y la seguridad

  • Gestión de la cadena de suministro

  • Gestión de la seguridad

  • Ventas cruzadas y aumento del ticket promedio

El segundo hace referencia a que permite ganar eficiencia y efectividad dado que, por ejemplo:
  • Se evita destinar recursos para gestionar problemas de datos de forma reactiva.

  • Se evita dañar la credibilidad con clientes, proveedores y socios al poder confiar en los datos compartidos con ellos.

  • Se reducen efectos negativos en los ingresos y beneficios, al poder reflejar los datos la realidad del negocio y tomar decisiones más eficientes.

En tercer lugar, la gestión de datos maestros es una pieza angular para que la organización trabaje en contextos VUCA. En particular, centrémonos en algunos escenarios específicos de aplicación:
  • Gestión del riesgo: La volatilidad del mercado, las brechas en la seguridad cibernética e incluso la inestabilidad del gobierno extranjero están contribuyendo al aumento del riesgo empresarial. Para mitigar ese riesgo, es necesario comprender el dato desde su origen y sus modificaciones. Por ejemplo, teniendo trazabilidad del dato se puede conocer el punto donde ha sucedido la brecha y, por lo tanto, cuál es el punto más débil de la cadena.

  • Cumplimiento normativo: Cada año aparecen nuevos escenarios que requieren la actuación de las agencias reguladoras desarrollando o extendiendo medidas como HIPAA (Health Insurance Portability and Accountability, 1996), SOX (Sarbanes- Oxley, 2002) o GDPR (General Data Protection Regulation, 2016). Ser capaz de producir informes precisos es más importante que nunca, sea cual sea el ámbito que el organismo regulador ocupe: medio ambiente, impuestos, empleo, protección del consumidor, importación/exportación o empleados.

  • Gestión de inventarios: Los estándares para productos, que podemos encontrar en la tabla 2, requieren datos maestros limpios para garantizar que las empresas puedan mantenerse al día con sus inventarios y ventas. Por ejemplo, imaginemos que somos una empresa con tiendas físicas en España y que cada una de las tiendas compra, de forma independiente, al mismo proveedor. El hecho de usar la gestión de datos maestros daría conocimiento de esta situación y, por lo tanto, se podría haber negociado el precio con el proveedor.

Tabla 2. Estándares en la gestión de inventarios

Acrónimo

Identificador

Se usa para identificar

Ejemplos

GTIN

Global Trade Item Number

Productos y servicios

Lata de sopa, barra de chocolate, álbum de música

EAN

European Article Number

Productos y servicios, en el ámbito europeo

Cereales, abrigos, aerosol

JAN

Japanese Article Number

Productos y servicios, en el ámbito de Japón

Arroz, soja, sake

ASIN

Amazon Standard Identification Number

Productos y servicios, en el contexto de Amazon

Libro, videojuego, camiseta

ISBN

International Standard Book Number

Publicaciones

Libros, revistas

GLN

Global Location Number

Localización

Empresas, almacenes, fábricas, tiendas

SSCC

Serial Shipping Container Code

Unidades de logística

Cargas unitarias sobre palés, jaulas de rodillos, paquetes

GRAI

Global Returnable Asset Identifier

Activo devolutivo

Palés, cajas

GIAI

Global Individual Asset Identifier

Activo

Equipos médicos, de fabricación, transporte y TI

GSRN

Global Service Relation Number

Relaciones entre proveedor de servicios y receptor

Médicos en un hospital, miembros de la biblioteca

GDTI

Global Document Type Identifier

Documentos

Formularios de envío, licencias de conducción

GINC

Global Identification Number for Consignment

Consignaciones

Unidades logísticas transportadas juntas en un contenedor oceánico

GSIN

Global Shipment Identification Number

Envíos

Unidades logísticas entrega- das a un cliente de forma conjunta

GCN

Global Coupon Number

Cupones

Cupones digitales

CPID

Component/Part Identifier

Componentes y partes

Componentes de un automóvil

2.Programa de gestión de datos maestros

Desarrollar una iniciativa de gestión de datos maestros no solo consiste en implementar una solución tecnológica. Es necesario desarrollar un programa para que llegue a buen puerto, y se debe fundamentar en los siguientes principios rectores:
  • Los datos compartidos pertenecen a la empresa y no a un departamento.

  • MDM es un esfuerzo progresivo y continuo.

  • Los administradores de datos son la autoridad responsable para controlar los valores de los datos de referencia.

  • Los valores de los golden records representan el mejor esfuerzo de la organización para tener la información más exacta, actual y relevante de las entidades de negocio clave.

En definitiva:
Se entiende por programa de gestión de datos maestros la metodología estratégica y sistemática para la identificación, la captura, el almacenamiento, la gestión y la propagación de datos maestros en una organización.
Como cualquier otro proyecto, el programa debe tener en cuenta los requisitos, las prioridades, la disponibilidad de recursos, el tiempo y el tamaño del problema que se está abordando.
Cabe comentar que un programa de master data management tiene puntos en común con el gobierno del dato, así como con la calidad del dato. Esto significa que avances en estas iniciativas repercuten positivamente en el desarrollo del programa.

2.1.Fases de un programa de gestión de datos maestros

Aunque un programa MDM de una empresa a otra puede tener diferentes etapas, la mayoría de los proyectos MDM incluyen al menos estas fases:
  • Identificar fuentes de datos maestros

  • Identificar a los productores y consumidores de los datos maestros

  • Recopilar y analizar metadatos acerca de sus datos maestros

  • Nombrar administradores de datos

  • Implementar un programa y un consejo de gobierno de datos

  • Desarrollar un modelo de datos maestros

  • Elegir un conjunto de herramientas

  • Diseñar la infraestructura

  • Generar y probar los datos maestros

  • Modificar los sistemas productores y consumidores

  • Implementar los procesos de mantenimiento

Estas fases mínimas conforman una secuencia, tal y como se ilustra en la figura 1.
Figura 1. Fases de gestión de datos maestros
Fuente: elaboración propia
Fuente: elaboración propia
Vamos a explicar en detalle estas etapas:
  • Identificar fuentes de datos maestros: En este paso se crea un catálogo de todas las fuentes de datos (bases de datos, ficheros...) que contienen los datos de materiales, productos, proveedores, clientes, empleados y activos. Este paso frecuentemente resulta ser muy revelador, dado que se descubre que los datos suelen estar dispersos en múltiples fuentes que el departamento de las tecnologías de información (TI) no sabía que existían.

  • Identificar a los productores y consumidores de los datos maestros: Tras tener el catálogo de datos, el siguiente paso es conocer qué actores en la organización generan y consumen datos. Por ejemplo, qué aplicaciones/personas producen los datos maestros identificados en el primer paso y qué aplicaciones/personas los utilizan. En algunos casos, este punto puede ser más sencillo si todos los cambios se detectan y se manejan en el nivel de base de datos.

  • Recopilar y analizar metadatos acerca de sus datos maestros: Este paso consiste en generar conocimiento sobre las fuentes de datos. Para todas las fuentes identificadas en el primer paso, ¿cuáles son las entidades y atributos de los datos, y qué significan? Responder a esta pregunta significa conseguir el nombre de atributo, el tipo de datos, los valores permitidos, las restricciones, los valores predeterminados, las dependencias y quién posee la definición y el mantenimiento de los datos. Frecuentemente, determinar quién es el propietario de los datos resulta sumamente difícil y pone de manifiesto una necesidad.

  • Nombrar administradores de datos: En la etapa anterior, habrá quedado patente qué datos tienen propietarios y administradores. Un administrador de datos, también conocido como data steward, es una persona con el conocimiento de los datos fuente actuales y la capacidad de determinar cómo transformar la fuente en el formato de datos maestros. En general, los administradores deben ser nombrados por los propietarios de cada fuente maestra de datos, por los arquitectos responsables de los sistemas MDM y por representantes de los usuarios empresariales de los datos maestros.

  • Implementar un programa y un consejo de gobierno de datos: La implementación de MDM necesita del gobierno del dato. Es sumamente aconsejable que exista un proceso de toma de decisiones para con el dato bien definido, puesto que será necesario tomar decisiones sobre cómo se mantienen los datos maestros, qué contienen, cuánto tiempo se mantienen y cómo se autorizan y auditan los cambios.

  • Desarrollar un modelo de datos maestros: Normalmente, esta es una de las fases más importantes y difíciles. Aquí es necesario determinar cómo son los datos maestros, es decir, qué atributos se incluyen, qué tamaño y tipo de datos son, qué valores se permiten, etc. También aquí se incluye la asignación entre el modelo de datos maestros y las fuentes de datos actuales. La dificultad en este punto reside en que, si se incluyen todos los atributos de origen en la entidad maestra, a menudo se termina con un modelo de datos maestros demasiado complejo y engorroso para ser útil.

  • Elegir un conjunto de herramientas: La implementación de la gestión de datos maestros require herramientas de soporte para el almacenamiento del dato, el tratamiento del dato, su limpieza y su gestión. Existen herramientas especializadas en MDM –que integran diferentes componentes necesarias–, o tan solo en uno de los conjuntos de datos, como puede ser para cliente, conocidas como customer data integration (CDI) o para producto, conocidas como product information management (PIM), o se pueden aprovechar herramientas existentes en la organización de ámbitos, como la integración de datos o la calidad del dato. Como veremos en el capítulo 4, el conjunto de herramientas debe soportar múltiples funciones, entre las que destacamos también mantener versiones y jerarquías de datos maestros.

  • Diseñar la infraestructura: Los datos maestros deben almacenarse en una infraestructura que permita exponerlos a las aplicaciones y proporcionar al mismo tiempo procesos para administrarlos y mantenerlos. Existen diferentes opciones para el diseño, como veremos en el capítulo 3. El foco de esta infraestructura es la fiabilidad y la escalabilidad.

  • Generar y probar los datos maestros: En este paso es donde se utilizan las herramientas que han sido seleccionadas. Se combinan los datos de origen para confirmar las listas de datos maestros. Durante el proceso, frecuentemente, se requiere el ajuste de reglas de negocio al descubrir, por ejemplo, excepciones. Aunque las herramientas han avanzado considerablemente, la inspección manual puede ser necesaria para asegurar que los resultados son correctos y cumplen con los requisitos establecidos para el proyecto. Este proceso se conoce como curación de datos.

  • Modificar los sistemas productores y consumidores: La implementación de MDM en una organización frecuentemente implica cambiar los sistemas que producen, mantienen o consumen datos maestros para trabajar con la nueva fuente de datos maestros. Si los datos maestros se utilizan en un sistema separado de los sistemas de origen (un almacén de datos, por ejemplo), es posible que los sistemas fuente no tengan que cambiar. Sin embargo, si los sistemas fuente van a utilizar los datos maestros, probablemente habrá cambios requeridos. Los sistemas fuente tendrán que acceder a los nuevos datos maestros o los datos maestros tendrán que sincronizarse con los sistemas fuente, de modo que los sistemas fuente tengan una copia de los datos maestros limpios que se utilizarán. En este punto, las técnicas de integración de datos jugarán un papel fundamental.

  • Implementar los procesos de mantenimiento: MDM es un proceso continuo en el que se debe asegurar y mantener la calidad de los datos maestros. Esta fase consiste en establecer mecanismos para reconocer los problemas (por ejemplo, señalar coincidencias cuestionables), simplificar las correcciones (por ejemplo, la herramienta debe proponer soluciones y ayudar a la rápida identificación de los errores) y revisar el historial de cambios (por ejemplo, para aislar la fuente de errores y deshacer cambios incorrectos, o revisar los elementos que se agregaron como nuevos, porque los criterios de coincidencia estaban cerca pero por debajo del umbral).

2.2.MDM en contexto de gobierno del dato

En el contexto de gobierno del dato, la gestión de datos maestros es una función más a realizar. Como ya sabemos, cada función tiene diversas actividades (planificación, control, de desarrollo y operativas), cada una de ellas realizada por el rol correspondiente.
Para la gestión de datos maestros estas actividades son:
  • Gestión de los datos maestros y de referencia [actividad de planificación]

  • Comprensión de las necesidades de integración de datos maestros y de referencia [actividad de planificación]

  • Definición de la arquitectura de MDM [actividad de desarrollo]

  • Implementación de la solución de MDM [actividad de desarrollo]

  • Validación de datos de control y de referencia [actividad de control]

  • Integración de datos maestros [actividad operativa]

  • Replicación de datos maestros y de referencia [actividad operativa]

  • Mantenimiento de las jerarquías dimensionales [actividad operativa]

El programa de gestión de datos maestros cubre estas funciones, que forman parte del marco más general.

2.3.Evaluando la madurez de la gestión de datos maestros

Cuando hemos hablado de las diferentes fases que componen un programa de gestión de datos maestros, hemos comentado que no todas las organizaciones pasarán por las mismas etapas. Esto es así puesto que frecuentemente ya han empezado a desarrollar algunas de las capacidades necesarias para desarrollar el programa.
Aplicar un modelo de madurez en este ámbito permite conocer qué capacidades ya han sido desarrolladas y en qué medida, y sugerir cuáles no están presentes o se deben sofisticar para continuar el desarrollo del programa.
Vamos a presentar un modelo de madurez para la gestión de datos maestros fundamentado en el tradicional modelo de madurez de capacidades (CMM), desarrollado por el Instituto de Ingeniería de Software de la Carnegie Mellon University y creado por David Loshin.
El modelo de madurez tiene cinco niveles de madurez (inicial, reactivo, gestionado, proactivo y estratégico), y cada nivel se evalúa respecto a seis capacidades (arquitectura, gobierno, gestión, identificación, integración, gestión de procesos de negocio). Una organización puede encontrarse respecto a cada una de las capacidades en un nivel diferente y no necesariamente todas en el mismo nivel.
2.3.1.Nivel 1: Inicial
En este nivel, las capacidades se caracterizan por:
  • Arquitectura: La arquitectura de aplicaciones se define para cada aplicación empresarial. Existe una consolidación empresarial limitada de modelos representativos y colecciones de diccionarios de datos en varias formas, pero sin modelos de datos maestros.

  • Gobierno: Se realiza limpieza limitada de datos por aplicación/línea de negocio, con fines específicos (por ejemplo, normalización de direcciones), pero hay ausencia de modelos definidos de propiedad de datos. Emerge el reconocimiento de la necesidad de supervisión.

  • Gestión: Se realiza la gestión de identidades por aplicación cuando es necesario (por ejemplo, clientes). Se realiza la configuración de la aplicación, pero no coordinada a través de la gestión centralizada.

  • Identificación: Uso limitado de la gestión de identidad por línea de negocio. Se intenta consolidar los datos del cliente según lo requieran las aplicaciones (por ejemplo, actualizaciones de software o transición de aplicaciones contables).

  • Integración: Existen copias replicadas de datos de referencia, pero con reutilización limitada de datos y no hay reutilización de servicios de aplicaciones.

  • Gestión de procesos de negocio: Participación de negocio limitada o no existente, excepto en el nivel más alto de definición de requisitos.

2.3.2.Nivel 2: Reactivo
En este nivel, las capacidades se caracterizan por:
  • Arquitectura: Se intenta reunir diccionarios de datos en un único repositorio. Empieza la exploración inicial en servicios de aplicaciones de bajo nivel y la revisión de opciones para compartir información (por ejemplo, la integración de información empresarial o la integración de aplicaciones empresariales).

  • Gobierno: Se usan aplicaciones externas utilizadas para administrar metadatos y se introduce la gestión de la calidad de los datos para el análisis, la normalización y la consolidación.

  • Gestión: Se asignan recursos para administrar el uso de conjuntos de herramientas introducidos. La capacitación para el despliegue de herramientas y tecnología de la empresa hace que las capacidades estén disponibles en una base más amplia. Hay administración centralizada de metadatos e índices maestros.

  • Identificación: Se habilita la búsqueda de identidades y coincidencias utilizadas para reducir la duplicación, así como la búsqueda de identidad y la concordancia utilizadas para la vinculación de registros rudimentarios con fines domésticos.

  • Integración: Exploración inicial de la consolidación de datos para aplicaciones analíticas recientemente desarrolladas (por ejemplo, CRM). El almacén de datos es utilizado como un repositorio central para datos maestros. No hay integración de nuevo en las aplicaciones contribuyentes.

  • Gestión de procesos de negocio: Se describen modelos de procesos empresariales conceptuales y emerge el uso inicial de reglas empresariales integradas en aplicaciones. También existe la integración analítica de aplicaciones de datos consolidados.

2.3.3.Nivel 3: Gestionado
En este nivel, las capacidades se caracterizan por:
  • Arquitectura: Existe un modelo de datos de maestros definido para la persistencia y una arquitectura fundamental para el repositorio maestro compartido, así como un marco operacional identificado para actividades de ciclo de vida de los datos maestros de bajo nivel y servicios definidos para la integración con el repositorio maestro.

  • Gobierno: Herramientas de calidad de datos en su lugar. Políticas y procedimientos para la gestión de la calidad de los datos. Seguimiento de problemas de calidad de datos. Procesos de estándares de datos en el lugar. Línea de administración de datos empresariales.

  • Gestión: Gestión de identidades centralizada en el índice maestro y utilizada en numerosas aplicaciones. Jerarquías identificadas (dentro de una clase de datos) utilizadas por las aplicaciones analíticas. Configuración avanzada y administración del uso de los datos maestros. Un plan de migración está disponible para aplicaciones seleccionadas.

  • Identificación: Servicios de búsqueda y búsqueda de identidad disponibles para las aplicaciones. Enlace de registro integrado en la capa de servicio MDM. Normas de fusión y consolidación estandarizadas y gestionadas bajo control centralizado. Fusión y consolidación de procesos establecidos y reproducibles.

  • Integración: Servicios de componentes disponibles para la integración de aplicaciones. Los servicios sincronizan las aplicaciones con el repositorio.

  • Gestión de procesos de negocio: Integración de reglas de negocio con operaciones de datos maestros. Conectividad fundamental entre aplicaciones empresariales y objetos de datos básicos. Los analistas de procesos de negocio participan en los requisitos de ingeniería de datos maestros.

2.3.4.Nivel 4: Proactivo
En este nivel, las capacidades se caracterizan por:
  • Arquitectura: Se establecen modelos maestros. Existe la capacidad para pasar del marco de datos maestros a la transacción. Asimismo, existe una arquitectura orientada a servicios (SOA) establecida para la arquitectura de aplicaciones que se combina con la gestión centralizada de metadatos empresariales.

  • Gobierno: Programa de gestión de datos empresariales en vigor con normas de datos empresariales y gestión de metadatos en lugar. La monitorización proactiva para el control de calidad de datos alimenta el programa de gobernabilidad.

  • Gestión: Gestión de identidades completamente integrada y establecida en toda la empresa con identificación única de todas las instancias de objetos maestros. La gestión de la jerarquía de ciclo completo apoya tanto las actividades analíticas como las operacionales. La administración de la jerarquía permite el restablecimiento de errores de consolidación de falsos positivos.

  • Identificación: Los servicios para el ciclo de vida de datos integran la búsqueda, la coincidencia y la resolución de identidades. Todas las operaciones del ciclo de vida de los datos son estructuradas sobre los servicios de fusión y consolidación. Esta consolidación se produce mayoritariamente de forma automática y, de forma puntual, de forma cuidadosa por expertos de negocio.

  • Integración: Sincronización completamente integrada en los servicios de ciclo de vida. La capa de componentes admite la integración de aplicaciones a nivel de objeto maestro. SOA impulsa la integración de aplicaciones empresariales.

  • Gestión de procesos de negocio: La lógica empresarial se reutiliza. Las reglas de negocio están integradas en un motor de reglas, disponibles en el nivel de procesos empresariales. Analistas de negocio integrales para el desarrollo de aplicaciones. Relaciones personalizadas con los clientes. Procesos de negocio automatizados.

2.3.5.Nivel 5: Estratégico
En este nivel, las capacidades se caracterizan por:
  • Arquitectura: Existe una completa integración de toda la arquitectura empresarial con el sistema MDM, que propaga los cambios de forma automática entre las diferentes fuentes.

  • Gobierno: El gobierno de datos maestros está integrado con las otras iniciativas de gobierno de datos como una función más y asegura un intercambio de información de alta calidad.

  • Gestión: Existe una gestión transparente de la identidad de todos los objetos de datos sincronizados con representaciones internas y externas.

  • Identificación: Existen mecanismos automáticos para resolución de conflictos entre datos maestros. Se ha vinculado el rendimiento empresarial a los datos maestros.

  • Integración: El desarrollo de aplicaciones de negocio se vincula a los datos maestros y se tienen en cuenta las necesidades de integración con el sistema MDM.

  • Gestión de procesos de negocio: MDM completamente integrado en los procesos de negocio, tanto a nivel operacional como analítico. Destaca el uso para el perfilado de clientes, proveedores y productos.

3.Desarrollando un programa de gestión de datos maestros

Aunque es cierto que la aplicación de un programa de gestión de datos maestros será más efectiva si se aplica a todos los datos maestros, el alcance, el coste, el esfuerzo y los riesgos asociados a un proyecto a nivel corporativo son barreras infranqueables y difíciles de justificar en una fase inicial. Por ello, es mucho más sencillo empezar con solo algunas fuentes de datos maestros e ir expandiendo progresivamente el proyecto. Este enfoque permite demostrar el éxito de la iniciativa y, al mismo tiempo, consolidar el conocimiento y las lecciones aprendidas.
Por lo tanto, desarrollar un programa de MDM supone:
  • Identificar un enfoque para el programa.

  • Identificar qué datos maestros se incluyen dentro de la iniciativa.

  • Crear y mantener una lista maestra.

Tratamos en detalle estos puntos en las siguientes secciones.

3.1.Enfoques del programa MDM

Teniendo en cuenta la necesidad de iniciar el programa de forma acotada, es necesario identificar el enfoque que va a tener el programa de gestión de datos maestros.
Existen diferentes dimensiones para el enfoque, tal y como ilustra la figura 2.
Figura 2. Dimensiones de enfoque MDM
Fuente: elaboración propia
Fuente: elaboración propia
Definir el programa supone definir un enfoque combinado de estas tres dimensiones.
  • Dominio de datos (maestros): Esta dimensión pone el foco en el dominio de datos a considerar en el proyecto, que puede ser acotado o completo.

  • Acotado: Hace referencia a un conjunto limitado pero cerrado de datos. Estos datos pueden ser de clientes (B2B o B2C), de producto, datos de referencia, localizaciones, de proveedores, etc.

  • Completo: Hace referencia a todos los datos maestros de la organización.

  • Estilo del proyecto: Esta dimensión pone el foco en el estilo del proyecto MDM. Tenemos, principalmente, seis estilos:

  • Estilo de registro: En este tipo de proyecto, los distintos sistemas de origen publican sus datos y el sistema MDM almacena solo el identificador (ID) de sistema de origen, las claves foráneas (ID de registro en sistemas de origen) y los valores de datos clave necesarios para la coincidencia. El sistema ejecuta los algoritmos de limpieza y el emparejamiento y asigna identificadores globales únicos a los registros coincidentes, pero no envía ningún dato de nuevo a los sistemas de origen. En este caso, el sistema se apalanca en la federación de datos para crear una vista de los datos maestros.

  • Estilo de consolidación: Los registros maestros se consolidan físicamente en un sistema central. La creación de los datos sigue estando distribuida a través de los sistemas operacionales y los datos maestros pueden actualizarse a partir de eventos, pero no se garantiza que estén actualizados. Los datos maestros, en este caso, generalmente no se usan para transacciones, sino que apoyan la generación de informes.

  • Estilo de coexistencia: El sistema MDM incluye datos maestros escritos y almacenados en numerosos sistemas operacionales, pero incluye un registro maestro físicamente almacenado en el sistema central y datos maestros armonizados en toda la cartera de aplicaciones de la organización.

  • Estilo de transacción: El sistema MDM almacena, mejora y mantiene todos los atributos de datos (maestros) relevantes. Se convierte en la fuente autorizada de la verdad y publica esta información valiosa de nuevo en los respectivos sistemas de origen. El sistema MDM publica y escribe los diversos elementos de datos en los sistemas fuente después de que los algoritmos de vinculación, limpieza, emparejamiento y enriquecimiento hayan hecho su trabajo. Los sistemas operacionales están suscritos a actualizaciones.

  • Estilo de transacción adaptable: Es similar al estilo de transacción, pero además proporciona la capacidad de responder a diversas solicitudes de información y proceso en toda la empresa. El sistema consolida información interna y externa y proporciona servicios a sistemas operacionales, analíticos o ambos. Proporciona información en tiempo real y linaje (o trazabilidad) de cambios.

  • Estilo de confederación: Existen diferentes sistemas MDM que se mantienen a nivel departamental/territorio/agencia y que están conectados a un sistema central. Cada sistema, en el ámbito del dominio, puede diseñarse con uno de los estilos anteriores, pero el central suele ser de registro. Este enfoque suele aplicarse en el sector público, donde no es posible almacenar datos de diferentes agencias de forma conjunta.

  • Caso de uso: Existen dos casos de uso:

  • Operacional: Que proporciona servicios de MDM para sistemas operacionales.

  • Analítico: Que proporciona servicios de MDM para sistemas analíticos, como el almacén de datos.

El enfoque de la iniciativa MDM es la suma, por lo tanto, de los tres tipos de dimensiones anteriores, teniendo en cuenta siempre en qué sector se opera y si se proporciona el servicio a un área determinada o a toda la organización.

3.2.Cómo decidir qué es necesario mantener y administrar

Uno de los puntos relevantes es qué entidades de datos maestros deben formar parte del programa, puesto que no todos los datos que se ajustan a la definición de datos maestros deben gestionarse necesariamente como tales. Existen varios criterios a tener en cuenta para justificar si un dato debe ser tratado como un dato maestro.
  • Comportamiento: Los datos maestros se pueden identificar por la forma en que interactúan con otros datos. Los datos maestros normalmente están relacionados con los datos transaccionales siguiendo una relación sustantivo/verbo. Los datos transaccionales captan verbos (por ejemplo, una venta) y los maestros los sustantivos (por ejemplo, cliente y producto).

  • Ciclo de vida: Los datos maestros también se pueden identificar por la forma en la se crean, se leen, se actualizan, se eliminan y se buscan. Este ciclo de vida se conoce como CRUD, acrónimo de Create, Read, Update y Delete. Este proceso depende de las reglas de la empresa, el segmento de la industria y los sistemas de datos. La tabla 3 ilustra ciclos CRUD para cuatro dominos de datos maestros comunes.

  • Cardinalidad: A medida que la cardinalidad de un dato decrece, la probabilidad de que sea considerado un dato maestro decrece. Por ejemplo, si una empresa tiene una cantidad limitada y reducida de clientes, los beneficios de implementar una solución de gestión de datos maestros serán limitados.

  • Vida del dato: Los datos maestros tienden a ser menos volátiles que los datos transaccionales. La duración del dato depende del sector. Un tipo de dato en una industria particular puede considerarse un dato maestro (en términos de baja volatilidad), mientras que en otras no. Por ejemplo, un contrato para pintar una casa es una transacción al ser un acuerdo único y de corta duración, mientras que un contrato para representar a un artista puede ser considerado un dato maestro al ser un acuerdo a largo plazo e incluir datos no volátiles.

  • Complejidad: Los datos maestros suelen ser complejos; por ello, requieren mayor atención y cuidado en su gestión. Aquellos activos que son simplemente guardados y almacenados (lo que puede entenderse como baja complejidad) no necesitan considerarse como datos maestros.

  • Valor: A mayor valor de un dato, más grande es la necesidad de protegerlo y mantener su calidad, por lo que hay una mayor probabilidad de que sea considerado como un dato maestro.

  • Volatilidad: Aunque los datos maestros son menos volátiles, no significa que no lo sean. Un dato que no presenta esta característica no necesita una solución para gestionarlo.

  • Reusabilidad: Los datos maestros se caracterizan por su alta reusabilidad en la organización. Por ejemplo, consideremos los datos de cliente que se comparten en múltiples aplicaciones y departamentos. Sin una solución de MDM, existirán múltiples versiones del mismo concepto.

Tabla 3. Datos maestros según CRUD

CRUD

Cliente

Producto

Activo

Empleado

Crear

Visita cliente (vía web o en la tienda); cuenta creada

Producto comprado o creado

Unidad adquirida; proceso de aprobación

Contratación, orientación...

Leer

Vistas contextualizadas basadas en los credenciales del usuario

Inventario, catálogo de producto

Informes periódicos, verificación, depreciación

Acceso oficina, revisiones...

Actualizar

Dirección, descuento, teléfono, preferencias, cuenta de crédito

Cambios en los materiales o embalaje

Transferencia, mantenimiento, accidentes

Matrimonio, promoción, trasferencia

Borrar

Muerte, bancarrota, liquidación

Cancelado, remplazado, no disponible

Obsoleto, vendido, destruido, robado

Despido, muerte

Buscar

CRM, call center, gestión de contactos

ERP, sistema de pedidos

Gestión de activos

Sistema de RRHH

Resumiendo, el principal reto de una organización es identificar qué datos de la misma deben considerarse como dato maestro, por lo que crear una lista de datos maestros no solo se fundamenta en aplicar la definición del concepto, sino en categorizarlos en función de su comportamiento y atributos.

3.3.Creando y manteniendo una lista maestra

Crear y mantener los datos maestros es la función más importante del programa de gestión de datos maestros. Es necesario comprender en detalle estas dos tareas.
3.3.1.Creación de una lista maestra
Para crear datos maestros hay dos pasos básicos:
  • Limpiar y estandarizar los datos.

  • Combinar los datos de todas las fuentes para consolidar duplicados.

Sin embargo, antes de limpiar y normalizar los datos, es absolutamente necesario comprender el modelo de datos para los datos maestros. Es decir, es necesario identificar, para cada dato maestro y de referencia, el contenido del mismo y la asignación con el sistema de origen. Esta información se utiliza para definir las transformaciones necesarias para limpiar los datos de origen.
La limpieza de datos y su transformación en el modelo de datos maestros usan tecnologías y procesos de calidad de datos y de integración de datos. En particular, son similares a los procesos de extracción, transformación y carga de datos (ETL) utilizados para cargar los datos en la factoría de información y sus elementos (como el data warehouse).
De hecho, en algunas organizaciones frecuentemente se utilizan las herramientas ETL disponibles, en lugar de implementar y aprender una nueva herramienta. Sea cual sea el escenario, algunas de las funciones típicas a realizar serán:
  • Normalizar formatos de datos: Consiste en establecer y mantener un formato común para los datos maestros. Por ejemplo, que todos los números de teléfono sigan el mismo formato (código del país y número).

  • Reemplazar los valores faltantes: Consiste en completar los datos maestros con valores predeterminados. Por ejemplo, completar los códigos postales de una dirección a partir de una base de datos especializada.

  • Estandarizar los valores: Consiste en unificar y estandarizar valores con el objetivo de poder compararlos. Por ejemplo, transformar los precios en una moneda común.

  • Mapa de atributos: Consiste en analizar un dato para identificar los diferentes atributos que contiene. Por ejemplo, el nombre de contacto: nombre y apellido.

Existen situaciones en las que no será posible automatizar completamente el proceso de limpieza de datos. En dicho momento, será necesario un procesamiento manual, pero dicho proceso debe fundamentarse en la curación por parte de los expertos de negocio.
Los datos de calidad formarán parte de la tabla (o tablas) de datos maestros. Los errores formarán parte de otra tabla y, a medida que cada fuente se limpie, la salida deberá ser examinada para asegurar que el proceso esté funcionando correctamente.
3.3.2.Mantenimiento de una lista maestra
Existen diferentes aproximaciones para gestionar y usar datos maestros. Vamos a revisar tres de los escenarios más comunes:
  • Copia única: En este enfoque solo hay una copia maestra de los datos maestros. Todos los cambios en el modelo de datos maestros se realizan sobre esta copia y, a partir de ella, se propagan a las aplicaciones.

  • Múltiples copias, mantenimiento único: En este enfoque, hay una copia maestra, pero en los sistemas fuente se almacena una copia. Estas aplicaciones no pueden cambiar o agregar datos maestros, pero pueden actualizar las partes de los datos que no forman parte de los datos maestros.

  • Combinación continua: En este enfoque, las aplicaciones pueden cambiar su copia de los datos maestros. Estos cambios se remiten a la copia maestra donde se fusionan con el modelo maestros.

Cada uno de estos enfoques tiene beneficios e inconvenientes, que se resumen en la tabla 4:
Tabla 4. Escenarios de mantenimiento

Enfoque

Beneficios

Inconvenientes

Copia única

Se garantiza la consistencia del dato.

El proceso de copia a las fuentes de ori- gen puede derivar en la modificación de los esquemas que en ciertos casos es imposible.

Múltiples copias, mantenimiento único

Se garantiza la consistencia del dato, se evita la modificación de esquemas.

Será necesario modificar las aplicaciones para evitar la modificación de los datos maestros, lo que puede significar pérdida de funcionalidades.

Combinación continua

Se minimizan los cambios en aplicaciones, al mismo tiempo que se evita la modificación de esquemas y se garantiza la consistencia.

Pueden aumentar los conflictos de actualización, consistencia y reconciliación de datos y se deben definir más reglas.

Sea como sea que se realice el mantenimiento, es importante entender de dónde vienen los cambios, qué proceso se ha seguido, cuál es el estado anterior y a qué jerarquía de datos pertenece. Esto significa que el mantenimiento requiere capacidades de gestión de versiones, auditoría y gestión de jerarquías.
Si el sistema MDM gestiona los puntos anteriores, esto permite:
  • Identificar errores y volver a versiones anteriores válidas del dato maestro.

  • Tener trazabilidad del proceso de cambio de los datos.

  • Usar el sistema MDM para propagar un cambio de jerarquía en un dato maestro.

3.4.Información por dominio

Cuando hablamos de los dominios de datos maestros es necesario tener en cuenta que tenemos datos a diferentes niveles que conforman el conocimiento sobre un cierto dominio. Esta estratificación va desde la información básica del dominio, que podemos entender como los datos maestros básicos, a las observaciones, transacciones e interacciones que hacen referencia al comportamiento. Tenemos:
  • Información básica del dominio

  • Conocimiento extendido del dominio

  • Información financiera, legal y regulatoria

  • Observaciones, transacciones e interacciones

Estos datos normalmente se obtienen de las siguientes fuentes de origen:
  • Datos financieros: Este tipo de datos puede obtenerse del ERP (Enterprise Resource Planning), que es un sistema informático destinado a la administración de recursos en una organización.

  • Datos de cliente: Este tipo de datos puede obtenerse del CRM (Customer Relationship Management), que es un sistema informático para la administración y gestión de la relación con clientes. Sin embargo, con la explosión de las redes sociales e información de terceros es posible extender esta información más allá de los sistemas internos de la organización.

  • Datos de empleados: Este tipo de datos puede obtenerse del HRM (Human Resources Management), que es un sistema informático para la administración y gestión de la relación con empleados. También es posible encontrar información en sistemas para la gestión de proyectos. Sucede algo similar con la información de cliente, que es posible extender con información de terceros.

  • Datos de producto: Este tipo de datos puede obtenerse del PLM (Product Lifecycle Management), que es un sistema para la gestión del ciclo de vida de un producto, desde su diseño hasta el fin de su vida útil y reciclaje.

  • Datos de localización: Que puede incluir datos geopolíticos (como países, estados, provincias...) y datos de negocio (como direcciones de oficinas, de almacenes...).

3.4.1.Cliente B2B
En el caso de cliente B2B, la figura 3 ilustra los niveles de conocimiento:
Figura 3. Información de cliente B2B
Fuente: elaboración propia
Fuente: elaboración propia
3.4.2.Cliente B2C
En el caso de cliente B2C, la figura 4 ilustra los niveles de conocimiento:
Figura 4. Información de cliente B2C
Fuente: elaboración propia
Fuente: elaboración propia
3.4.3.Producto
En el caso de producto, la figura 6 ilustra los niveles de conocimiento:
Figura 5. Información de producto
Fuente: elaboración propia
Fuente: elaboración propia
3.4.4.Datos de referencia
En el caso de datos de referencia, la figura 6 ilustra los niveles de conocimiento:
Figura 6. Información de datos de referencia
Fuente: elaboración propia
Fuente: elaboración propia
3.4.5.Localización
En el caso de localización, la figura 7 ilustra los niveles de conocimiento:
Figura 7. Información de localización
Fuente: elaboración propia
Fuente: elaboración propia
3.4.6.Organización
En el caso de organización, la figura 8 ilustra los niveles de conocimiento:
Figura 8. Información de la organización
Fuente: elaboración propia
Fuente: elaboración propia
Un posible enfoque es centrarse en las personas como eje central de la organización, por lo que estos niveles coinciden con los de empleado.
3.4.7.Proveedor
En el caso de proveedores, la figura 9 ilustra los niveles de conocimiento:
Figura 9. Información de proveedores
Fuente: elaboración propia
Fuente: elaboración propia
3.4.8.Empleado
En el caso de empleados, la figura 10 ilustra los niveles de conocimiento:
Figura 10. Información de empleados
Fuente: elaboración propia
Fuente: elaboración propia

4.Técnicas y tecnologías para la gestión de datos maestros

Hemos revisado hasta ahora los aspectos vinculados a los procesos, al gobierno, a las políticas y a los estándares en el contexto de la gestión de datos maestros.
En este capítulo vamos a centrarnos en las herramientas, técnicas y tecnologías que soportan la gestión de datos maestros.
Las herramientas para la gestión de datos maestros han evolucionado de forma considerable en los últimos años. El concepto emerge vinculado al CRM, el ERP, el data warehouse y el feature store (4) , que necesitan información fidedigna y compartida para la creación de informes, el análisis de las entidades más relevantes de negocio y la creación eficiente de modelos de aprendizaje automático. No se considera una disciplina independiente de la inteligencia de negocio y no existen herramientas dedicadas. Poco a poco, a medida que más aplicaciones de negocio e incluso sistemas operacionales necesitan del uso de datos maestros, empiezan a emerger herramientas integradas para MDM, ya sea vinculadas a la información de clientes o a la de producto.
Actualmente, existen ya plataformas dedicadas a la gestión de datos maestros. Es, por ello, que al hablar de técnicas y tecnologías dentro de estas plataformas, muchas de ellas ya serán conocidas. En cierta medida, podemos considerar MDM como un caso específico y combinado de todas estas que ha alcanzado entidad propia como para escindirse de la inteligencia de negocio.

4.1.Técnicas para la gestión de datos maestros

Teniendo en cuenta la evolución de la gestión de datos maestros, no es extraño descubrir que las técnicas que soportan MDM sean una combinación de técnicas que, frecuentemente, puede encontrarse de forma independiente en una organización pero que en este contexto debe trabajar de forma orquestada e integrada.
Estas técnicas incluyen:
  • Técnicas de integración de datos: Permiten la captura, el procesamiento y la distribución de datos desde fuentes de origen hacia el repositorio central de datos maestros, y viceversa. Estas técnicas incluyen la propagación de datos, la consolidación de datos, la federación de datos y el change data capture.

  • Técnicas de almacenamiento de datos: Permiten el almacenamiento de datos maestros y de referencia en un repositorio central (y aquellos que sean necesarios en función del enfoque). Estas técnicas incluyen la creación de modelos de datos y el establecimiento de reglas de negocio.

  • Técnicas de calidad de datos: Permiten mantener y mejorar la calidad de los datos maestros y de referencia. Estas técnicas incluyen el perfilado de datos, el análisis semántico y estadístico de datos, el emparejamiento por reglas de negocio, semántico y estadístico de datos, la normalización y estandarización de datos. Parte de estas técnicas se fundamentan en algoritmos de aprendizaje automático.

  • Técnicas de jerarquías: Permiten ordenar y categorizar los datos maestros de forma flexible. Estas técnicas tienen puntos en común con las técnicas OLAP (en el sentido de definición).

  • Técnicas de exploración de datos, aplicaciones y sistemas: Permiten identificar automáticamente los datos de una organización (presentes en múltiples sistemas y aplicaciones) y, además, proponer qué datos deben formar parte del repositorio MDM. Parte de estas técnicas también se fundamentan en algoritmos de aprendizaje automático.

4.2.Tecnologías para la gestión de datos maestros

En esta sección vamos a hacer referencia a la plataforma de gestión de datos maestros como herramienta integrada. Este tipo de plataformas debe tener las siguientes componentes:
  • Modelización de datos: Componente que se encarga de la creación y el mantenimiento del modelo de datos maestros; incluye: diseño fundamentado en reglas de negocio, glosario de negocio, soporte para reglas complejas de negocio, etc.

  • Semántica y calidad de datos: Componente que se encarga de la calidad de datos incluyendo la normalización, la estandarización, el uso de capacidades semánticas y estadísticas para el emparejamiento y la calidad de datos, el enriquecimiento de datos, etc.

  • Flujos y procesos de negocio: Componente para la gestión de flujo de trabajos vinculados con datos maestros, incluyendo asignaciones basadas en roles y usuarios, API para integración con sistemas externos, métricas para la comprensión de los flujos y actividades fundamentadas en reglas de negocio.

  • Gobierno y definición de políticas de datos: Componente que habilita la creación y el mantenimiento de políticas de datos; incluye: perfilado y descubrimiento de datos, creación colaborativa de reglas de datos, glosario de definiciones, versión de políticas y cuadro de mando de control.

  • Gestión de jerarquías de datos: Componente para la gestión de jerarquías de datos maestros, que incluye: autodescubrimiento de jerarquías, jerarquías basadas en relaciones predefinidas, búsqueda por jerarquías, soporte para jerarquías múltiples por role y dato maestro, así como jerarquías balanceadas, desequilibradas y recursivas.

  • Administración y aplicación de políticas de datos: Componente que es el único punto para la aplicación de políticas de datos maestros, incluyendo: autoría y combinación de datos, aplicación de políticas a nivel de registro o atributo, gestión de colas de aplicación de políticas, creación y gestión de eventos y notificaciones y métricas y cuadro de mando de control.

  • Integración de datos: Componente que se encarga de integración de datos maestros, incluyendo: conectores a todo tipo de fuentes de datos (bases de datos relacionales, NoSQL, ficheros, aplicaciones, APIs...), ETL, CDC, etc.

  • Arquitectura de datos: Componente que se encarga del almacenamiento de datos maestros que debe soportar despliegue en la nube o en el centro de datos propio de la organización, así como la escalabilidad.

  • Seguridad y confianza de datos: Componente que se encarga de la seguridad de los datos, incluyendo: seguridad basada en roles, a nivel de registro y campo, integración con sistema corporativo de la gestión de protocolos de acceso como LDAP (Lightweight Directory Access Protocol), auditoría de datos, trazabilidad del dato y análisis de impacto.

En el mercado podemos encontrar plataformas genéricas que incluyen la gran mayoría de componentes (como Semarchy (5) ), plataformas que a partir de la integración de datos han evolucionado hacia MDM (como Informatica (6) ), soluciones comerciales open source (como la de Talend (7) ), así como soluciones específicas para datos de producto(como la de inRiver (8) ) o de cliente (como la de Pitney Bowes (9) ).
La figura 11 ilustra la plataforma MDM, que se complementa con el repositorio para los datos maestros, de referencia y metadatos. La plataforma se conecta con aquellos sistemas de información (internos y externos) que tienen datos relevantes para el sistema MDM. Esta comunicación, como ya sabemos, es bidireccional para poder propagar los datos desde el sistema de almacenamiento de datos maestros (frecuentemente llamado hub).
Figura 11. Plataforma MDM
Fuente: elaboración propia
Fuente: elaboración propia

4.3.Ejemplo de caso de uso

Imaginemos una empresa de comercio electrónico que se ha dado cuenta de la necesidad de tener que mejorar la información de sus productos para:
  • Mejorar el seguimiento de productos para reducir incidencias vinculadas con la regulación asociada a su sector.

  • Evitar la frustración de clientes y empleados fundamentada en la existencia de datos de productos erróneos.

4.4.¿Cómo puede empezar su iniciativa de MDM?

Imaginemos que la organización dispone de una herramienta de MDM. La organización debe seguir los siguientes pasos:
  • Descubrir qué aplicaciones contiene datos relevantes de producto y susceptibles de formar parte de los datos maestros. Asimismo, es necesario evaluar su nivel de calidad. En este punto se usan las componentes de integración y calidad de datos de la plataforma.

  • Crear el modelo de datos maestros a través del consenso con las diferentes unidades de negocio implicadas. En este punto se usa el componente de modelización de datos maestros.

  • Definir las reglas de validación (de negocio), de calidad de datos y de convergencia entre fuentes. En este punto se usan diferentes componentes, como la de administración de las políticas.

  • Identificar y definir las interfaces de acceso de usuarios a la plataforma MDM. En este punto interviene la componente de integración de datos, así como la seguridad del dato y el gobierno.

  • Definir las políticas de gobierno de datos maestros y sus flujos de trabajo. Aquí es relevante la componente de administración y definición de políticas.

  • Integrar MDM con las aplicaciones de negocio necesarias. Así juega un papel fundamental la componente de integración de datos.

  • Poner en producción y gestionar el gobierno del dato maestro fundamentada en la componente de gobierno.

En esencia, la plataforma MDM se convierte en un mecanismo para articular cualquier iniciativa. Está claro que, a mayor integración entre las componentes de la plataforma, estos pasos serán más fluidos.

4.5.MDM y big data

Como ya sabemos, big data es una de las iniciativas actuales más relevantes para generar valor a partir de los datos. En general, múltiples estudios como los de Capgemini (10) sugieren que tan solo el 35 % de los proyectos de big data puede describirse como de éxito o de mucho éxito y, por otro lado, Gartner (11) indica que tan solo el 15 % de empresas son capaces de poner sus iniciativas de big data en producción. En definitiva, estos estudios confirman que estos proyectos son complejos y pueden acabar en fracaso.
Big data
Hace referencia al conjunto de estrategias, tecnologías y sistemas para el almacenamiento, procesamiento, análisis y visualización de conjuntos de datos complejos.
Dentro de las iniciativas que se enmarcan dentro de big data nos encontramos con aquellas vinculadas con el data lake. El propósito de esta iniciativa es presentar una visión no refinada de los datos que permita explorar libremente técnicas de análisis de datos e investigar casos de uso. Inicialmente, estas iniciativas se han basado en bases de datos NoSQL del tipo clave-valor.
Data lake
Hace referencia a la colección de instancias de almacenamiento de todos los activos de datos referentes una organización almacenados en una copia casi exacta, o incluso exacta, del formato fuente.
Desafortunadamente, las iniciativas de data lake no están dando los frutos esperados (12) . El foco inicial ha estado en la captura y el almacenamiento de datos sin tener en cuenta capacidades de gestión de datos y su posterior explotación.
A medida que ha quedado patente la dificultad de implantación del data lake, los fabricantes han empezado a crear plataformas integradas que van más allá del almacenamiento masivo de datos. Estamos hablando de la integración de las siguientes capacidades:
  • Ingerir datos: Capacidad para la ingesta de datos de autoservicio con limpieza de datos, validación y perfiles automáticos.

  • Preparar datos: Capacidad para manipular y preparar datos a través de SQL y transformación interactiva a través de una interfaz de usuario simple.

  • Descubrir datos: Capacidad para explorar datos y metadatos y comprender su linaje, así como su perfilado.

  • Monitorizar datos: Capacidad para comprender el rendimiento y funcionamiento del data lake (es decir, quién lo usa, cómo, etc.), así como el seguimiento de SLA y resolución de problemas de rendimiento.

  • Diseño de flujos de datos: Capacidad para el diseño de flujos de datos para autoservicio.

Como es posible apreciar, estas componentes tienen puntos en común con las componentes de una gestión de datos maestros que hemos revisado anteriormente como, por ejemplo, la integración, la calidad, la validación y el gobierno del dato.
Otra aproximación que está emergiendo es el uso de una plataforma MDM que extiende al data lake y lo complementa, es decir, la plataforma de big data se convierte en otra fuente de datos que puede recibir la propagación de datos maestros.
En esencia, MDM crea un contexto para big data proporcionando información confiable sobre cómo los datos no estructurados entrantes encajan en el entorno empresarial. Por otro lado, big data crea un nuevo contexto de datos para expandir los datos maestros, lo que ayuda a la organización a incrementar el valor del dato.

Resumen

En este módulo hemos presentado el concepto de gestión de datos maestros, que tiene como objetivo crear definiciones de los datos claros y estables de una organización de datos maestros que se transforman en un único punto de referencia para múltiples sistemas, incluyendo la inteligencia de negocio.
Primero hemos introducido el concepto, los diferentes tipos de datos maestros existentes y los beneficios que aporta esta estrategia para una organización. A continuación hemos revisado en qué consiste un programa de gestión de datos maestros, si encaja dentro del gobierno del dato, las diferentes metodologías existentes para su desarrollo y mejores prácticas. También hemos revisado qué significa MDM para diferentes tipos de datos como cliente o producto.
Por último, hemos revisado las tácticas y tecnologías que componen la gestión de datos maestros y los componentes que forman parte de una plataforma.

Glosario

big data
Hace referencia al conjunto de estrategias, tecnologías y sistemas para el almacenamiento, procesamiento, análisis y visualización de conjuntos de datos complejos.
business intelligence
Hace referencia al conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas a la creación y administración de información que permite tomar mejores decisiones a los usuarios de una organización.
CRM
Hace referencia a un sistema informático para la administración y gestión de la relación con clientes.
data quality
Hace referencia a las técnicas para la identificación, el control, el incremento y el mantenimiento de la calidad de datos en una organización.
data warehouse
Hace referencia al repositorio de datos que proporciona una visión global, común e integrada de los datos de la organización, independiente de cómo se vayan a utilizar posteriormente por los consumidores o usuarios, con las propiedades siguientes: estable, coherente, fiable y con información histórica.
ERP
Hace referencia al sistema informático destinado a la administración de recursos en una organización.
ETL
Hace referencia a los procesos que permiten la extracción, transformación y carga de datos desde fuentes de origen hasta el destino para su correcto consumo.
General Data Protection Regulation
Hace referencia a la regulación europea que detalla los derechos en privacidad y protección de datos en el marco de Europa y su área económica. Más información en detalle en: https://gdpr-info.eu
gestión de datos maestros f
Hace referencia al conjunto de procesos, gobierno, políticas, estándares y herramientas que definen y gestionan constantemente los datos críticos de una organización para proporcionar un único punto de referencia.
golden record
Hace referencia a la versión única y bien definida de todas las entidades de datos en un ecosistema organizacional.
HRM
Hace referencia a un sistema informático para la administración y gestión de la relación con empleados.
PLM
Hace referencia al sistema para la gestión del ciclo de vida de un producto.

Bibliografía

Berson, A.; Dubov, L. Master Data Management and Data Governance, 2/E. Nueva York: McGraw Hill Professional.
Curto, J. (2017). Introducción al Business Intelligence (nueva edición ampliada y revisada). Barcelona: Editorial UOC.
Loshin, D. (2010). Master data management. Nueva York: Morgan Kaufmann.
Loshin, D. (2010). The practitioner’s guide to data quality improvement. Elsevier.
Mosley, M. (2009). DAMA-DMBOK functional framework. Nueva York: DAMA.
Mosely, M.; Brackett, M.; Early, S.; Henderson, D. (2009). The DAMA Guide to The Data Management Body of Knowledge (DAMA-DMBOK Guide).