El ciclo de la vida del dato

  • Marcos Pérez González

     Marcos Pérez González

PID_00283702
Segunda edición: octubre 2021
© de esta edición, Fundació Universitat Oberta de Catalunya (FUOC)
Av. Tibidabo, 39-43, 08035 Barcelona
Autoría: Marcos Pérez González
Producción: FUOC
Todos los derechos reservados
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada, reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita del titular de los derechos.

Introducción

A medida que las organizaciones fundamentan sus decisiones e iniciativas en datos, surgen preguntas como: ¿de dónde provienen los datos?, ¿tienen la calidad necesaria?, ¿qué sabemos sobre nuestra información?, ¿están estos datos alineados con nuestra política de empresa?, ¿tiene toda la organización la misma visión sobre el dato?
Llevar a buen puerto iniciativas de inteligencia de negocio (business intelligence), almacenes de datos (data warehousing), analítica de datos (data analytics), ciencia de datos (data science) o big data, requiere tener un enfoque holístico para con el dato y poder responder a las preguntas anteriores.
Para dar respuesta a dichas necesidades emerge el gobierno del dato (data governance), que permite a una organización administrar de forma más eficiente y eficaz el dato. De hecho, esta iniciativa corporativa aúna personas, procesos y tecnología para cambiar la forma en que los datos son adquiridos, gestionados, mantenidos, transformados en información, compartidos en el contexto de la organización como conocimiento común y sistemáticamente obtenidos por la empresa para mejorar la rentabilidad.
Aunque el gobierno del dato se apoya sobre soluciones de tecnología, a lo largo de este módulo comprenderemos que está fundamentado en el desarrollo de procedimientos y marcos de actuación dentro de una organización.
En este módulo estudiaremos la necesidad e importancia de conocer el ciclo de vida del dato y en qué consiste el gobierno del dato. Asimismo, comprenderemos qué aporta el gobierno del dato y dónde impacta, cuáles son sus componentes y, finalmente, cómo evaluar la madurez de nuestra propia organización.

Objetivos

Este material didáctico está dirigido a:
  1. Desarrolladores y consultores que quieren conocer qué significa gobierno del dato o data governance.

  2. Desarrolladores y consultores que quieren ayudar al diseño e implementación de estrategias de negocio que incluyan gobierno del dato.

  3. Gestores que están interesados en la transformación digital de su organización y en la inclusión de gobierno del dato como uno de sus pilares fundamentales.

En los materiales didácticos de este módulo encontraremos las herramientas indispensables para asimilar los siguientes objetivos:
  1. Entender el concepto de data governance, las situaciones en las que es necesario desplegar una solución de este tipo y las ventajas que proporciona.

  2. Conocer el ciclo de vida del dato y las necesidades en cada una de las fases del ciclo.

  3. Enumerar y dar a conocer las diferentes componentes del gobierno del dato.

  4. Conocer qué significan las diferentes etapas de madurez en el gobierno del dato y cómo analizar la madurez de la propia organización.

Si bien la obra es autocontenida en la medida de lo posible, los conocimientos previos necesarios son:
  1. Conocimientos básicos sobre business intelligence y big data.

  2. Conocimientos sobre estrategia y gestión de las tecnologías de la información (TI).

Se introducirán los conceptos necesarios para el seguimiento de este material.

1.El dato como activo de valor para la organización

1.1.Estrategias competitivas basadas en activos

Mejorar el posicionamiento de una organización ha sido objeto de estudio durante las últimas décadas tanto dentro como fuera del ámbito académico. Cuando una organización cuenta con una mejor posición que sus rivales, hablamos de que tiene una ventaja competitiva que permite asegurar a los clientes y defenderse contra las fuerzas competitivas. Por ejemplo, Delta Airlines (1) , aerolínea de Estados Unidos, ha sido considerada durante muchos años un ejemplo en el uso de la eficiencia operacional para destacar por encima de otras compañías en su mismo mercado. Otro ejemplo es Apple, que ha destacado durante varios años por ofrecer productos altamente integrados de software y hardware combinado (como iPod, iPhone, iPad, AirPods, Apple Watch o incluso Mac a través de Apple Silicon) con diseños orientados al cliente como mecanismo de diferenciación.
Tradicionalmente, las ventajas competitivas se han fundamentado en:
  • Liderazgo en coste: La organización es capaz de producir un producto o proporcionar un servicio a menor coste que sus competidores.

  • Diferenciación: La organización es capaz de ofrecer un servicio o producto superior a los clientes. La diferenciación, frecuentemente, es el resultado de optimizar la cadena de valor del mercado en el que se opera o de realizar cambios en el alcance competitivo.

A mediados de los años ochenta emerge un modelo que considera que los recursos y las capacidades que tiene la organización son la clave para generar un rendimiento superior que sus competidores. En este enfoque estratégico, es necesario poder determinar si los recursos y las capacidades son relevantes, cosa que proporciona el marco de referencia que se ilustra en la figura 1.
El marco anterior busca identificar y clasificar los activos de una organización (financieros, físicos, humanos, tecnológicos, de reputación u organizacionales) en función de su valor. El objetivo es identificar las fortalezas y debilidades en relación con sus competidores y, a través de ello, encontrar nuevas oportunidades o un uso más eficiente de los mismos. De hecho, este mismo marco sirve para analizar las capacidades de una organización puesto que una capacidad puede entenderse como un recurso intangible.
Figura 1. Marco de referencia
Fuente: Frank Rothaermel
Fuente: Frank Rothaermel
Está claro que el principal objetivo de esta estrategia es generar ventajas competitivas sostenibles fundamentadas en:
  • Duración, es decir, a la velocidad de que un recurso se deprecia o se convierte en obsoleto.

  • Transparencia, es decir, a menor transparencia en el recurso, menor capacidad que sea imitado por un competidor.

  • Transferencia, es decir, a menor capacidad de transferencia de recursos –por ejemplo, no se pueden adquirir–, menor capacidad de que se sea imitado por un competidor.

  • Replicación, es decir, a mayor complejidad de procesos y capacidades organizacionales, mayor será la dificultad de replicación.

Que una organización tenga recursos y capacidades que sean susceptibles de generar ventajas competitivas no significa que realmente las genere. En definitiva, es necesario diseñar una estrategia que identifique los recursos y capacidades de la organización, mida su valor, maximice su explotación, y que, además, se realice de forma continua para aumentar este tipo de recursos dentro de la organización.

1.2.El dato como activo de valor

Vivimos una época de profunda transformación de las organizaciones fundamentada en tecnología (como cloud computing, impresión 3D, nanotecnología, etc.), en la que la gran mayoría de sus procesos de negocio y su cadena de valor están siendo revisados e interpretados de nuevo.
Esta transformación tiene diversos efectos. Entre ellos destaca la generación de datos como subproducto o incluso como intención principal de la transformación. Cuando la organización de forma consciente gestiona el dato, es capaz de decisiones más eficaces y eficientes, y así poder competir en el mercado de una forma diferente.
Es destacable, por ejemplo, el caso de Netflix, que usa los datos de cliente (su comportamiento y preferencias mostradas en la plataforma) combinados con algoritmos para evitar el abandono de clientes y tomar decisiones sobre los productos presentes y a incluir en la plataforma. De hecho, su conocimiento y la eficiencia de sus algoritmos se incrementan a medida que la compañía tiene más clientes, generando un efecto de red.
Tal es la importancia de esta iniciativa que, según Netflix, su impacto en el negocio es de un billón de dólares.
Tal y como apuntan Higson y Waltho, estas organizaciones han cambiado su percepción con respecto al dato. Han pasado de considerar el dato como un activo tóxico, que es necesario controlar y cuyo uso hay que limitar, a un activo de valor, que es necesario gestionar y del que hay que maximizar su uso.
Es decir, aquellas empresas que se están transformando en organizaciones orientadas al dato contemplan el dato como un recurso que genera ventajas competitivas, siguiendo las ideas de Wernerfelt.
El foco del dato no solo está en la eficiencia, como en el caso de Netflix. Ian Davis, analista de McKinsey, postula que las organizaciones deben ser ágiles para poder adaptarse a los cambios del mercado. Y defiende el rol del dato como fuente de la agilidad y el aprendizaje continuo. Para que una empresa sea flexible ante el mercado debe ser capaz de adaptar sus decisiones de forma continua y, por lo tanto, será tan flexible como lo sea su dato y sus capacidades de análisis.
Desde la perspectiva de un activo, el dato tiene sus peculiaridades si lo comparamos con otro tipo de activos:
  • Los datos frecuentemente tienen una naturaleza transitoria, es decir, están ligados a un tiempo y un momento. Por ejemplo, los valores bursátiles como activo solo tienen sentido si son capturados y analizados de forma continua. Esto es muy diverso: por ejemplo, un edificio cuyo valor presenta una duración más amplia.

  • El dato requiere un mantenimiento continuo, es decir, es necesario manipular para mantener o incluso incrementar su valor.

  • El dato puede reusarse, es decir, a diferencia de otros activos que con el uso se desgastan (por ejemplo, una pelota), el dato tiene la posibilidad de ser usado en diferentes escenarios a un coste marginal.

  • El dato tiene un gran potencial como activo, puesto que tiene una baja o nula transparencia, transferencia y replicación, y una larga duración.

Sin embargo, la visión del dato como un activo aún no está completamente implantada en las organizaciones. El principal problema reside en que no se tienen mecanismos establecidos para medir el coste y el valor del dato, ni tampoco frecuentemente procesos para gestionar de forma adecuada este activo.
De tener estos valores, al igual que se hace con otros activos, el dato podría tener una entrada en los informes financieros, y sería factible dirimir su impacto en el negocio. Además, esto permitiría:
  • Asegurar un cuidado y una administración apropiados de los activos de datos.

  • Incentivar el uso de estos activos de forma eficiente.

  • Potenciar la búsqueda de rentabilidad sobre estos activos, y clasificarlos en función de su rentabilidad.

Sin embargo, este escenario no es posible de forma generalizada. El valor del dato está ligado a la capacidad de diferenciación y creación de ventajas competitivas sostenibles, como en el caso de Netflix, lo que supone que cada organización podría tener mecanismos diferentes y propios para medir el valor.
De tener un proceso sistemático para gestionar los datos como un activo, sería factible poder seguir el ejemplo de Netflix y determinar qué significa valor y cómo evoluciona.
Por todo ello, nuestro objetivo es responder las siguientes preguntas: ¿cómo es posible identificar qué datos de la organización son realmente activos de valor?, ¿cómo medimos el valor de dichos activos?, ¿cómo determinamos la evolución del valor a lo largo del tiempo?
En las siguientes secciones discutiremos estas preguntas que se articulan a través del gobierno del dato.

2.El ciclo de vida de los datos

2.1.¿Qué es el ciclo de vida de un activo?

En el momento en que una organización identifica el dato como un activo de valor, el siguiente paso es la gestión de dicho activo de forma precisa. Para ello, es necesario poder conocer y asociar a cada dato lo que definimos como el ciclo de vida de un activo:
Se entiende por ciclo de vida de un activo las diferentes etapas por las que pasa un activo desde su creación/inicio hasta su destrucción/final.
La visión del ciclo de vida de activo vincula directamente el activo con una actividad o proyecto, por lo que en general el ciclo de vida de un activo puede estar vinculado a las siguientes etapas:
  • Idea inicial y estudios preliminares (del proyecto).

  • Evaluación del proyecto respecto de diferentes perspectivas, como viabilidad técnica o económica.

  • Definición y planeamiento de las etapas del proyecto y en cuáles de ellas el activo es relevante.

  • Detalle del proyecto y diseño de los procesos.

  • Ejecución del proyecto de acuerdo a la planificación.

  • Puesta en marcha, prueba de todas las instalaciones y aceptación de las mismas.

  • Operación de las instalaciones, uso o consumo de los bienes o servicios.

  • Evaluación del proyecto para identificar siguientes mejoras o cambios.

  • Descarte, reciclaje o venta de la instalación.

Es decir, se trata de conocer todo lo que ocurre con el dato, desde cómo se crea o incorpora a un proceso hasta el descarte final, reciclaje o venta del mismo. Comprender el ciclo de vida del dato significa analizar las condiciones del dato en la organización en vinculación con el negocio y, por lo tanto, gestionar dicho ciclo. Esto nos lleva a definir el siguiente concepto.
Se entiende por gestión del ciclo de vida del dato el enfoque basado en políticas para gestionar el flujo del dato a través de uno o varios sistemas de información a lo largo de su ciclo de vida.
Algo que es necesario recalcar es que el dato es un activo con condiciones muy definidas que caracterizan todo su ciclo. Centrémonos, por un momento, en la parte final del ciclo. La retención de datos dentro de la organización puede estar definida por obligaciones legales, por la legislación vigente o por el valor que el dato suministra a una organización. En países como España (2) , es necesario tener en cuenta la ley de conservación de datos relativos a las comunicaciones electrónicas y a las redes públicas de comunicaciones. También es necesario recordar que, aunque los costes de almacenamiento son cada vez menores, existe la necesidad de identificar cuándo los datos deben ser descartados, mediante su completa eliminación o desplazándolos a un almacenamiento externo para, así, mantener un tamaño manejable en el entorno de datos dentro de la organización.

2.2.¿Cómo medir el valor del dato?

Como hemos comentado, considerar el dato como un activo abre la puerta a preguntarse qué valor tiene dicho activo. Gestionar el dato no solo consiste en saber dónde está el dato, cómo ha evolucionado o qué significa. También es necesario conocer el valor que aporta un dato a la organización y cómo medir dicho valor.
Aunque hemos discutido que a veces puede resultar complicado determinar esta medición, vamos a introducir un punto de partida general. De acuerdo con la teoría de la contabilidad, el valor de un activo proviene de dos fuentes:
  • Uso del activo, en cuyo caso hablamos de valor en uso.

  • Venta del activo, en cuyo caso hablamos de valor de intercambio.

A partir de estas fuentes, tenemos tres métodos para calcular el valor del dato:
  • Fundamentado en el coste: el valor del activo está basado en el precio pagado para adquirir el activo. Por ejemplo, el coste que tiene capturar, procesar, almacenar y analizar los datos del cliente para su segmentación.

  • Fundamentado en el mercado: el valor del activo se fundamenta en el precio que está dispuesto a pagar un tercero por adquirirlo. Por ejemplo, cuando se compra una base de datos de empresas a Crunchbase (3) .

  • Fundamentado en la utilidad: el valor del activo está basado en el valor actual de los beneficios esperados futuros. Por ejemplo, cuando hemos medido que la segmentación de clientes a partir de sus comportamientos nos permitirá aumentar las ventas en un tres por ciento.

Cada uno de estos métodos tiene sus limitaciones.
1) El valor fundamentado en coste puede ser inferior o superior al valor real para un conjunto de datos. Pensemos en el valor de la interacción de un usuario en la página de Amazon, donde lo que está sucediendo tiene valor tan solo durante un corto periodo de tiempo.
2)El valor fundamentado en el mercado requiere más tiempo para poder determinar qué precio es correcto para el dato.
3)El valor fundamentado en la utilidad presenta la complejidad que es necesario medir los flujos de caja en el futuro, lo que supone trabajar con hipótesis.
Cómo calcular este valor se ha convertido en un tema candente al transformarse el dato en un activo de valor para crear ventajas competitivas o nuevas fuentes de ingresos, tal y como se ha comentado en el capítulo 1. Según Gartner (4) , es necesario ampliar las formas en las que determinamos el valor del dato, y existen de dos tipos: fundacionales y financieras.
1) Medidas fundacionales, con foco en la mejora de la gestión de la información:
  • Valor intrínseco (Intrinsic Value Indicator): evalúa el grado de corrección del dato y si es completo. Se calcula mediante:

    IVI = Validez * Complitud * ( 1 - Escasez ) * Ciclo de vida

    donde:

    • Validez es el porcentaje de registros considerados correctos.

    • Completitud es el porcentaje del total de registros respecto del universo de potencial o supuesto de registros.

    • Escasez es el porcentaje de su mercado o competidores que también, probablemente, tienen estos mismos datos.

    • Ciclo de vida es la utilidad razonable utilizable de cualquier unidad (registro) del activo de información (por ejemplo, en meses).

  • Valor de negocio (Business Value Indicator): evalúa si el dato es relevante para un propósito específico. Se calcula mediante:

    BVI = p = 1 n Relevancia P * Validez * Completitud * Oportunidad

    donde:

    • Relevancia es cuán útil puede ser la información (o es) para uno o más procesos de negocio (0 a 1).

    • Validez es el porcentaje de registros considerados correctos.

    • Completitud es el porcentaje del total de registros respecto del universo de potencial o supuesto de registros.

    • Oportunidad es con qué rapidez se capturan las instancias nuevas o actualizadas de los datos y se pueden acceder a ellas.

  • Valor de rendimiento (Performance Value Indicator): evalúa cómo afecta el dato a los factores clave del negocio. Se calcula mediante:

    PVI = KPI i KPI c - 1 * T / t

    donde:

    • i es el número de instancias de proceso de negocio que utilizan el recurso de información (grupo informado).

    • c es instancias de proceso empresarial que no utilizan la información (grupo de control).

    • T es el promedio de vida útil de cualquier instancia de datos.

    • t es la duración durante la cual se midió el KPI.

2) Medidas financieras, con foco en la mejora del rendimiento financiero:
  • Valor del coste (Cost Value Indicator): evalúa el coste asociado a la pérdida del dato. Se calcula mediante:

    CVI = Coste Proceso * % Atribuible * T t + p = 0 n Ingresos Perdidos p }

    donde:

    • Coste proceso es el coste anual de los procesos que permiten capturar el dato.

    • % Atribuible es el porcentaje atribuible a la captura del dato.

    • T es el promedio de vida útil de cualquier instancia de datos.

    • t es la duración del periodo sobre la que se mide el coste del proceso.

    • n es el número de periodos de tiempo hasta que es necesario volver a adquirir o la continuidad de negocio ya no está afectada por la pérdida de información.

  • Valor del mercado (Market Value Indicator): evalúa el beneficio que se podría obtener al vender o intercambiar el dato. Se calcula mediante:

    MVI = Precio exclusivo * Número de partners Prima

  • Valor económico (Economic Value Indicator): evalúa cómo el dato contribuye al resultado final. Se calcula mediante:

    EVI = ( Ingresos i - Ingresos c - Costes ) * T / t

    donde:

    • Ingresos i son los ingresos generados con el data como activo.

    • Ingresos c son los ingresos generados sin el data como activo.

    • T es el promedio de vida útil de cualquier instancia de datos.

    • t es la duración del experimento.

2.3.Fases del ciclo de vida del dato

En la sección 2.1 hemos comentado que el dato es un activo diferente a otros activos de la organización, ya sea por su naturaleza, complejidad o incluso por el hecho de que sea un metadato.
Para comprender el dato y su valor, debemos hacerlo a lo largo de su ciclo de vida, que tiene diferentes fases, cada una de las cuales con sus propias características, como se ilustra en la figura 2.
A continuación entramos en detalle en cada una de estas fases:
Figura 2. Ciclo de vida del dato
Fuente: elaboración propia
Fuente: elaboración propia
  • Fase 1. Captura del dato Esta fase puede considerarse como el acto de crear datos que no existen aún en la organización y que nunca han existido en ella. Existen diversos métodos para la captura de datos, entre los que destacan:

    • Adquisición de datos: la ingesta de datos que han sido creados y existen fuera de la organización.

    • Introducción de datos: la creación de nuevos datos en la organización por personal humano o generados mediante dispositivos dentro de la propia organización.

    • Recepción de señales: la captura de datos creados por dispositivos, normalmente en sistemas de control, pero cada vez más importantes para los sistemas de información, como el internet de las cosas.

    Los tres métodos identificados conllevan importantes retos asociados. Por ejemplo, la adquisición de datos suele implicar la creación de contratos o normas que definen el modo en que la organización puede usar los datos que obtenga del exterior. La introducción de datos implica una detallada gestión de la seguridad del dato dentro de la organización, esto es, quién tiene permisos para crear o modificar datos en la organización. Por último, un reto asociado a la recepción de señales es cómo captar y procesar esos datos, los cuales pueden ser de cualquier naturaleza y tamaño, como por ejemplo, los datos generados en tiempo real por los sensores de control en los yacimientos petrolíferos.

  • Fase 2. Mantenimiento del dato. El objetivo de esta fase es procesar el dato, pero sin que se genere aún un valor claro para la organización. Este procesamiento incluye tareas de integración, limpieza y enriquecimiento, así como procesos de extracción, transformación y carga del dato (conocidos en inglés como ETL: Extract, Transform, and Load). Debido a la diversidad de actividades en esta fase, existen numerosos retos asociados, como por ejemplo cómo mejorar el proceso de envío del dato al destino final para su síntesis y uso, previniendo que se genere un elevado número de movimientos de datos durante todo el procesamiento de inicio a fin.

  • Fase 3. Síntesis del dato. Esta fase consiste en la creación de datos de valor aplicando un procesamiento o lógica inductiva determinada, usando otros datos como fuente. Esta es el área del procesamiento analítico donde se usa el modelado de datos, como por ejemplo el modelo de riesgos de una organización. La lógica inductiva requiere de algún tipo de experiencia o conocimiento como parte de la lógica de negocio, como por ejemplo la forma en la que se crean los informes de créditos bancarios. Sin embargo, la lógica deductiva no formaría parte de esta fase, quedando relegada a la fase anterior, como por ejemplo, crear un nuevo valor aplicando una ecuación simple:

    Valor neto = Valor bruto - Impuestos asociados

  • Fase 4. Uso del dato. Una vez que el dato ha sido capturado y transformado dentro de la organización y se ha usado como fuente en la fase anterior, el dato se usa para beneficio de la propia organización en tareas que la organización utiliza y gestiona. Aunque normalmente se trata de tareas que no pertenecen al ciclo de la vida del dato, el dato cada vez más es considerado con un activo fundamental en los modelos de negocios de muchas organizaciones. En esta fase también existen retos importantes, como por ejemplo el uso permitido del dato, o lo que es lo mismo, si es legal o no el uso del dato de la manera en la que los usuarios de negocio pretenden usarlo.

  • Fase 5. Publicación del dato. Esta fase puede ser definida como el envío del dato. Este envío puede ser interno (a una intranet) o externo (a un lugar fuera de la organización gestionado por terceros). Un ejemplo es una agencia de inversión que envía informes mensuales a sus clientes. Una vez que el dato ha sido enviado fuera de la organización, es imposible recuperarlo para una posterior modificación. El gobierno del dato ayuda a decidir cómo actuar con los datos incorrectos o incompletos que han sido enviados fuera de la organización. Los accesos no autorizados a los datos también estarían recogidos en esta fase.

  • Fase 6. Archivado de datos. Esta fase consiste en copiar los datos en un entorno donde son almacenados, en caso de que se vuelvan a necesitar en el futuro en un entorno activo de producción, y la completa eliminación de esos datos en todos los entornos activos. Un archivo de datos es simplemente un almacenamiento de datos, pero no de mantenimiento, uso o publicación de datos. En caso necesario, los datos pueden ser recuperados en un entorno donde se pueden realizar cualquiera de estas actividades.

  • Fase 7. Eliminación del dato. Esta es la fase final del ciclo de vida del dato y consiste en la destrucción de cualquier copia del dato que exista dentro de la organización. Idealmente este proceso será llevado a cabo mediante un archivado de datos. Un reto en esta fase sería verificar que la eliminación se ha llevado a cabo de manera satisfactoria.

2.4.¿Cómo es posible detectar los cambios en un dato?

El dato no es un activo estático durante su ciclo de vida. Dentro de las organizaciones, se crean nuevas fuentes de datos continuamente, y es necesario mantener un registro del dato a la vez que se mueve a través de diversos sistemas dentro de la organización. Para ello, necesitamos establecer lo que se conoce como trazabilidad del dato, o linaje del dato.
Se entiende por linaje del dato la capacidad de conocer todo el ciclo de vida de un dato, desde la fecha y hora exacta en que fue extraído, y el momento en que se produjo su transformación, hasta el instante en que tuvo lugar su carga desde un entorno fuente (servidor, fichero, tabla campo, etc.) a otro de destino. En inglés, data lineage.
Mediante el linaje del dato, las organizaciones pueden obtener una mejor comprensión de lo que sucede con el dato, posibilitando el rastreo e identificación de errores y, así, aplicar protocolos más rigurosos de gobierno del dato.
El linaje del dato provee a los profesionales del dato una representación visual que permite visualizar el flujo del dato. De este modo, se puede identificar cómo y cuándo el dato es modificado en la organización. Por ejemplo, identificar los cambios realizados en el dato por los diferentes procesos de extracción, transformación o carga definidos en la arquitectura de datos de la organización. Cabe también destacar que, gracias a la capacidad de monitorizar el dato de una forma continuada, los errores relativos al dato pueden ser detectados antes de que aparezcan, y por tanto corregidos.
Un escenario de uso común del linaje del dato se da en el área de la inteligencia de negocio (business intelligence). Por ejemplo, esta capacidad muestra cómo se ha obtenido cierta información relativa al negocio y qué papel puede desempeñar en los diversos métodos disponibles de integración de datos en la organización. Otro escenario habitual tiene que ver con la reducción de riesgos y la protección de datos. Los profesionales del dato pueden usar el linaje del dato para gestionar de una manera óptima el dato y controlar en todo momento dónde se encuentran los datos sensibles evitando su exposición o minimizando los efectos de una posible violación en la seguridad en la organización.
Otros casos de uso incluyen:
  • Resolución de errores o conflictos: en la creación de informes la trazabilidad del dato habilita conocer cómo se han construido las métricas que se incluyen, qué transformaciones se han hecho y de dónde provienen.

  • Análisis del impacto: en el desarrollo y evolución de sistemas de información, el linaje del dato habilita comprender de antemano qué sucederá con el dato y qué medidas se deben tener en cuenta.

  • Informes de conformidad: en ciertos sectores, se han impuesto regulaciones y normas para una mayor transparencia. Data lineage habilita reducir los errores humanos y reducir las brechas en la conformidad para con la normativa vigente.

Un aspecto a destacar es que el linaje de datos busca aumentar la calidad y la eficiencia del ciclo de vida del dato. En aquellas organizaciones que no tienen claro los procesos en los que está involucrado un dato, un proyecto de linaje de datos podría estar ligado a la minería de procesos.
Se entiende por minería de procesos la disciplina que tiene como objetivo descubrir, monitorear y mejorar procesos a través de la extracción de conocimiento del registro de eventos de los sistemas de información. En inglés, process mining.
La minería de procesos incluye tres tipos de análisis: descubrimiento de procesos, conformidad de procesos y mejora de procesos (aumentando sus datos contextuales).
En esencia, el linaje del dato es un paso necesario pero no suficiente hacia la gestión eficiente del dato.

3.Gobierno del dato

Aunque pueda parecer lo contrario, la gestión del dato (y en su forma más moderna, el gobierno de dato) no es un concepto nuevo; existe desde hace más de veinte años. Para poder entender su forma más moderna, es necesario comprender sus orígenes.

3.1.Orígenes de data governance

Como concepto, el gobierno del dato ha existido desde hace décadas y ha pasado por diferentes épocas.
Desde los inicios de las tecnologías de la información hasta finales de los ochenta, las organizaciones fueron adoptando progresivamente múltiples sistemas de información con foco en soportar procesos de negocio y reducir las tareas manuales. Sin embargo, el dato era considerado como un subproducto de poco valor, con poca necesidad de ser compartido y gestionado. En las pocas organizaciones en las que se identificó la necesidad, se trató de gobernar el dato mediante el modelado de datos corporativos, pero con escaso éxito debido principalmente a dos motivos: la falta de soporte corporativo, ya que solo el departamento de informática estaba implicado en estas tareas, y la rigidez de las aplicaciones disponibles en la época. En resumen, en esta época el gobierno del dato era considerado principalmente un ejercicio meramente académico.
Durante las siguientes dos décadas, muchas organizaciones empezaron a reconocer que el valor del dato iba más allá de las transacciones. Se inició en muchas organizaciones el largo proceso de tomar decisiones fundamentadas en datos. Poco a poco también se empezó a identificar la necesidad de cruzar los datos de diferentes unidades de negocio y departamentos.
En una primera instancia, las organizaciones abordaron estas necesidades construyendo repositorios de datos consolidados, ya fuera mediante sistemas ERP (5) o data warehouse. La implementación de estos sistemas, aunque proporcionaba claros beneficios, no estaba exenta de retos y problemas, como su coste, duración y los conflictos generados de tener que responder a múltiples necesidades de negocio al mismo tiempo. En esta época, también debemos destacar la caída de compañías como Enron, que hizo que el gobierno de Estados Unidos estableciese nuevas leyes para mejorar la certeza y fiabilidad de la información dentro de las organizaciones, en particular, la Ley Sarbanes Oxley (en inglés Sarbanes-Oxley Act of 2002, Pub. L. No. 107-204, 116 Stat. 745), cuya finalidad es evitar fraudes y riesgo de bancarrota, protegiendo al inversor.
Por estas razones, se empezó a identificar el gobierno del dato como crítico para el negocio. De hecho, fue un componente clave en las medidas creadas por la Ley Sarbanes Oxley y otros reglamentos, los cuales obligan a los ejecutivos de las organizaciones a conocer y ser personalmente responsables de los datos que utilizaban en sus negocios. El gobierno del dato empezó a madurar rápidamente y, como resultado, la tecnología desarrollada empezó a posibilitar la automatización a la hora de crear y gestionar leyes de negocio a nivel de dato. Sin embargo, el gobierno del dato estaba habitualmente centrado en diversos repositorios aislados, por ejemplo, el gobierno del dato para un data warehouse o un sistema ERP. Además, al principio era un gobierno del dato informal, el cual carecía de una estructura organizativa y procesos bien definidos.
En la actualidad, los ejecutivos están empezado a tener claro la necesidad de gestionar el dato como un activo para la organización. Hay una proliferación de más y más regulaciones vinculadas con el dato; conjuntamente con la explosión de la complejidad del dato (big data), la transformación digital empuja a considerar formas más sofisticadas de explotar los procesos de negocio y los datos (por ejemplo, mediante machine learning).
Este escenario empuja a las organizaciones a replantearse cómo gestionar el dato, al necesitar nuevas estructuras de almacenamiento, de procesamiento y de análisis, y cómo afectan estas a los modelos de datos, a la calidad, a la seguridad y al ciclo de vida. Esto ha llevado a la aparición de plataformas integrales de gobierno del dato en la que se definen políticas de datos en el ámbito empresarial.
El cambio actual también se fundamenta en que estas iniciativas ya no solo son responsabilidad del departamento TI (6) , que aporta consistencia y control, sino también del negocio que incrementa su responsabilidad sobre el dato y el reconocimiento del valor que puede aportar. En alguna de ellas (como es el caso de Telefónica o Barclays), incluso existe un rol especializado en el consejo de dirección, el llamado chief data officer (CDO).

3.2.Definición de data governance

La creciente necesidad de gestionar de forma eficiente el dato ha generado que múltiples instituciones hayan dedicado recursos a formalizar la definición del gobierno del dato y a definir sus componentes, lo que ha provocado que existan numerosas definiciones del concepto. Algunas se exponen a continuación:
  • Según The MDM Institute (7) , es la coordinación formal de personas, procesos y tecnología que permite a una organización utilizar los datos como un activo de empresa.

  • Según The Data Governance Institute (8) , es un sistema de decisiones y responsabili dades sobre procesos de información, ejecutados de acuerdo a modelos preestablecidos que describen quién puede tomar qué decisiones, usando qué información y cuándo, bajo qué circunstancias, usando qué métodos.

  • Según KiK Consulting (9) , es la ejecución y aplicación de autoridad sobre la gestión de activos del dato y el rendimiento de las funciones del dato.

  • Según IBM Data Governance Council (10) , es una disciplina de control de calidad para asesorar, gestionar, utilizar, mejorar, monitorizar y proteger información de la organización.

  • Según Sunil Soares, experto en data governance, es la elaboración de normas para optimizar, proteger y hacer uso de la información como un activo de empresa mediante el alineamiento de objetivos de múltiples funciones.

En el presente material, vamos a considerar la definición de DAMA (11) publicada en el Data Management Body of Knowledge (DMBOK):
Se entiende por gobierno del dato (en inglés, data governance) el ejercicio de autoridad, control y toma de decisiones compartida (planificación, vigilancia y aplicación) sobre la gestión de los activos de datos.
Es importante destacar que todas las definiciones son similares y establecen que el gobierno del dato trata sobre los procesos que controlan la creación, el acceso, el uso compartido, la utilización y la destrucción de la información, y qué sucede cuando existe un conflicto al respecto.

3.3.Objetivos de data governance

Así pues, el gobierno del dato es un conjunto de normas y prácticas bien definidas para asegurar que el dato sea:
  • Accesible, lo que significa que:

    • El usuario puede acceder a los datos que necesita y estos están disponibles.

    • El formato del dato coincide con el que el usuario demanda.

  • Seguro, lo que significa que:

    • Solo pueden acceder al dato los usuarios autorizados.

    • Se impide el acceso al dato a los usuarios no autorizados.

  • Consistente, lo que significa que:

    • La información es la misma cuando diversos usuarios acceden al mismo dato.

  • Alta calidad, lo que significa que:

    • El dato es riguroso y certero.

    • Cumple con los estándares preestablecidos.

  • Auditable, lo que significa que:

    • La trazabilidad del dato es clara.

    • El departamento de IT sabe quién usa el dato y para qué propósitos.

El objetivo final del gobierno del dato no es solucionar todos los problemas de TI de la organización, sino centrarse en todos los aspectos vinculados con el dato. Por ello, los principales objetivos del gobierno de dato incluyen:
  • Definir, validar y comunicar las estrategias del dato, normas, estándares, arquitectura, procedimientos y métricas.

  • Monitorizar las políticas del dato, estándares, arquitectura y procedimientos.

  • Patrocinar y supervisar la entrega de proyectos de gestión de dato y servicios.

  • Gestionar y resolver conflictos relacionados.

  • Entender y promocionar el valor del activo del dato.

En este sentido, implementar el gobierno del dato en una organización supone trabajar en los siguientes puntos:
  • Estrategia. Desarrollar una estrategia, es decir, decidir qué datos se van a gestionar, identificar los datos maestros. Determinar el valor del dato basado en el coste de la captura, mantenimiento, valor de negocio, riesgo de pérdida o certeza del dato.

  • Comisión. Establecer una comisión de las líneas de negocio que están en la posición de entender el dato, entender el negocio y ser capaces de tomar una decisión.

  • Normas. Establecer un conjunto de normas para definir la integridad de datos, calidad, seguridad y utilización del dato.

  • Estándares. Establecer un conjunto de estándares para controlar la implementación de las normas, modelado de datos, herramientas, tecnologías y metodologías.

  • Procedimientos. Definir procedimientos para tratar conflictos de calidad del dato y de seguridad.

  • Conflictos. Gestionar los conflictos y su resolución.

  • Supervisión. Ofrecer una supervisión continuada de la gestión del proyecto.

  • Incumplimiento. Establecer un conjunto de penalizaciones por incumplimiento de los estándares y procedimientos.

  • Documentación. Proporcionar documentación relativa al dato y requisitos de metadatos.

El gobierno del dato no reemplaza la gestión del dato, sino que lo complementa. Cuando diferentes usuarios no pueden o deben tomar decisiones independientemente en la organización, el gobierno del dato facilita que equipos que desempeñan diferentes funciones en el negocio se unan para crear normas comunes, solucionar conflictos o dar nuevos servicios a las personas involucradas. La tabla 1 presenta las principales diferencias entre ambos conceptos.
Tabla 1. Diferencias entre gobierno y gestión del dato

Dimensión

Gobierno del dato

Gestión del dato

Alcance

Toma de decisiones, monitorizado y ejecución que tiene autoridad en la gestión del dato de una organización

Control de la arquitectura de datos, calidad, seguridad, normas, prácticas y procedimientos

Función

Decidir qué hacer con el dato y asegurar que se haga lo decidido

Implementar las arquitecturas, procesos, herramientas y normas para alcanzar los objetivos del gobierno del dato

Es bastante común, en las organizaciones, que diferentes grupos de usuarios creen diversos repositorios de datos no sincronizados entre sí. Este hecho suele dar lugar a una pésima eficiencia operacional y un alto riesgo, dando lugar a la necesidad de que exista una autoridad que resuelva los conflictos generados. Esta es la función del gobierno del dato. Por ejemplo, si existen multitud de repositorios sobre datos de cliente, se necesitará tomar decisiones, a menudo impopulares, para crear un repositorio de datos maestros.

3.4.Fases de data governance

El diseño de un programa de gobierno del dato no es, necesariamente, una secuencia lineal. De hecho, es probable que se tomen decisiones sobre cada una de las fases del programa sobre la base de otras fases. Por tanto, a pesar de que a continuación se detallan las fases en una secuencia lineal, se deberá tener en cuenta un enfoque holístico a la hora de hacer el diseño.
Según The Data Governance Institute, el ciclo de vida del gobierno del dato consta de siete fases, como se ilustra en la figura 3.
1) Desarrollo de una descripción del valor
2) Preparación y hoja de ruta
3) Planificación y financiación
4) Diseño
5) Implementación
6) Gobierno
7) Monitorización, medición, creación de informes
Figura 3. Fases de data governance
Fuente: The Data Governance Institute
Fuente: The Data Governance Institute
Como prerrequisitos, antes de crear el diseño del programa del gobierno del dato debemos tener en cuenta que:
  • El mensaje del valor del programa debe ser claro.

  • Debe existir una hoja de ruta que será compartida con las personas involucradas y que detalle los diversos aspectos, en particular, dar respuesta a las preguntas quién, qué, cuándo, dónde y por qué.

Es necesario explicar el detalle de las diferentes fases:
Fase 1. Desarrollo de una descripción del valor. La primera fase se centra en definir el valor que el gobierno del dato genera al negocio y los estándares para una medición continuada tras la puesta en marcha del programa. En esta fase, se revisa cuidadosamente la estrategia y los objetivos del negocio y se define y desarrolla una conexión entre el gobierno del dato y una mejora en la organización identificable desde un aspecto financiero. Para identificar el valor que el programa pueda generar al negocio, es preciso identificar qué sucede dentro de la organización en términos de la gestión del dato, ya que es posible que exista algún programa en ejecución, como relativo a la calidad del dato o a la gestión de datos maestros, y cómo el gobierno del dato soportará al negocio, directa o indirectamente, a través de estos programas.
A continuación, es necesario definir cuál será el criterio de éxito para el programa del gobierno del dato, esto es, proveer unos estándares de métricas y medidas al respecto que permitan cualificar el éxito o fracaso. Por ejemplo, se pueden identificar métricas financieras que permitan identificar cuál sería el coste de una carencia de gobierno del dato, o lo que es lo mismo, el uso de la información de una manera pobre e ineficaz dentro de la organización comparado con un programa gobernado.
Fase 2. Preparación y hoja de ruta. En esta fase se planifican los detalles sobre los eventos alrededor de la fecha de lanzamiento del gobierno del dato, momento en el cual los activos de datos de una organización pasan de no estar a estar gobernados. A menudo, la hoja de ruta implica un plan que se desarrolla durante varios años e integra actividades con otros proyectos o iniciativas que se ejecutan dentro de la organización. Es necesario incluir frecuentes puntos de control y espacios para recoger críticas constructivas a lo largo del plan para poder así modificarlo, si fuera necesario, y no llegar a un estado de bloqueo durante la ejecución del plan. Las actividades de esta fase implican:
  • Integración del gobierno del dato con otras áreas. Dado que el gobierno del dato está relacionado con multitud de áreas dentro de la organización, será necesario contemplar las posibles relaciones en la hoja de ruta. Por ejemplo, integración del gobierno del dato con la gestión de datos maestros dentro de una organización.

  • Diseño de métricas y requisitos de informes. Necesario para validar lo que se está gestionando y recibir información para asegurar la continuidad del plan.

  • Definición de los requisitos de mantenimiento o gestión del cambio. Es necesario planificar los posibles cambios que puedan ocurrir para poder gestionarlos. Así, se identifican los posibles elementos que tienen lugar, durante una futura puesta en ejecución o lanzamiento del programa, y se determina cómo están coordinados entre sí.

  • Definición del lanzamiento del gobierno del dato. Se especifican los detalles relativos a la puesta en marcha del programa, incluyendo información sobre el personal relacionado que lo gestionará.

Fase 3. Planificación y financiación. El programa del gobierno del dato, a menudo, conlleva una significativa inversión de tiempo y recursos, tanto humanos como financieros, por parte de la organización. Sin embargo, estos costes se compensan por el valor para el negocio que el programa proporciona. Mediante una descripción de valor bien definida, unos objetivos de negocio claros y un respaldo o patrocinio ejecutivo, el programa del gobierno del dato puede ser satisfactoriamente ejecutado y proveer un retorno de inversión significativo.
Fase 4. Diseño del programa. En esta fase se especifican y desarrollan los detalles sobre cómo el programa va a ser usado y la funcionalidad que albergará. El resultado final de esta fase son los principios, normas y diseño de los procesos que definirán el programa. Las principales actividades que se dan lugar en esta fase son:
  • Determinación de los procedimientos o principios centrales. Esta actividad es imprescindible para el éxito del programa y consiste en identificar, documentar y aprobar los procedimientos clave que serán utilizados dentro de la organización para considerar el dato como un activo.

  • Determinación de los procesos estándar para el negocio. Durante esta etapa se dan los procesos genéricos que definen los objetivos del programa del gobierno del dato. Por ejemplo, cómo el negocio reacciona ante un proceso de identificación o detección de incidencias y las acciones que se llevan a cabo en el proceso para su resolución.

  • Determinación de las responsabilidades y el modelo de propiedad. Así pues, todos los procesos definidos previamente carecen de utilidad hasta que se ha definido quién hace qué, y los diferentes niveles de responsabilidad presentes.

  • Exposición del modelo de gobierno del dato al equipo ejecutivo del negocio. De esta manera se informa y educa al equipo de gestión de la organización sobre las diferentes responsabilidades y procesos.

Fase 5. Implementación del programa. Esta fase representa la ejecución de las actividades que se han definido en el paso previo. Es importante destacar que esta fase no implica que exista un definido comienzo y final de fase, ya que, en esencia, una vez que se ha comenzado a soportar el gobierno del dato, este proceso nunca acaba. Las actividades principales de esta fase son:
  • Lanzamiento (en inglés, rollout) del gobierno del dato. Como su propio nombre indica, a partir de este momento la organización comienza a gobernar los datos. Al mismo tiempo, diferentes equipos dentro de la organización son educados y formados según lo acordado en la hoja de ruta y se publican diversos materiales creados durante el diseño del programa, tales como guías y normas.

  • Ejecución de cambios en el plan. En esta etapa se recoge toda la actividad relativa al soporte del gobierno del dato. Por ejemplo, se puede afirmar que, durante la ejecución del programa, diversos materiales, como las guías o materiales de formación, necesitarán una actualización. Asimismo, el nuevo personal necesitará de una nueva orientación sobre el programa implementado.

Fase 6. Gobierno del dato. Una vez que el diseño funcional está definido, el siguiente paso es plasmar ese diseño en un marco organizativo. En esta fase se identifica al personal relativo al programa del gobierno del dato, tales como administradores del datos o propietarios del dato, teniendo algunas áreas o usuarios diferentes actividades y rangos de responsabilidades relativos al gobierno del dato. Las actividades en esta fase se basan en:
  • Diseño del marco organizativo. Esto es, determinar dónde y qué niveles del marco son los encargados de ejecutar, gestionar y ser responsables de manejar los activos de datos.

  • Identificación de roles y responsabilidades. Esta tarea, aunque parezca trivial, puede conllevar obstáculos dentro de la organización, como por ejemplo una percepción de dar poder sobre los datos a determinados usuarios que puede llevar a problemas internos dentro del marco organizativo, o el temor de perjudicar la productividad actual al añadir responsabilidades adicionales.

Fase 7. Monitorización, medición y creación de informes. El programa del gobierno del dato necesita ser examinado y revisado para saber si es eficaz para la organización tras su implementación. Normalmente, un grupo interno dentro de la organización llevará a cabo estas comprobaciones, las cuales implican la recogida de datos y generación de métricas que informan sobre diversos aspectos, como la efectividad de normas y estándares, así como de la actividad de usuarios definidos en la organización, tales como administradores del dato.

4.Componentes y madurez de data governance

El gobierno del dato es un área muy grande. Incluye la gestión de aplicaciones de negocio (desde la perspectiva del dato), del gobierno TI (como la gestión de las bases de datos) y la gestión de la información. En estos materiales nos centraremos en aquellas componentes de mayor relevancia para el análisis del dato, y discutiremos cómo progresar el gobierno del dato a través de un modelo de madurez.

4.1.Componentes

Tal y como hemos comentado, el gobierno del dato es un ejercicio coral. Por un lado, las diferentes líneas de negocio son responsables de optimizar el uso y la comprensión de la información; por otro, el departamento TI es responsable de optimizar el acceso y la protección de la información; y por último, la estructura organizativa que soporta el gobierno del dato es responsable de optimizar la disponibilidad y utilidad de la información.
Estas responsabilidades se entrelazan y se despliegan en las diferentes áreas de la gestión de la información, como se ilustra en la figura 4.
Figura 4. Componentes del gobierno del dato
Fuente: DAMA - DMbok
Fuente: DAMA - DMbok
Es decir, el enfoque actual del gobierno del dato incluye múltiples funciones. Según DAMA, estas funciones o componentes son:
  • Arquitectura de datos (data architecture): Que consiste en las estructuras de almacenamiento y procesamiento del dato como parte de la arquitectura empresarial.

  • Diseño y modelos de datos (data modeling and design): Que consiste en la gestión, análisis, diseño, construcción, testeo y mantenimiento de los modelos de datos.

  • Almacenamiento de datos (database storage): Que consiste en la gestión de las infraestructuras físicas de almacenamiento de datos.

  • Seguridad de datos (data security): Que consiste en asegurar la privacidad, la confidencialidad y el acceso en los casos apropiados.

  • Datos maestros y de referencia (reference and master data): Que consiste en la identificación, mantenimiento, gestión, acceso y propagación de datos maestros y de referencia.

  • Inteligencia de negocio y almacenes de datos (data warehousing and business intelligence): Que consiste en la gestión de los procesos analíticos de la organización y del acceso de la forma correcta a la información para la toma de decisiones.

  • Integración e interoperabilidad de datos (data integration and interoperability): Que consiste en la gestión de la adquisición, extracción, transformación, movimiento, propagación, replicación, federación y virtualización de datos.

  • Contenido y documentos (documents and content): Que consiste en el almacenamiento, protección, indexación y habilitación de acceso de datos en documentos, permitiendo su integración e interoperabilidad con datos estructurados.

  • Metadatos (metadata): Que consiste en la recopilación, categorización, mantenimien to, integración, control, gestión y distribución de metadatos.

  • Calidad de dato (data quality): Que consiste en definir, monitorear, mantener y mejorar la calidad y la integridad del dato.

Y por encima de todas ellas, el gobierno del dato, encargado de la planificación, vigilancia y aplicación de la gestión y del uso del dato.
Por ello, una plataforma tecnológica de gobierno del dato debe cubrir las funciones descritas en mayor o menor medida. Frecuentemente, es posible encontrar plataformas de gestión de datos maestros o/y de calidad de datos de forma independiente. Y con mayor frecuencia, la función de la seguridad de dato cae bajo la responsabilidad del departamento de seguridad tecnológica, por lo que avanzar hacia un gobierno del dato requiere coordinar todas estas iniciativas independientes.
4.1.1.Normas, estándares y estrategia
Normalmente, son el paso inicial cuando una organización inicia un proceso de gobierno del dato. Las principales actividades del gobierno del dato con foco en normas, estándares y estrategia incluyen:
  • Identificación del personal involucrado, establecimiento de decisiones y clarificación de responsabilidades.

  • Establecer, revisar, aprobar y monitorizar normas.

  • Establecer, revisar, aprobar y monitorizar estándares.

  • Establecer estrategias de datos corporativos.

Vamos a centrarnos en detalle en tres áreas: la gestión de la calidad del dato, la gestión de datos maestros y la gestión de la seguridad del dato.
4.1.2.Calidad del dato
Una parte relevante del gobierno del dato es la necesidad de mejorar la calidad del dato. Habitualmente, la calidad se aplica a los datos maestros e involucra algún software de gestión o limpieza de datos. Las principales actividades del gobierno del dato con foco en la calidad del dato incluyen:
  • Identificar al personal involucrado, el establecimiento de decisiones y la clarificación de responsabilidades.

  • Definir la estrategia de la calidad del dato.

  • Monitorizar la calidad del dato.

  • Informar sobre el estado de las iniciativas de calidad.

4.1.3.Gestión de datos maestros
Otra de las funciones relevantes del gobierno del dato es la explotación y gestión eficiente de la información. Esta eficiencia se fundamenta en que no hay visiones divergentes respecto del dato y se evitan los silos de datos. Las principales actividades del gobierno del dato con foco en la gestión de datos maestros incluyen:
  • Identificar los datos maestros y los de referencia tanto internos como externos.

  • Consolidar y propagar el uso de los datos maestros y los de referencia.

  • Asegurar la calidad de los datos maestros y de referencia.

4.1.4.Gestión de la seguridad del dato
En el contexto del gobierno del dato, hablar de la gestión de la seguridad incluye también la privacidad y el cumplimiento. No solo se trata de proteger el dato, sino de cumplir con los requisitos de los reguladores en el sector y país en el que se opera. Esta función incluye tecnologías para identificar información sensible, proteger el dato, gestionar la seguridad y el acceso y normas de auditoría y control. Una arquitectura de seguridad de datos corporativa es esencial para proteger todos los datos sensibles en uso y almacenados en la organización. Las principales actividades de esta función incluyen:
  • Ayudar a proteger los datos sensibles mediante la gestión de acceso y requisitos de seguridad.

  • Alineamiento entre la arquitectura de seguridad de datos e iniciativas de negocio.

  • Ayudar a asesorar y gestionar el riesgo.

  • Ayudar a hacer cumplir los requisitos reguladores y contractuales.

  • Identificar al personal involucrado, el establecimiento de decisiones y la clarificación de responsabilidades.

4.1.5.Madurez
El desarrollo de un programa de gobierno del dato no está exento de problemas. Existen múltiples razones para que no llegue a buen puerto como, por ejemplo:
  • Falta de soporte ejecutivo, es decir, falta de un claro liderazgo en la organización

  • Falta de fundamentos de gestión del dato en la organización, es decir, falta de personas con conocimientos en la organización

  • Falta de métricas de seguimiento del programa, es decir, falta de indicadores y objetivos para comprender el avance del programa

  • Baja planificación en el programa y proyectos, así como no disponibilidad de presupuesto y/o tiempo adecuados, es decir, falta de organización respecto de estas iniciativas

  • Falta de perfiles adecuados tanto técnicamente como desde el punto de vista del liderazgo y de la propiedad del dato

Evaluar el estado de la organización respecto del gobierno del dato puede ayudar a comprender en qué situación se encuentra la organización y cuáles son los siguientes pasos.

4.2.Modelo de madurez data governance

Un buen punto de partida para desarrollar una estrategia efectiva del gobierno del dato es identificar cuál es el grado de madurez de la organización al respecto.
Como sucede con otros modelos de madurez, el grado de madurez está centrado en los procesos que ocurren dentro de la organización, su implementación y modo de operación. Estos procesos habilitan que la organización funcione eficazmente y rigen su funcionamiento. Es, por tanto, esencial que estos procesos estén implementados de una manera efectiva y que busquen una mejora de la optimización de forma continua.
En la actualidad, existen diversos modelos de madurez relativos al gobierno del dato, los cuales no siempre coinciden en sus características. Entre ellos destacamos:
  • MIKE2.0, que es un marco de referencia de buenas prácticas relativas a la gestión de la información y cuyo modelo es el Information Maturity Model (12)

  • IBM Data Governance Council, formado por más de cincuenta instituciones que colaboran en el área y cuyo modelo es el Data Governance Council Maturity Model (13)

  • EDM Council, que es una asociación para el desarrollo e implementación de estándares relativos al dato y publicación de buenas prácticas, y cuyo modelo es Data Management Maturity Model (DCAM) (14)

  • DAMA, una asociación internacional de profesionales focalizados en los conceptos y prácticas relativos a la gestión del dato y de la información, y cuyo modelo es DM- BoK (Data Management Body of Knowledge) (15)

  • Gartner, consultora de prospección tecnológica, cuyo modelo es Enterprise Information Management Maturity Model (16)

Aunque exista una falta de consenso entre los modelos existentes, en general se fundamentan todos ellos en el Capability Maturity Model (CMM); como norma general, se pueden describir cinco diferentes niveles o fases. Cada uno de estos niveles consta de unos objetivos y prácticas que describen las características presentes en los procesos y actividades necesarias para gestionar y mejorar los procesos relativos.
Esto da lugar a seis fases (incluyendo el caso de que no hay nada) respecto a la madurez en el gobierno del dato: ninguno, inicial, gestionado, estandarizado, avanzado y optimizado. Así, cuanto más alto sea el nivel de madurez de la organización, mayor será su eficiencia y sus costes y riesgos serán menores.
  • Fase 0. Ninguno. No existe un proceso de gobierno del dato definido.

  • Fase 1. Inicial. Existe una autoridad del dato en el departamento de TI, pero tiene poca influencia en los procesos de negocio. La colaboración entre áreas de TI y negocio no es consistente y existe una total dependencia de determinados expertos del dato en cada área de negocio. Como resultado, los procesos no están integrados dentro de la organización.

  • Fase 2. Gestionado. Dueño y administrador suelen estar presentes en líneas de negocio particulares. Existen procesos poco definidos en las aplicaciones clave en las líneas de negocio, y los problemas del dato son gestionados de una manera reactiva sin identificar el origen del problema. Es una etapa temprana a la hora de estandarizar los procesos en las diferentes líneas de negocio.

  • Fase 3. Estandarizado. El negocio está involucrado, existe un equipo de diferentes funciones, así como administradores de datos con responsabilidades claras. Hay establecidos procesos estandarizados y consistencia en las líneas de negocio. Existe un repositorio central de políticas de datos de fácil acceso y la calidad del dato es regularmente monitorizada y medida.

  • Fase 4. Avanzado. La estructura organizativa del gobierno del dato se considera como crítica para todas las funciones del negocio. El negocio es el dueño del contenido del dato y de la creación de las políticas del dato. Se crean y se documentan modelos de datos corporativos.

  • Fase 5. Optimizado. El gobierno del dato es un proceso de negocio central y las decisiones de negocio se toman evaluando el beneficio, coste y riesgo. Se crean objetivos de mejora de procesos para la organización, los cuales se revisan continuamente para reflejar posibles cambios en los objetivos del negocio. Los costes se reducen debido a la automatización de procesos.

Así pues, las distintas fases muestran un gobierno del dato indisciplinado que va evolucionando con modelos reactivos en un principio, a proactivos, dando lugar al final del proceso a un gobierno que provee una visión única de la organización. En este nivel, las organizaciones usan datos de alta calidad para soportar la automatización de procesos que no necesitan, o no deberían necesitar, de la intervención humana.
A medida que este nivel aumenta, el nivel de procesos involucrados será también mayor, como se ilustra en la figura 5.
Figura 5. Fases del modelo de madurez
Fuente: elaboración propia
Fuente: elaboración propia
4.2.1.Modelos de data governance
Así pues, las distintas fases muestran un gobierno del dato indisciplinado que va evolucionando, con modelos reactivos en un principio a proactivos, dando lugar, al final del proceso, a un gobierno que provee una visión única de la organización. En este nivel, las organizaciones usan datos de alta calidad para soportar la automatización de procesos que no necesitan, o no deberían necesitar, de la intervención humana.
Vamos a detallar cuatro modelos en función de cuatro dimensiones: personal, normas, tecnología y riesgos y recompensas.
1) Modelo indisciplinado
  • Personal

    • El éxito depende de la competencia de unos pocos empleados.

    • Los analistas de negocio no están implicados en la definición de normas de calidad del dato.

  • Normas

    • No existe calidad de dato.

    • Datos y procesos aislados.

    • Recursos no optimizados debido a la redundancia de datos y su antigüedad.

  • Tecnología

    • Estandarización y limpieza de datos en fuentes de datos aislados

    • La mejora de datos se centra en determinadas aplicaciones.

  • Riesgos y recompensas

    • El riesgo es muy alto. Los problemas del dato conllevan la pérdida de clientes o procedimientos erróneos.

    • Las recompensas son bajas. La organización recibe pocos beneficios de la calidad del dato.

2) Modelo reactivo
  • Personal

    • El éxito depende de un grupo específico de empleados de IT.

    • No existen procedimientos estándar que cubran diversas áreas funcionales, pero sí existen iniciativas de calidad del dato.

  • Normas

    • El foco es corregir errores cuando ocurren.

    • Los procesos de gestión se centran en problemas existentes.

    • Se estandarizan roles y tareas en grupos individuales y departamentos.

  • Tecnología

    • Se disponen de herramientas de control de calidad.

    • No existe integración de datos en las unidades de negocio.

  • Riesgos y recompensas

    • El riesgo es alto, debido a la falta de integración y consistencia de datos en la organización.

    • Las recompensas son limitadas y anecdóticas, a través de procesos individuales.

3) Modelo proactivo
  • Personal

    • El equipo de gestión entiende el rol del gobierno del dato. Se asigna personal y recursos.

    • Se considera el dato como un activo estratégico para la toma de decisiones.

    • Surge la figura del administrador del dato para implementar la estrategia y trabajar con los diversos equipos funcionales.

  • Normas

    • Surgen actividades en tiempo real y normas preventivas de calidad del dato.

    • Se comparan las métricas del dato con los estándares de la industria para obtener información para mejorar el modelo.

    • Los objetivos cambian de la corrección de errores a la prevención.

  • Tecnología

    • Un grupo de administradores del dato mantienen las normas de negocio y las descripciones de los datos de la organización.

    • Un continuo monitorizado de los datos ayuda a mantener la integridad de la organización.

    • Se dispone de procesos en tiempo real y la calidad del dato es compartida por diferentes modos de operación.

  • Riesgos y recompensas

    • El riesgo es medio o bajo. Los riesgos se reducen al disponer de una mayor información que incrementa la fiabilidad en la toma de decisiones.

    • Las recompensas son medias o altas. Cada vez más empleados adoptan el modelo.

4) Modelo gobernado
  • Personal

    • El gobierno del dato es soportado a nivel ejecutivo en la organización.

    • Los usuarios de negocio tienen un rol activo en la estrategia del dato.

    • Existe un grupo de gobierno o calidad del dato que trabaja directamente con los administradores del dato y otros usuarios.

  • Normas

    • Las nuevas iniciativas se aprueban después de considerar cómo van a afectar a la infraestructura del dato existente.

    • Existen normas automatizadas para asegurar la consistencia y fiabilidad del dato en toda la organización.

  • Tecnología

    • Se estandarizan las herramientas de calidad e integración del dato en la organización.

    • El dato es monitorizado continuamente, se soluciona inmediatamente cualquier desviación del estándar.

    • Los modelos de datos capturan la lógica del negocio y los detalles técnicos de todos los datos organizativos.

  • Riesgos y recompensas

    • El riesgo es bajo. Los datos maestros están controlados en la organización, permitiendo disponer de una alta calidad de información.

    • Las recompensas son altas. Existe una mejor comprensión sobre el negocio que permite al equipo de gestión una plena confianza en las decisiones basadas en el dato.

4.3.¿Qué modelo de madurez usar?

Al existir tantos modelos de madurez, las organizaciones no tienen claro cuál escoger y por dónde empezar. Y, a veces, esto se traduce en relegar esta elección al proveedor que aplica el modelo de madurez asociado a su herramienta o servicio en lugar de uno controlado por la organización.
Aplicar el modelo de madurez requiere hacerse múltiples preguntas respecto de todas las componentes presentadas, así como las personas, las políticas y las capacidades.
La organización debe tomar una decisión: si apostar por modelos con propiedad y de pago (como el de DAMA), por modelos asociados a una empresas (como el de IBM) o incluso apostar por un modelo abierto y público como el de Stanford.
El modelo de Stanford es un poco diferente a los anteriores en el sentido en que, aunque se fundamenta en CMM, limita las áreas que evalúa a personas, procesos y capacidades y se centra en aspectos como los datos maestros y la calidad del dato, dejando aparte la seguridad del dato. Dependiendo de la organización y de su madurez respecto de la seguridad del dato, puede ser también un modelo a tener en cuenta (17) . Por ejemplo, el estado de Oklahoma ha aplicado este modelo en lugar de los anteriores (18) .
Los modelos de madurez son muy útiles para dominios de capacidades conocidas. A medida que en la disciplina del análisis del dato aparecen nuevas tecnologías, es necesario tener en cuenta que estos modelos no reflejan estos cambios, y si los reflejan probablemente será en una medida de disminución de la madurez. Con ello queremos poner en alerta que el modelo de madurez, si bien es útil como herramienta de guía, no debe convertirse en un freno en la innovación en el análisis, introduciendo nuevas técnicas y enfoques.

Resumen

En este módulo didáctico hemos presentado el concepto de gobierno del dato para disponer de una visión holística en el resto de la asignatura.
Primero, hemos explicado el dato como activo de valor para la organización y visto que existe una necesidad de cambiar su gestión.
Además, hemos introducido lo que se conoce como el ciclo de vida del dato, que describe, en esencia, todas las etapas por las que pasa como activo. En función de la etapa y foco, el valor del dato será diferente y, por lo tanto, se han comparado diferentes formas de medir. La necesidad de conocer y controlar estas fases nos ha llevado a introducir el linaje del dato.
Esto nos ha llevado a introducir el gobierno del dato como punto central de la gestión de la información de una organización y explicar en qué consiste, detallando los objetivos que persigue y las fases que incluye. En definitiva, el gobierno del dato busca establecer mecanismos de control suficientes para el control y explotación eficiente del activo más importante: el dato.
También se han revisado en detalle las componentes del gobierno del dato para conocer qué es necesario tener en cuenta a la hora de implementar este tipo de programas. Estas componentes cubren desde la calidad del dato hasta la inteligencia de negocio y el data warehouse.
Por último, se han revisado diferentes modelos de madurez para poder identificar la situación actual de una organización y poder determinar pasos futuros.

Glosario

big data
Hace referencia al conjunto de estrategias, tecnologías y sistemas para el almacenamiento, procesamiento, análisis y visualización de conjuntos de datos complejos.
business intelligence
Hace referencia al conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas a la creación y administración de información que permite tomar mejores decisiones a los usuarios de una organización.
ciclo de vida de un activo m
Hace referencia a las diferentes etapas por las que pasa un activo desde su nacimiento hasta el fin.
gestión del ciclo de vida de un activo f
Hace referencia al enfoque basado en políticas para gestionar el flujo del dato a través de uno o varios sistemas de información a lo largo de su ciclo de vida.
gobierno del dato m
Hace referencia al ejercicio de autoridad, control y toma de decisiones compartida (planificación, vigilancia y aplicación) sobre la gestión de los activos de datos.
hoja de ruta f
Hace referencia al plan detallado que refleja los objetivos a corto y largo plazo y guía el progreso para alcanzar esos objetivos, usando a menudo una solución tecnológica específica.
internet de las cosas m
Hace referencia a la interconexión digital de objetos cotidianos con internet.
minería de procesos f
Hace referencia a la disciplina que tiene como objetivo descubrir, monitorear y mejorar procesos a través de la extracción de conocimiento del registro de eventos de los sistemas de información.
Ley Sabarnes Oxley f
Hace referencia a una ley busca monitorizar a las empresas que cotizan en bolsa de valores, evitando que la valorización de las acciones de las mismas sea alteradas de manera dudosa, mientras que su valor es menor.
linaje del dato m
Hace referencia a la capacidad de conocer todo el ciclo de vida de un dato, desde la fecha y hora exacta en que fue extraído y el momento en que se produjo su transformación, hasta el instante en que tuvo lugar su carga desde un entorno fuente a otro de destino.

Bibliografía

AA. VV. (2007). The IBM Data Governance Council Maturity Model: Building a roadmap for effective data governance. Nueva York: IBM Data Governance Council.
Berson, A.; Dubov, L. (2011). Master Data Management and Data Governance, 2/E. Nueva York: McGraw-Hill Education.
Brackett, M.; Earley, P. S. (2009). The DAMA Guide to The Data Management Body of Knowledge (DAMA-DMBOK Guide). Nueva York: DAMA.
Ladley, R. S. (2012). Data Governance: How to Design, Deploy and Sustain an Effective Data Governance Program. San Francisco: Morgan Kaufmann.
Mosley, M. (2009). DAMA-DMBOK functional framework. Nueva York: DAMA.
Plotkin, D. (2013). Data Stewardship: An Actionable Guide to Effective Data Management and Data Governance. San Francisco: Morgan Kaufmann.
Seiner, R. S. (2014). Non-Invasive Data Governance: The Path of Least Resistance and Greatest Success. Basking Ridge: Technics Publications LLC.