Data Lakes Código:  B0.484    Créditos:  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Información adicional sobre la bibliografía y fuentes de información   Metodología   Información sobre la evaluación en la UOC   Consulta del modelo de evaluación   Evaluación Contínua   Evaluación final   Feedback  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

En pocos años gracias a Internet hemos llegado a tener una red donde cualquier dispositivo o individuo están interconectados. Se generan y gestionan gran cantidad de datos que fluyen de forma libre. En esta asignatura veremos que la clave del éxito está en gestionar estos datos eficientemente y veremos que herramientas pueden utilizarse para hacerlo: los lagos de datos. Durante la asignatura estuidaremos a fondo los lagos de datos, los componentes que los forman, los procesos que los nutren y que explotan su información y los aspectos de governanza que hay que tener en cuenta para garantizar la seguridad y la privacidad de los datos. 

Amunt

Esta asignatura, en el contexto del Programa de Inteligencia de negocio y Big Data, forma parte de la especialidad de Big Data. En dicha especialidad se adquieren las competencias para diseñar, construir, mantener y explotar los sistemas de información de inteligencia de negocio más nuevos, basados en la captura, procesamiento y gestión de datos masivos, de diferentes procedencias y tipología. Esta especialidad incluye, además de la asignatura objeto de este plan docente, las asignaturas de tecnologías de batch y stream processing.

Amunt

La especialidad de Big Data, a la que pertenece esta asignatura, se dirige a proporcionar al profesional de perfil tecnológico capacidades prácticas para diseñar e implantar sistemas de macrodatos o big data (batch processing, data lakes) que sean compatibles con las diferentes necesidades analíticas de una organización (diferidas, en tiempo real, multipropósito, orientadas al aprendizaje automático -machine learning-). 

Esta asignatura, en concreto, abordara el diseño, creación y mantenimiento de los lagos de datos, por tanto será útil para perfiles de científicos de datos de distintas áreas (tanto para analístas de datos, como para arquitectos de soluciones, como para programadores de sistemas de Big Data) .

Amunt

El curso requiere que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte importante de los materiales de referencia, así como de otros recursos, están en dicho idioma.

Desde un punto de vista técnico, es deseable que los estudiantes tengan conocimientos de big data y bases de datos (relacionales y NoSQL) en general y de Apache Haddop, SQL y MongoDB en particular.

Amunt

El curso requiere que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte importante de los materiales de referencia, así como de otros recursos, están en dicho idioma.

Desde un punto de vista técnico, es deseable que los estudiantes tengan conocimientos de big data y bases de datos (relacionales y NoSQL) en general y de Apache Haddop, SQL y MongoDB en particular.

Amunt

  • Conocer el funcionamiento y el mercado de los sistemas de información de inteligencia de negocio y big data analytics y sus principales utilidades y componentes para proporcionar información y conocimiento que permite mejorar la toma de decisiones.
  • Conocer las nuevas tendencias en materia de inteligencia de negocio, en particular, el fenómeno de big data, que representa el tratamiento e interpretación de datos con volumen, variedad, y velocidad, procedentes de múltiples fuentes. Entender y saber aplicar su uso efectivo y las implicaciones tecnológicas, legales y éticas.
  • Conocer y saber construir y utilizar un sistema de data lakes.
  • Conocer y saber utilizar las arquitecturas y herramientas de sistemas de gestión de datos masivas.
  • Conocer y saber utilizar sistemas de procesamiento en batch.
  • Conocer y saber utilizar sistemas de procesamiento en streaming.
  • Conocer y estar en condiciones de desarrollar e implementar un proyecto de big data dentro de la empresa.

Amunt

La asignatura consta de 7 bloques temáticos, cuyo contenido se detalla a continuación:

Bloque 1: ¿Qué es un data lake?

El primer paso será analizar el significado, origen y necesidad de los lagos de datos. Se abordará el tema desde una perspectiva objetiva, rigurosa e intentando huir del potencial hype que pueda existir. Una vez presentada la semántica y necesidad de los lagos de datos se introducirán sus características arquitectónicas y funcionales; características que abordaremos en los siguientes bloques.

Bloque 2:¿Qué elementos componen un data lake?

Una vez introducidos los lagos de datos y su necesidad, profundizaremos en la arquitectura funcional y tecnológica de los lagos de datos, presentando la arquitectura lambda como una de las más utilizadas hoy en día. Desde un punto de vista funcional, se estudiarán las capas batch, speed y serving. Desde un punto de vista tecnológico, se prestará especial atención a las arquitecturas lambda como patrón de uso en el contexto de los lagos de datos.

Bloque 3: ¿Dónde y cómo almacenar los datos en un data lake?

En este bloque nos familiarizaremos con el entorno de trabajo Apache Hadoop y lo utilizaremos para hacer análisis exploratorios de los datos y procesado de datos en streaming. Para ello utilizaremos las herramientas de Apache Hive, Apache Spark y Spark streaming.

Bloque 4: ¿Cómo alimentar un data lake y evitar que se seque?

Se presentan las herramientas necesarias para leer datos en origen, procesarlos, adaptarlos y almacenarlos en un lago de datos. Esto implicará profundizar en las capas de movimiento de datos, de integración y de ingesta. Se abordarán tanto los procesos batch como en streaming necesarios para la ingesta de datos en entornos reales. Las herramientas con las que se trabajará serán Apache Sqoop, Apache Nifi, Apache Flume y Apache Kafka.

Bloque 5: ¿Cómo sacar provecho de un data lake?

Los datos por si mismos no aportan valor, hay que analizarlos, extraer conocimiento de ellos y presentarlos de manera que den soporte a la toma de decisiones. En este bloque estudiaremos como dar respuesta a esas necesidades, abordando en detalle la capa de servicio de un lago de datos y estudiando cómo hacer uso de motores de indexación distribuidos y de la generación de informes. Para ello utilizaremos Kibana y Elasticsearch.

Bloque 6: ¿Cómo garantizar la seguridad y privacidad en un data lake?

En este bloque exploraremos los problemas de seguridad y de gobierno de datos que aparecen en el contexto de los lagos de datos. Se estudiarán también distintas herramientas que dan soporte en la garantía de la privacidad y seguridad de los datos en ecosistemas Hadoop, como por ejemplo Apache Atlas y Apache Ranger.

Bloque 7: El data lake productivo: aprendamos de los otros

En este breve bloque estudiaremos distintos casos de éxito reales para aprender buenas prácticas a considerar en la implementación y despliegue de lagos de datos.

Amunt

Material Soporte
Espacio de recursos de ciencia de datos Web
Guía de instalación. Nifi, Elasticsearch, Kibana PDF
Vídeo: Lambda: arquitectura Audiovisual
Tutorial. Recogida, procesamiento y carga de datos PDF
Vídeo: Elasticsearch: tutorial Audiovisual
Vídeo: Nifi: tutorial ingesta con Apache Nifi Audiovisual
Guía de instalación. Hortonworks Data Platform PDF
Vídeo: Kibana: tutorial Audiovisual
Vídeo: Elasticsearch: introducción Audiovisual
Vídeo: Lambda: ejemplos Audiovisual
Vídeo: Nifi: introducción Audiovisual
Vídeo: Nifi: tutorial procesado Audiovisual

Amunt

La asignatura incluye distintos tipos de material:

  • Vídeos, 
  • Libros de texto,
  • Materiales didácticos,
  • Entornos de trabajo virtuales e indicaciones instalación de software,
  • Artículos y manuales de referéncia y
  • Notebooks.

Los materiales relevantes para cada bloque temático los encontraréis en el apartado de "Recursos de aprendizaje" de la actividad en cuestión. Además, para facilitar su consumo, en el apartado "Planificación" de cada bloque temático se indica el orden en que deberían ser estudiados los distintos materiales. 

Para acabar, es posible que sea necesario la lectura de artículos de revista (que serán suministrados desde el aula) para ampliar o complementar los contenidos de la asignatura

Amunt

Cómo ya se ha comentado, el material de referencia de la asignatura se encuentra identificado para cada una de las actividades a trabajar. 

Amunt

El estudio de la asignatura gira fundamentalmente entorno a los siguientes conceptos:

  • Estudio del material de la asignatura.
  • Otros materiales complementarios que se pueden suministrar a través de los diferentes espacios del aula.
  • Realización de ejercicios planteados en los notebooks. 
  • Pruebas de evaluación continuada (PEC)
  • Práctica

Además, se recomienda consultar el apartado de Planificación del aula para asegurarse de llevar el ritmo adecuado de aprendizaje, y que queda explicitado a través de diferentes fechas clave. El conjunto de fechas clave también se encuentra disponible al final de este Plan Docente.

El seguimiento activo de los espacios de comunicación del aula es de primordial interés, allí se plantearán dudas, se darán respuestas y se tratarán temas y aspectos relacionados con la materia de estudio.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material, software o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves.

Estas conductas irregulares pueden comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas, como por ejemplo redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, o porque se ha llevado a cabo cualquier otra conducta irregular.

Así mismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC.

En el marco del proceso de evaluación, la UOC se reserva la potestad de:

  • Solicitar al estudiante que acredite su identidad según lo establecido en la normativa académica.
  • Solicitar al estudiante que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación, tanto evaluación continua como evaluación final, por medio de una prueba oral o los medios síncronos o asíncronos que establezca la universidad. Estos medios tendrán por objeto verificar los conocimientos y las competencias que garanticen la autoría; en ningún caso implicarán una segunda evaluación. Si no es posible garantizar la autoría del estudiante, la prueba será calificada con D, en el caso de la evaluación continua, o con un Suspenso, en el caso de la evaluación final.

    A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación; será responsabilidad del estudiante asegurar que tales dispositivos funcionan correctamente.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.


Ponderación de las calificaciones

Opción para superar la asignatura: EC

Nota final de asignatura: EC

Amunt

La evaluación continua, en el contexto de la asignatura, incluye 2 Pruebas de Evaluación Continuada (PEC) y 1 práctica (PRA), todas ellas de realización individual. La práctica y la primera PEC son obligatorias y es necesario realizarlas para superar la asignatura; la segunda PEC es opcional. 

A continuación se detallan los bloques temáticos que se evalúan en cada PEC:

  • PEC 1: bloques temáticos 1 y 2
  • PRA: bloques temáticos 3, 4, 5 y 6
  • PEC 2: bloque temático 7

El seguimiento correcto de la asignatura os compromete a realizar las PEC propuestas según las indicaciones que se indican en su enunciado y este Plan Docente. En caso de que no sea así, las actividades se evaluarán con una calificación de suspenso (D). Por otro lado, y a criterio de la Universidad, el incumplimiento de esta obligación será comunicada a la gestión de los estudios, con el fin de evaluar si el estudiante está autorizado para aprobar cualquier otra materia mediante una evaluación continua en el semestre en curso o el siguiente.

Las actividades se deben entregar dentro de los plazos establecidos en este plan docente (véase el apartado de "Fechas clave"). En caso de situaciones excepcionales que no permitan cumplir los plazos, por favor poneros en contacto con vuestro consultor antes de la finalización de la actividad para evaluar alternativas. No se podrá entregar ninguna actividad después de la publicación de las soluciones de la misma.

Sistema de calificación

Cada actividad tendrá una nota individual cualitativa: A, B, C+, C- o D.

La nota de la evaluación continua, que es un promedio de cada una de las actividades por módulo, será cualitativa y cuantitativa (sin decimales): A = 9/10 o B = 7/8 o C + = 5/6 o C- = 3/4 o D = 0/1/2 o no presentado (NP) = 0.

La calificación final será cuantitativa con un decimal.

 

Criterio de evaluación general basado en evidencia

APROBADO

NOTABLE

EXCELENTE

Ha estudiado, entendido el caso y resuelto los problemas.

Todas las anteriores.

Todas las anteriores.

Ha leído la teoría y la ha aplicado correctamente. Proporciona evidencia de dicho conocimiento y actividad.

Conoce el tema, es capaz de vincularlo con otras materias y sacar conclusiones.

Realiza aportaciones y proporciona nuevas soluciones creativas e innovadoras.

Se presentan correctamente las actividades y las participaciones sin faltas de ortografía y/o escritura.

Aplica la teoría y la experiencia práctica en el contexto de su trabajo y/o de la vida real.

Muestra evidencia rigurosa y crítica.

 

Buena presentación y calidad en la escritura.

 

Además de estos criterios generales usados a lo largo del semestre, pueden añadirse otros criterios específicos para evaluar algunas de las habilidades generales o particulares. Éstos serán informados, si procede, en el enunciado de las actividades.

Amunt

Esta asignatura únicamente se puede superar a través de la realización y entrega de las actividades obligatorias propuestas a lo largo del semestre (PEC 1 y PRA). La nota final de EC  se calculará de la siguiente forma:

Nota final = (0,1 * Nota PEC 1) + (0,8 * Nota PRA) + (0,1 * Nota PEC 2)

Las actividades entregadas que no incluyan al menos un 25% de los ejercicios propuestos resueltos serán consideradas como no presentadas. Las PEC no presentadas computan como 0 en el cálculo de la nota final de EC.

Aquellos estudiantes que no hayan entregado las 2 PEC propuestas no podrán optar a una matrícula de honor.

Amunt

En el contexto de la asignatura, el equipo docente podrá hacer tres tipos de retorno acerca de las actividades evaluables realizadas por los estudiantes:

Retorno general: consiste en la publicación de una posible solución oficial (con explicaciones, en caso de que éstas sean necesarias) de las actividades evaluables propuestas. Este tipo de retorno siempre se realizará. La publicación de las soluciones oficiales se realizará tras la fecha límite de entrega fijada para los estudiantes.

Retorno a nivel de grupo: consiste en la publicación (vía tablón o conjuntamente con la solución oficial de las actividades evaluables) de los errores más frecuentemente realizados por los estudiantes. Este tipo de retorno sólo se realizará en caso de ser pertinente, y una vez que el equipo docente haya finalizado el proceso de corrección.

Retorno individualizado: consiste en la realización de comentarios individuales sobre las entregas realizadas por los estudiantes de las actividades evaluables. Se realizará siempre en el caso de aquellos estudiantes para los cuales, en función de su evolución, incurran en riesgo de no superar la asignatura. Se puede realizar mediante el buzón personal o el registro de evaluación continua, una vez el equipo docente haya finalizado el proceso de corrección. En relación al retorno individualizado, es importante destacar que cualquier estudiante lo puede solicitar, tanto a nivel de evolución del semestre como tras cada actividad. Se recomienda hacer esta petición después de cada actividad sobre la que tengáis dudas o necesidades de aclaración, y no esperar a las calificaciones finales. En el proceso de revisión puede participar el equipo docente al completo.

Amunt