|
||||||||||||||||||||||||||
Consulta de los datos generales Descripción La asignatura en el conjunto del plan de estudios Campos profesionales en el que se proyecta Conocimientos previos Información previa a la matrícula Objetivos y competencias Contenidos Consulta de los recursos de aprendizaje de la UOC para la asignatura Información adicional sobre los recursos de aprendizaje y herramientas de apoyo Informaciones sobre la evaluación en la UOC Consulta del modelo de evaluación | ||||||||||||||||||||||||||
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios. | ||||||||||||||||||||||||||
En pocos años gracias a Internet hemos llegado a tener una red donde cualquier dispositivo o individuo están interconectados. Se generan y gestionan gran cantidad de datos que fluyen de forma libre. En esta asignatura veremos que la clave del éxito está en gestionar estos datos eficientemente y veremos que herramientas pueden utilizarse para hacerlo: los lagos de datos. Durante la asignatura estuidaremos a fondo los lagos de datos, los componentes que los forman, los procesos que los nutren y que explotan su información y los aspectos de governanza que hay que tener en cuenta para garantizar la seguridad y la privacidad de los datos. |
||||||||||||||||||||||||||
Esta asignatura, en el contexto del Programa de Inteligencia de negocio y Big Data, forma parte de la especialidad de Big Data. En dicha especialidad se adquieren las competencias para diseñar, construir, mantener y explotar los sistemas de información de inteligencia de negocio más nuevos, basados en la captura, procesamiento y gestión de datos masivos, de diferentes procedencias y tipología. Esta especialidad incluye, además de la asignatura objeto de este plan docente, las asignaturas de tecnologías de batch y stream processing. |
||||||||||||||||||||||||||
La especialidad de Big Data, a la que pertenece esta asignatura, se dirige a proporcionar al profesional de perfil tecnológico capacidades prácticas para diseñar e implantar sistemas de macrodatos o big data (batch processing, data lakes) que sean compatibles con las diferentes necesidades analíticas de una organización (diferidas, en tiempo real, multipropósito, orientadas al aprendizaje automático -machine learning-). Esta asignatura, en concreto, abordara el diseño, creación y mantenimiento de los lagos de datos, por tanto será útil para perfiles de científicos de datos de distintas áreas (tanto para analístas de datos, como para arquitectos de soluciones, como para programadores de sistemas de Big Data) . |
||||||||||||||||||||||||||
El curso requiere que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte importante de los materiales de referencia, así como de otros recursos, están en dicho idioma. Desde un punto de vista técnico, es importante que los estudiantes tengan conocimientos de big data y bases de datos (relacionales y NoSQL) en general y de Apache Haddop, SQL y MongoDB en particular, así como conocimientos básicos en tecnologías, como: Json, Servicios REST, XML, Linux, o Docker. |
||||||||||||||||||||||||||
El curso requiere que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte importante de los materiales de referencia, así como de otros recursos, están en dicho idioma. Desde un punto de vista técnico, es deseable que los estudiantes tengan conocimientos de big data y bases de datos (relacionales y NoSQL) en general y de Apache Haddop, SQL y MongoDB en particular. |
||||||||||||||||||||||||||
|
||||||||||||||||||||||||||
La asignatura consta de 7 bloques temáticos, cuyo contenido se detalla a continuación: Bloque 1: ¿Qué es un data lake? El primer paso será analizar el significado, origen y necesidad de los lagos de datos. Se abordará el tema desde una perspectiva objetiva, rigurosa e intentando huir del potencial hype que pueda existir. Una vez presentada la semántica y necesidad de los lagos de datos se introducirán sus características arquitectónicas y funcionales; características que abordaremos en los siguientes bloques. Bloque 2:¿Qué elementos componen un data lake? Una vez introducidos los lagos de datos y su necesidad, profundizaremos en la arquitectura funcional y tecnológica de los lagos de datos, presentando la arquitectura lambda como una de las más utilizadas hoy en día. Desde un punto de vista funcional, se estudiarán las capas batch, speed y serving. Desde un punto de vista tecnológico, se prestará especial atención a las arquitecturas lambda como patrón de uso en el contexto de los lagos de datos. Bloque 3: ¿Dónde y cómo almacenar los datos en un data lake? En este bloque nos familiarizaremos con el entorno de trabajo Apache Hadoop y lo utilizaremos para hacer análisis exploratorios de los datos y procesado de datos en streaming. Para ello utilizaremos las herramientas de Apache Hive, Apache Spark y Spark streaming. Bloque 4: ¿Cómo alimentar un data lake y evitar que se seque? Se presentan las herramientas necesarias para leer datos en origen, procesarlos, adaptarlos y almacenarlos en un lago de datos. Esto implicará profundizar en las capas de movimiento de datos, de integración y de ingesta. Se abordarán tanto los procesos batch como en streaming necesarios para la ingesta de datos en entornos reales. Las herramientas con las que se trabajará serán Apache Sqoop, Apache Nifi, Apache Flume y Apache Kafka. Bloque 5: ¿Cómo sacar provecho de un data lake? Los datos por si mismos no aportan valor, hay que analizarlos, extraer conocimiento de ellos y presentarlos de manera que den soporte a la toma de decisiones. En este bloque estudiaremos como dar respuesta a esas necesidades, abordando en detalle la capa de servicio de un lago de datos y estudiando cómo hacer uso de motores de indexación distribuidos y de la generación de informes. Para ello utilizaremos Kibana y Elasticsearch. Bloque 6: ¿Cómo garantizar la seguridad y privacidad en un data lake? En este bloque exploraremos los problemas de seguridad y de gobierno de datos que aparecen en el contexto de los lagos de datos. Se estudiarán también distintas herramientas que dan soporte en la garantía de la privacidad y seguridad de los datos en ecosistemas Hadoop, como por ejemplo Apache Atlas y Apache Ranger. Bloque 7: El data lake productivo: aprendamos de los otros En este breve bloque estudiaremos distintos casos de éxito reales para aprender buenas prácticas a considerar en la implementación y despliegue de lagos de datos. |
||||||||||||||||||||||||||
|
||||||||||||||||||||||||||
La asignatura incluye distintos tipos de material:
Los materiales relevantes para cada bloque temático los encontraréis en el apartado de "Recursos de aprendizaje" de la actividad en cuestión. Además, para facilitar su consumo, en el apartado "Planificación" de cada bloque temático se indica el orden en que deberían ser estudiados los distintos materiales. Para acabar, es posible que sea necesario la lectura de artículos de revista (que serán suministrados desde el aula) para ampliar o complementar los contenidos de la asignatura |
||||||||||||||||||||||||||
En la UOC, la evaluación generalmente es virtual. Se estructura en torno a la evaluación continua, que incluye diferentes actividades o retos; la evaluación final, que se lleva a cabo mediante pruebas o exámenes, y el trabajo final de la titulación. Las actividades o pruebas de evaluación pueden ser escritas y/o audiovisuales, con preguntas aleatorias, pruebas orales síncronas o asíncronas, etc., de acuerdo con lo que decida cada equipo docente. Los trabajos finales representan el cierre de un proceso formativo que implica la realización de un trabajo original y tutorizado que tiene como objetivo demostrar la adquisición competencial hecha a lo largo del programa. Para verificar la identidad del estudiante y la autoría de las pruebas de evaluación, la UOC se reserva la potestad de aplicar diferentes sistemas de reconocimiento de la identidad y de detección del plagio. Con este objetivo, la UOC puede llevar a cabo grabación audiovisual o usar métodos o técnicas de supervisión durante la ejecución de cualquier actividad académica. Asimismo, la UOC puede exigir al estudiante el uso de dispositivos electrónicos (micrófonos, cámaras u otras herramientas) o software específico durante la evaluación. Es responsabilidad del estudiante asegurar que estos dispositivos funcionan correctamente. El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de las actividades académicas. La web sobre integridad académica y plagio de la UOC contiene información al respecto. La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; la suplantación de identidad; la aceptación o la obtención de cualquier actividad académica a cambio o no de una contraprestación; la colaboración, el encubrimiento o el favorecimiento de la copia, o el uso de material, software o dispositivos no autorizados en el plan docente o el enunciado de la actividad académica, incluida la inteligencia artificial y la traducción automática, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves. Estas conductas irregulares pueden conllevar el suspenso (D/0) en las actividades evaluables definidas en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, ya sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas (como el uso de inteligencia artificial no permitida, redes sociales o buscadores de información en internet), porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, por la compraventa de actividades académicas, o porque se ha llevado a cabo cualquier otra conducta irregular. Asimismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC. En el marco del proceso de evaluación, la UOC se reserva la potestad de:
Inteligencia artificial en el marco de la evaluación La UOC reconoce el valor y el potencial de la inteligencia artificial (IA) en el ámbito educativo y, a su vez, pone de manifiesto los riesgos que supone si no se utiliza de forma ética, crítica y responsable. En este sentido, en cada actividad de evaluación se informará al estudiantado sobre las herramientas y los recursos de IA que se pueden utilizar y en qué condiciones. Por su parte, el estudiantado se compromete a seguir las indicaciones de la UOC a la hora de realizar las actividades de evaluación y de citar las herramientas utilizadas y, concretamente, a identificar los textos o imágenes generados por sistemas de IA, los cuales no podrá presentar como si fueran propios. Respecto a usar o no la IA para resolver una actividad, el enunciado de las actividades de evaluación indica las limitaciones en el uso de estas herramientas. Debe tenerse en cuenta que usarlas de manera inadecuada, como por ejemplo en actividades en las que no están permitidas o no citarlas en las actividades en las que sí lo están, puede considerarse una conducta irregular en la evaluación. En caso de duda, se recomienda que, antes entregar la actividad, se haga llegar una consulta al profesorado colaborador del aula. |
||||||||||||||||||||||||||
|