|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Consulta de los datos generales Descripción La asignatura en el conjunto del plan de estudios Campos profesionales en que se proyecta Conocimientos previos Objetivos y competencias Contenidos Consulta de los recursos de aprendizaje de la UOC para la asignatura Metodología Información sobre la evaluación en la UOC Consulta del modelo de evaluación Evaluación Contínua Evaluación final Feedback | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Esta asignatura constituye una introducción a las tecnologías relacionadas con los sistemas de Big Data, y en particular al Batch Procesing. Iniciaremos la asignatura con un visión histórica de los sistemas batch. Veremos sus inicios y como estos han ido evolucionando a medida que la tecnología y sus usos han ido cambiando. Una vez terminada esta introducción entraremos de lleno en el mundo Big Data. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Esta asignatura pertenece al conjunto de asignaturas del itinerario de Big Data en el Máster de Inteligencia de Negocio y Big Data Analytics. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
La asignatura proporciona conocimientos que serán de utilidad en diferentes ámbitos profesionales, como son la programación de sistemas que requieran el uso de datos masivos, la ciencia de datos o la dirección o consultoría de proyectos basados en sistemas Big Data, entre otros. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
El curso requiere que los estudiantes tengan conocimientos de programación en lenguaje Python, así como conocimientos básicos en análisis de datos, aprendizaje automático (machine learning) y redes de computadores. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Los objetivos que se desea que el estudiante alcance mediante esta asignatura son los siguientes:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
La asignatura consta de 6 bloques temáticos, cada uno de los cuales apoyado por un material didáctico. 4) Gestores de recursos para el procesado de datos masivos Es habitual que los recursos existentes en un sistema Big Data sean finitos y que al mismo tiempo múltiples los programas (o tareas) requieran usarlos. En esta situación acciones como las de priorizar las tareas, retener las que no dispongan de suficientes recursos en un momento dado, o incluso decomisionar programas con altas tasas de fallo son cuestiones clave para un uso eficiente de la infraestructura subyacente. Los gestores de recursos se encargan de que los programas hagan un uso racional y equitativo de los recursos. En este módulo vamos a ver los conceptos básicos de un gestor de recursos a nivel teóricos. En la parte práctica vamos a revisar el funcionamiento de Apache YARN, un gestor habitual en entornos Hadoop. 5) Procesado batch de datos en entornos Big Data En este módulo trabajaremos las diferentes tipologías y arquitecturas de un sistema Big Data, ayudando al alumno a ser capaz de identificar qué arquitectura se debería implementar según las características de cada caso de uso, incluyendo las especificidades de datos y entornos. Posteriormente, introduciremos los dos sistemas principales de procesado distribuido, MapReduce y Apache Spark, haciendo énfasis en sus fortalezas y debilidades. A nivel práctico trabajaremos algunas de las herramientas que ofrece Apache Spark para habilitar el procesado de datos en entornos Big Data. 6) Planificación y automatización de procesos Cuando parte de un proceso entra en estadio de producción es habitual tener la necesidad de que se inicie y funcione de forma autónoma sin que nadie estéis presente. Incluso que dicho proceso disponga de cierta lógica secuencial y que se realicen acciones derivadas de un primer proceso inicial. En este módulo vamos a revisar que herramientas hay disponibles y que ventajas ofrece cada una de ellas. Empezaremos revisando Apache Oozie, el planificador habitual en entornos Hadoop. Posterior veremos otros dos planificadores algo más versátiles y muy usados en la actualidad, Airflow y Apache Nifi. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Para entender el enfoque metodológico general se recomienda la lectura de este apartado y el siguiente, respecto el modelo de evaluación. Además de lo que se ha explicado anteriormente, el consultor recordará al comienzo de cada semana los objetivos y competencias a desarrollar, así como los modelos de aprendizaje y de evaluación para cada parte cuando proceda. También se recomienda el seguimiento y participación en todas las discusiones y preguntas publicadas en el foro del aula. Más concretamente, recomendamos el siguiente ciclo de estudios:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados. La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material, software o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves. Estas conductas irregulares pueden comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas, como por ejemplo redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, o porque se ha llevado a cabo cualquier otra conducta irregular. Así mismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC. En el marco del proceso de evaluación, la UOC se reserva la potestad de:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ponderación de las calificaciones
Opción para superar la asignatura: EC
Nota final de asignatura: EC |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Este curso se evalúa únicamente a través de la evaluación continua por lo cual no hay examen ni actividad finales. Todas las actividades, tanto teóricas como prácticas, y la participación en las discusiones en el foro virtual son obligatorias. · Carga de datos con Sqoop y sistema de ficheros HDFS (17 puntos) · Yarn, el gestor de recursos de Hadoop (17 puntos) · Procesamiento de datos con Apache Spark mediante RDDs (17 puntos) · Análisis de datos estructurados con Spark (17 puntos) · Planificación de procesos en Apache Oozie (17 puntos) y, seis cuestionarios autocorregidos uno por módulo, sobre la teoría asociada a cada módulo. Se accede a estos cuestionarios a través del enlace a la plataforma Moodle integrada en el aula. La ponderación de los cuestionarios viene indicada en el aula y corresponde a valores entre 2 y 3 puntos sobre el total de la puntuación de la asignatura (100 puntos). Las condiciones de realización de los cuestionarios son las siguientes: · Hay un cuestionario distinto para cada uno de los módulos didácticos de esta asignatura (cinco en total). · El estudiante dispone de un máximo de 2 intentos en cada prueba. · Cada cuestionario tiene 30 preguntas y un límite de tiempo de 30 minutos para su realización. · La nota de cada cuestionario será la nota máxima obtenida de ambos intentos. La nota final de la asignatura corresponde a la suma de los puntos de las diferentes actividades y cuestionarios obteniendo un máximo de 100 puntos. NOTA: La nota de las actividades que se entreguen con fecha posterior al límite será como máximo del 70% de la nota correspondiente cada una de las actividades. Descontando un 10% de la nota por día de retraso, hasta llegar al mínimo del 70% citado anteriormente. NOTA: Los profesores se guardan el derecho de realizar entrevistas personales a los estudiantes para ajustar la nota final de cada actividad a los conocimientos aprendidos. Advertencia: Es importante mencionar que la resolución de las pruebas, casos y prácticas propuestas se debe realizar de forma individual excepto cuando se indique lo contrario. El equipo docente tendrá en cuenta la lógica de las respuestas, el pensamiento individual y la capacidad de expresarse por escrito. Cualquier fuente externa usada para resolver las cuestiones y casos deberá indicarse claramente y ser referenciada adecuadamente. Si no fuera el caso, las actividades se evaluarán con una D. Por otro lado, siempre a criterio de la Universidad, el incumplimiento de esta obligación será comunicada a la gestión de los estudios, con el fin de evaluar si el estudiante está autorizado para aprobar cualquier otra materia o mediante una evaluación continua en el semestre o el siguiente. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Esta asignatura únicamente se puede superar a través de la realización y entrega de las actividades propuestas a lo largo del semestre, no hay ni examen ni actividad final. La nota final de evaluación continua (EC) será la suma de los puntos obtenidos en las distintas actividades, según los pesos indicados en el apartado anterior. Para aprobar la asignatura el estudiante debe alcanzar una nota igual o superior a 4 en todas las actividades propuestas. Por otra parte, a lo largo del semestre, el consultor puede proponer discusiones o debates formales. La participación en calidad y cantidad en dichos debates también puede influir en la calificación final del semestre. Recuperación de las Pruebas de Evaluación Continua (PEC) La recuperación de las actividades se realizará de forma individual para cada actividad que no se haya entregado o aprobado. Detalles del proceso de recuperación:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A lo largo del semestre, el consultor os proporcionará retorno de vuestro progreso y se realizará una comunicación individual a aquellos estudiantes en riesgo de no superar el curso, según su evolución. En todo caso, podéis solicitar al consultor un retorno individual, tanto de vuestra evolución dentro del semestre, como de cada ejercicio individual. Las soluciones de los ejercicios no se van a publicar. También es posible ponerse en contacto con el profesor responsable del curso académico, si los comentarios y sugerencias recibidos por parte del consultor no son satisfactorios o no se está de acuerdo con ellos. |