Tecnologías de Batch Processing Código:  B0.485    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Esta asignatura constituye una introducción a las tecnologías relacionadas con los sistemas de Big Data, y en particular al Batch Procesing. Iniciaremos la asignatura con un visión histórica de los sistemas batch. Veremos sus inicios y como estos han ido evolucionando a medida que la tecnología y sus usos han ido cambiando. Una vez terminada esta introducción entraremos de lleno en el mundo Big Data.

Iniciaremos analizando la estructura tecnológica que se encuentra detrás de un proyecto de Big Data, y que incluye aspectos relevantes, como por ejemplo, el sistema de almacenamiento y cálculo distribuido o la gestión de los recursos hardware del cluster.

Continuaremos viendo los tres principales modelos de procesamiento distribuido: procesamiento batch, real-time o streaming y basado en eventos complejos. Aunque en algún punto lo introduciremos, la parte de Streaming se verá en detalle en la asignatura de Stream Processing y por tanto dejaremos parte de los conceptos relacionados a un lado. En los otros casos ceremos las principales funciones y características de los frameworks más utilizados en la actualidad, prestando especial atención a los dos grandes estándares de la industria: Apache Hadoop y Apache Spark.

Finalizaremos esta asignatura revisando las principales librerías de análisis de datos, incluyendo temas de aprendizaje automático (machine learning), análisis de grafos y visualización de datos masivos. También exploraremos la orquestación de tareas englobando aspectos relevantes de las soluciones tecnológicas previamente vistas para su explotación productiva.

Amunt

Esta asignatura pertenece al conjunto de asignaturas del itinerario de Big Data en el Máster de Inteligencia de Negocio y Big Data Analytics.

Amunt

La asignatura proporciona conocimientos que serán de utilidad en diferentes ámbitos profesionales, como son la programación de sistemas que requieran el uso de datos masivos, la ciencia de datos o la dirección o consultoría de proyectos basados en sistemas Big Data, entre otros.

Amunt

El curso requiere que los estudiantes tengan conocimientos de programación en lenguaje Python, así como conocimientos básicos en análisis de datos, aprendizaje automático (machine learning) y redes de computadores.

Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Asimismo también es necesario que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte de los materiales adicionales y otros recursos, están en dicho idioma.

Amunt

Los objetivos que se desea que el estudiante alcance mediante esta asignatura son los siguientes:

  • Entender la evolución histórica de los sistemas batch
  • Entender el contexto en que los sistemas batch son usados
  • Conocer las técnicas básicas para el uso de sistemas batch en entornos clasicos (no Big Data)
  • Entender los conceptos y las definiciones formales asociadas a los conceptos de Big Data y afines.
  • Identificar los elementos tecnológicos necesarios en cualquier proyecto basado en el uso de Big Data.
  • Conocer las metodologías más adecuadas para la implementación de sistemas de Big Data.
  • Conocer las principales herramientas disponibles en el ecosistema de Big Data, especialmente de los ecosistemas de Apache Hadoop y Apache Spark.
  • Construir modelos que generen conocimiento como resultado de una análisis basado en tecnología Big Data.
  • Conocer el funcionamiento básico de las principales herramientas y frameworks de Big Data, como por ejemplo HDFS o Apahe Spark.


Amunt

La asignatura consta de 6 bloques temáticos, cada uno de los cuales apoyado por un material didáctico.

El contenido asociado a cada bloque temático es el que se detalla a continuación:

1) Introducción a los sistemas y procesado batch.

En este primer módulo se da una visión histórica de los sistemas batch y sus técnicas de procesado más habituales.

2) Introducción al Big Data

Iniciaremos este módulo introduciendo los conceptos básicos relacionados con la algoritmia y computación paralela que nos servirán como base a lo largo de curso. Posteriormente, nos adentraremos en el concepto de Big Data para discutir el cambio de modelo y paradigma que implica dicho concepto.

3) Captura, pre-procesamiento y almacenamiento de datos masivos

El módulo está orientado a trabajar las características básicas de los procesos de captura, pre-procesamiento y almacenamiento de datos en entornos Big Data. Es decir, ser capaz de entender las peculiaridades que implica el Big Data en cada una de estas fases del análisis de datos y conocer las principales herramientas y tecnologías Big Data que lo apoyan.

Discutiremos el almacenaje y gestión de la información, centrándonos en el sistema de ficheros distribuido HDFS y las bases de datos NoSQL.

4) Gestores de recursos para el procesado de datos masivos

Es habitual que los recursos existentes en un sistema Big Data sean finitos y que al mismo tiempo múltiples los programas (o tareas) requieran usarlos. En esta situación acciones como las de priorizar las tareas, retener las que no dispongan de suficientes recursos en un momento dado, o incluso decomisionar programas con altas tasas de fallo son cuestiones clave para un uso eficiente de la infraestructura subyacente. Los gestores de recursos se encargan de que los programas hagan un uso racional y equitativo de los recursos.

En este módulo vamos a ver los conceptos básicos de un gestor de recursos a nivel teóricos. En la parte práctica vamos a revisar el funcionamiento de Apache YARN, un gestor habitual en entornos Hadoop.

5) Procesado batch de datos en entornos Big Data

En este módulo trabajaremos las diferentes tipologías y arquitecturas de un sistema Big Data, ayudando al alumno a ser capaz de identificar qué arquitectura se debería implementar según las características de cada caso de uso, incluyendo las especificidades de datos y entornos. Posteriormente, introduciremos los dos sistemas principales de procesado distribuido, MapReduce y Apache Spark, haciendo énfasis en sus fortalezas y debilidades. A nivel práctico trabajaremos algunas de las herramientas que ofrece Apache Spark para habilitar el procesado de datos en entornos Big Data.

6)   Planificación y automatización de procesos

Cuando parte de un proceso entra en estadio de producción es habitual tener la necesidad de que se inicie y funcione de forma autónoma sin que nadie estéis presente. Incluso que dicho proceso disponga de cierta lógica secuencial y que se realicen acciones derivadas de un primer proceso inicial.

En este módulo vamos a revisar que herramientas hay disponibles y que ventajas ofrece cada una de ellas. Empezaremos revisando Apache Oozie, el planificador habitual en entornos Hadoop. Posterior veremos otros dos planificadores algo más versátiles y muy usados en la actualidad, Airflow y Apache Nifi.

Amunt

Vídeo Audiovisual
Introducción al big data PDF
Tipologías y arquitecturas de un sistema big data PDF
Captura, preprocesamiento y almacenamiento de datos masivos PDF
Análisis de datos masivos PDF
Análisis de datos masivos. Técnicas avanzadas PDF
Vídeo presentación PLA 1.1. Introducción a los datos masivos (Big Data) Audiovisual
Vídeo contenidos PLA 1.2. Introducción a los datos masivos (Big Data) Audiovisual
Vídeo presentación PLA 2.1. Tipologías y arquitecturas de un sistema Big Data Audiovisual
Vídeo contenidos PLA 2.2. Tipologías y arquitecturas de un sistema Big Data Audiovisual
Vídeo presentación PLA 3.1. Captura, pre-procesado y almacenamiento de datos masivos Audiovisual
Vídeo contenidos PLA 3.2. Captura, pre-procesado y almacenamiento de datos masivos Audiovisual
Vídeo presentación PLA 4.1. Análisis de datos masivos Audiovisual
Vídeo contenidos PLA 4.2. Análisis de datos masivos Audiovisual
Vídeo presentación PLA 5.1. Análisis de datos masivos. Técnicas avanzadas Audiovisual
Vídeo contenidos PLA 5.2. Análisis de datos masivos. Técnicas avanzadas Audiovisual
Espacio de recursos de ciencia de datos Web
Perspectiva histórica del procesamiento por lotes XML
Perspectiva histórica del procesamiento por lotes DAISY
Perspectiva histórica del procesamiento por lotes EPUB 2.0
Perspectiva histórica del procesamiento por lotes MOBIPOCKET
Perspectiva histórica del procesamiento por lotes HTML5
Perspectiva histórica del procesamiento por lotes PDF
Introducción a Spark con DataFrames y SparkSQL (SPARKSQL_DATAFRAMES_BASICO_PEC3) Audiovisual
Funcionamiento de las operaciones avanzadas con Spark (SPARKSQL_DATAFRAMES_AVANZADO_PEC4) Audiovisual
Introducción al entorno de trabajo, introducción a Hadoop y Spark (HDFS_PEC1) Audiovisual
Introducción al entorno de trabajo, introducción a Hadoop y Spark (SPARK_OPS_PEC1) Audiovisual
Uso de Google Cloud Dataproc: big data en el cloud Audiovisual
Automatización de procesos big data con Oozie Audiovisual

Amunt

En la UOC, la evaluación generalmente es virtual. Se estructura en torno a la evaluación continua, que incluye diferentes actividades o retos; la evaluación final, que se lleva a cabo mediante pruebas o exámenes, y el trabajo final de la titulación.

Las actividades o pruebas de evaluación pueden ser escritas y/o audiovisuales, con preguntas aleatorias, pruebas orales síncronas o asíncronas, etc., de acuerdo con lo que decida cada equipo docente. Los trabajos finales representan el cierre de un proceso formativo que implica la realización de un trabajo original y tutorizado que tiene como objetivo demostrar la adquisición competencial hecha a lo largo del programa.

Para verificar la identidad del estudiante y la autoría de las pruebas de evaluación, la UOC se reserva la potestad de aplicar diferentes sistemas de reconocimiento de la identidad y de detección del plagio. Con este objetivo, la UOC puede llevar a cabo grabación audiovisual o usar métodos o técnicas de supervisión durante la ejecución de cualquier actividad académica.

Asimismo, la UOC puede exigir al estudiante el uso de dispositivos electrónicos (micrófonos, cámaras u otras herramientas) o software específico durante la evaluación. Es responsabilidad del estudiante asegurar que estos dispositivos funcionan correctamente.

El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de las actividades académicas. La web sobre integridad académica y plagio de la UOC contiene información al respecto.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; la suplantación de identidad; la aceptación o la obtención de cualquier actividad académica a cambio o no de una contraprestación; la colaboración, el encubrimiento o el favorecimiento de la copia, o el uso de material, software o dispositivos no autorizados en el plan docente o el enunciado de la actividad académica, incluida la inteligencia artificial y la traducción automática, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves.

Estas conductas irregulares pueden conllevar el suspenso (D/0) en las actividades evaluables definidas en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, ya sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas (como el uso de inteligencia artificial no permitida, redes sociales o buscadores de información en internet), porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, por la compraventa de actividades académicas, o porque se ha llevado a cabo cualquier otra conducta irregular.

Asimismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC.

En el marco del proceso de evaluación, la UOC se reserva la potestad de:

  • Solicitar al estudiante que acredite su identidad según lo establecido en la normativa académica.
  • Solicitar al estudiante que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación, tanto en la evaluación continua como en la evaluación final, a través de una entrevista oral síncrona, que puede ser objeto de grabación audiovisual, o por los medios establecidos por la UOC. Estos medios tienen el objetivo de verificar los conocimientos y las competencias que garanticen la identidad del estudiante. Si no es posible garantizar que el estudiante es el autor de la prueba, esta puede ser calificada con una D, en el caso de la evaluación continua, o con un suspenso, en el caso de la evaluación final.

Inteligencia artificial en el marco de la evaluación

La UOC reconoce el valor y el potencial de la inteligencia artificial (IA) en el ámbito educativo y, a su vez, pone de manifiesto los riesgos que supone si no se utiliza de forma ética, crítica y responsable. En este sentido, en cada actividad de evaluación se informará al estudiantado sobre las herramientas y los recursos de IA que se pueden utilizar y en qué condiciones. Por su parte, el estudiantado se compromete a seguir las indicaciones de la UOC a la hora de realizar las actividades de evaluación y de citar las herramientas utilizadas y, concretamente, a identificar los textos o imágenes generados por sistemas de IA, los cuales no podrá presentar como si fueran propios.

Respecto a usar o no la IA para resolver una actividad, el enunciado de las actividades de evaluación indica las limitaciones en el uso de estas herramientas. Debe tenerse en cuenta que usarlas de manera inadecuada, como por ejemplo en actividades en las que no están permitidas o no citarlas en las actividades en las que sí lo están, puede considerarse una conducta irregular en la evaluación. En caso de duda, se recomienda que, antes entregar la actividad, se haga llegar una consulta al profesorado colaborador del aula.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt