Tecnologías de Batch Processing Codi:  B0.485    Crèdits:  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Metodologia   Informació sobre l'avaluació a la UOC   Consulta del model d'avaluació   Avaluació continuada   Avaluació final   Feedback  
Aquest és el pla docent de l'assignatura per al primer semestre del curs 2024-2025. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

Aquesta assignatura constitueix una introducció a les tecnologies relacionades amb els sistemes de Big Data. Iniciarem aquesta assignatura analitzant l'estructura tecnològica que es troba darrere d'un projecte de Big Data, i que inclou aspectes rellevants, com per exemple, el sistema d'emmagatzematge i càlcul distribuït o la gestió dels recursos del clúster. Continuarem veient els tres principals models de processament distribuït: processament batch, real-time o streaming i basat en esdeveniments complexos. Veurem les principals funcions i característiques dels frameworks més utilitzats en l'actualitat, prestant especial atenció als dos grans estàndards de la indústria: Apache Hadoop i Apache Spark. Finalitzarem aquesta assignatura revisant les principals llibreries d'anàlisi de dades, incloent temes d'aprenentatge automàtic (machine learning), anàlisi de grafs i visualització de dades massives.

Amunt

Aquesta assignatura pertany al conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science).

Amunt

L'assignatura proporciona coneixements que seran d'utilitat en diferents àmbits professionals, com són la programació de sistemes que requereixin l'ús de dades massius, la ciència de dades o la direcció o consultoria de projectes basats en sistemes Big Data, entre d'altres.

Amunt

El curs requereix que els estudiants tinguin coneixements de programació (preferiblement en llenguatge Python), així com coneixements d'anàlisi de dades, aprenentatge automàtic (machine learning) i xarxes de computadors.

Es recomana haver cursat l'assignatura "Models avançats de mineria de dades" abans de cursar aquesta assignatura.

A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Així mateix també cal que els estudiants tinguin la capacitat de llegir i comprendre l'idioma anglès ja que una part dels materials addicionals i altres recursos, estan en aquest idioma.

Amunt

Els objectius que es desitja que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

  • Entendre els conceptes i les definicions formals associades als conceptes de Big Data i afins.
  • Identificar els elements tecnològics necessaris en qualsevol projecte basat en l'ús de Big Data.
  • Conèixer les metodologies més adequades per a la implementació de sistemes de Big Data.
  • Conèixer les principals eines disponibles en l'ecosistema de Big Data, especialment dels ecosistemes d'Apache Hadoop i Apache Spark.
  • Construir models que generin coneixement com a resultat d'un anàlisi basat en tecnologia Big Data.
  • Conèixer el funcionament bàsic de les principals eines i frameworks de Big Data, com ara HDFS o Apahe Spark.

Amunt

L'assignatura consta de 5 blocs temàtics, cadascun dels quals recolzat per un material didàctic.

El contingut associat a cada bloc temàtic és el que es detalla a continuació:

1) Introducció al Big Data

En aquest primer mòdul s'introdueix el concepte de Big Data i es discuteix el canvi de model i paradigma que implica aquest concepte.

2) Tipologies i arquitectures d'un sistema Big Data

Entendre les diferents tipologies i arquitectures d'un sistema Big Data, sent capaç d'identificar quines arquitectures caldria desenvolupar segons les característiques de cada problema, incloent les especificitats de dades i entorns.

Introduirem els dos sistemes principals de càlcul distribuït, MapReduce i Apache Spark, fent èmfasi en les seves fortaleses i debilitats. Seguidament definirem les tasques que realitzen els gestors de recursos, centrant-nos en Apache Mesos i YARN.

3) Captura, pre-processament i emmagatzematge de dades massives

Conèixer les característiques bàsiques dels processos de captura, pre-processament i emmagatzematge de dades en entorns Big Data. És a dir, ser capaç d'entendre les peculiaritats que implica el Big Data en cadascuna d'aquestes fases de l'anàlisi de dades i conèixer les principals eines i tecnologies Big Data que li donen suport.

Discutirem l'emmagatzematge i gestió de la informació, centrant-nos en el sistema de fitxers distribuït HDFS i les bases de dades NoSQL.

4) Anàlisi de dades massius: Tècniques fonamentals

Conèixer i entendre les principals tècniques i eines de mineria de dades i machine learning per dades massives. Saber què les diferencia de les tècniques i eines mineria de dades tradicionals, i quan i com cal utilitzar-les.

Veurem les eines per a processament en batch, fent especial èmfasi en els ecosistemes Apache Hadoop i Apache Spark. Seguirem amb les eines per a processament en streaming, on veurem els frameworks Apache Flume, Apache Kafka, Spark Streaming i Apache Storm.

5) Anàlisi de dades massius: Tècniques avançades

En aquest mòdul s'introdueixen tècniques avançades relacionades amb la mineria de dades i l'aprenentatge automàtic. En concret, es veuran tècniques relacionades amb l'anàlisi de grafs (graph mining), l'anàlisi de text (text mining) i el processament de dades en streaming.

Amunt

Material Suport
Vídeo Audiovisual
Introducción al big data PDF
Tipologías y arquitecturas de un sistema big data PDF
Captura, preprocesamiento y almacenamiento de datos masivos PDF
Análisis de datos masivos PDF
Análisis de datos masivos. Técnicas avanzadas PDF
Vídeo presentación PLA 1.1. Introducción a los datos masivos (Big Data) Audiovisual
Vídeo contenidos PLA 1.2. Introducción a los datos masivos (Big Data) Audiovisual
Vídeo presentación PLA 2.1. Tipologías y arquitecturas de un sistema Big Data Audiovisual
Vídeo contenidos PLA 2.2. Tipologías y arquitecturas de un sistema Big Data Audiovisual
Vídeo presentación PLA 3.1. Captura, pre-procesado y almacenamiento de datos masivos Audiovisual
Vídeo contenidos PLA 3.2. Captura, pre-procesado y almacenamiento de datos masivos Audiovisual
Vídeo presentación PLA 4.1. Análisis de datos masivos Audiovisual
Vídeo contenidos PLA 4.2. Análisis de datos masivos Audiovisual
Vídeo presentación PLA 5.1. Análisis de datos masivos. Técnicas avanzadas Audiovisual
Vídeo contenidos PLA 5.2. Análisis de datos masivos. Técnicas avanzadas Audiovisual
Espacio de recursos de ciencia de datos Web
Perspectiva histórica del procesamiento por lotes XML
Perspectiva histórica del procesamiento por lotes DAISY
Perspectiva histórica del procesamiento por lotes EPUB 2.0
Perspectiva histórica del procesamiento por lotes MOBIPOCKET
Perspectiva histórica del procesamiento por lotes HTML5
Perspectiva histórica del procesamiento por lotes PDF
Introducción a Spark con DataFrames y SparkSQL (SPARKSQL_DATAFRAMES_BASICO_PEC3) Audiovisual
Funcionamiento de las operaciones avanzadas con Spark (SPARKSQL_DATAFRAMES_AVANZADO_PEC4) Audiovisual
Introducción al entorno de trabajo, introducción a Hadoop y Spark (HDFS_PEC1) Audiovisual
Introducción al entorno de trabajo, introducción a Hadoop y Spark (SPARK_OPS_PEC1) Audiovisual
Uso de Google Cloud Dataproc: big data en el cloud Audiovisual
Automatización de procesos big data con Oozie Audiovisual

Amunt

Per entendre l'enfocament metodològic general es recomana la lectura d'aquest apartat i el següent, respecte el model d'avaluació.

A més del que s'ha explicat anteriorment, el consultor recordarà al començament de cada setmana els objectius i competències a desenvolupar, així com els models d'aprenentatge i d'avaluació per a cada part quan sigui procedent. També es recomana el seguiment i participació en totes les discussions i preguntes publicades en el fòrum de l'aula.

Més concretament, recomanem el següent cicle d'estudis:

  • Llegir i estudiar acuradament cada mòdul d'aprenentatge i / o lectura recomanada.
  • Participar en el fòrum, iniciar debats formals o publicar informalment missatges i opinions. El mètode d'ensenyament promou la col·laboració entre els membres del grup. El consultor i el professor responsable poden participar excepcionalment o per tancar el debat en parts o íntegrament.
  • Començar a preparar les proves i / o activitats amb antelació. Es requerirà la consulta de diferents materials i, en general, no tenen una solució única. Justificar i argumentar la solució o les solucions proposades és més important per a l'avaluació de tenir una resposta correcta.

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.

Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular.

Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC.

En el marc del procés d'avaluació, la UOC es reserva la potestat de:

  • Sol·licitar a l'estudiant que acrediti la seva identitat segons l'establert a la normativa acadèmica.
  • Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant avaluació contínua com avaluació final, per mitjà d'una prova oral o els mitjans síncrons o asíncrons que estableixi la Universitat. Aquests mitjans tindran per objecte verificar els coneixements i les competències que garanteixin l'autoria; en cap cas no implicaran una segona avaluació. Si no és possible garantir l'autoria de l'estudiant, la prova serà qualificada amb D, en el cas de l'avaluació contínua, o amb un Suspens, en el cas de l'avaluació final.

    A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació; és responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.


Ponderació de les qualificacions

Opció per superar l'assignatura: AC

Nota final d'assignatura: AC

Amunt

Aquest curs s'avalua únicament a través de l'avaluació contínua (AC) perquè no hi ha examen final presencial. Totes les activitats, tant teòriques com pràctiques, i la participació en les discussions en el fòrum virtual són obligatoris.

L'avaluació contínua presenta:

  • Cinc (5) proves d'avaluació contínua (PAC) amb la següent ponderació:
    • PAC1 = 10%
    • PAC2 = 20%
    • PEC3 = 25%
    • PEC4 = 25%
    • PEC5 = 10%
  • Un (1) conjunt de tests autocorretgits sobre la teoria associada a cada mòdul. S'accedeix a aquests tests a través de l'enllaç a la plataforma Moodle integrada a l'aula. Les condicions de realització dels tests són les següents:
    • Hi ha un test diferent per a cada un dels mòduls didàctics d'aquesta assignatura (cinc en total).
    • L'estudiant disposa d'un màxim de 2 intents en cada test.
    • Cada test té un límit de temps, que depèn del nombre de preguntes del test (en general, s'estableix un temps límit d'1 minut per pregunta).
    • La nota de cada test serà la nota màxima obtinguda de tots dos intents.
    • La nota final de tots els tests representa el 10% de la nota final de l'assignatura. Per tant, cada test individual representa el 2% de la nota final de l'assignatura.

Advertiment: És important esmentar que la resolució de les proves, casos i pràctiques proposades s'ha de realitzar de forma individual excepte quan s'indiqui el contrari. L'equip docent tindrà en compte la lògica de les respostes, el pensament individual i la capacitat d'expressar-se per escrit.
Qualsevol font externa usada per a resoldre les qüestions i casos s'ha d'indicar clarament i ser referenciada adequadament. Si no fos el cas, les activitats s'avaluaran amb una D. D'altra banda, sempre a criteri de la Universitat, l'incompliment d'aquesta obligació serà comunicada a la gestió dels estudis, per tal d'avaluar si l'estudiant està autoritzat per aprovar qualsevol altra matèria o mitjançant una avaluació contínua en el semestre o el següent.

Amunt

Aquesta assignatura únicament es pot superar a través de la realització i lliurament de les PAC proposades al llarg del semestre. La nota final d'avaluació continuada (AC) serà la mitjana ponderada de totes les activitats, segons els pesos indicats en l'apartat anterior.

D'altra banda, al llarg del semestre, el consultor pot proposar discussions o debats formals. La participació en qualitat i quantitat en aquests debats també pot influir en la qualificació final del semestre.

Recuperació de les Proves d'Avaluació Continuada (PAC)

La recuperació de les activitats es realitzarà de forma individual per a cada activitat que no s'hagi lliurat o aprovat.

Detalls del procés de recuperació:

  • No hi ha una PAC de recuperació final. Les activitats es recuperen de forma individual.
  • Pot optar a la recuperació qualsevol estudiant que: (1) no hagi presentat la PAC dins el termini de lliurament definit o (2) tingui una nota inferior a 5. És a dir, qualsevol estudiant que tingui una nota de C-, D o N en aquesta activitat.
  • La nota obtinguda en l'activitat es multiplicarà per un factor de correcció de 0.7. És a dir, nota final de l'activitat = nota obtinguda * 0.7, sent la nota màxima que es podrà obtenir de 7 sobre 10.
  • Qualsevol activitat lliurada fora de termini (més enllà de les 23:59 de la data límit proposta) es considerarà un lliurament de recuperació.
  • Els estudiants podran lliurar les PAC fora de termini en qualsevol moment durant el semestre mitjançant l'eina de la RAC, fins a la data límit (improrrogable) de 20 de gener de 2019.
  • Només és possible realitzar un únic lliurament de recuperació, com a màxim, de cadascuna de les PAC proposades durant el curs.
  • Les correccions de les PAC de recuperació no es van a realitzar fins al final del semestre, després de la data límit de lliurament.

Amunt

Al llarg del semestre, el consultor us proporcionarà retorn del vostre progrés a través de diferents mitjans:

  • Publicació de les solucions de les activitats teòriques i pràctiques abans de finalitzar el semestre. Quan una prova no tingui una solució única, es publicaran aquelles indicacions que puguin ajudar a entendre com avaluar una solució.
  • Publicació de les activitats destacades d'alguns estudiants, en part o en la seva totalitat.
  • Comunicació individual a aquells estudiants en risc de no superar el curs, segons la seva evolució.

En tot cas, podeu sol·licitar al consultor un retorn individual, tant de la vostra evolució dins del semestre, com de cada prova individual. Pel fet de ser una avaluació majoritàriament individual i continuada, es recomana fer aquesta petició després de cada prova sobre la que tingueu dubtes o necessitats d'aclariment i no esperar a les qualificacions mitjanes o finals.

També és possible posar-se en contacte amb el professor responsable del curs acadèmic, si els comentaris i suggeriments rebuts per part del consultor no són satisfactoris o no s'està d'acord amb ells.

Amunt