Composante
Polytech Annecy-Chambéry
Description
Avec l'avènement du Digital, les données sont de plus en plus omniprésentes et en nombre tel qu'il n'est plus possible d'envisager une analyse sur un ordinateur personnel. Le Big Data est né chez les géants de l'Internet (Google, Amazon, Facebook, Yahoo) et a donné lieu à de nombreux outils devenus Open Source comme Big Table, Hadoop, MongoDB pour n'en citer que quelques-uns. Le module Big Data présente les différentes approches existantes pour la prise en compte de données massives à savoir un traitement par batch (avec Hadoop et Map Reduce), un traitement live (avec Apache Spark) et finalement l'architecture lambda mixant les deux approches.
Objectifs
A l'issue du cours, l'étudiant sera capable :
- de comprendre les trois architectures et leur utilisation
- de mettre en oeuvre les trois architectures
Heures d'enseignement
- Big Data - CMCours Magistral7,5h
- Big Data - TPTravaux Pratiques12h
Pré-requis obligatoires
- Systèmes distribués à large échelle (INFO 833)
- Bases de données distribuées (INFO 834)
Plan du cours
- Qu'est-ce que le Big Data ?
- Quelles sont les caractéristiques du Big Data ?
- Volume
- Vitesse
- Variété
- Du 3V au 5V
- Valeur
- Véracité
- Processus de calcul
- Approche Map Reduce
- Approche Streaming
- Approche Lamba
- Approche Map Reduce pour le traitement de données textuelles
- Approche Streaming pour l'analyse de flux de données
- Architecture Lambda pour l'analyse dans le domaine des réseaux sociaux