lien externe

Programme de la formation

Envoyez-nous un courriel

Le mardi 1er novembre, 8 h 30 à 17 h, Calcul Québec propose une formation spécialisée en analyse de données massives et visualisation autour du logiciel Python (en avant-midi) et Spark (en après-midi).

 
La formation sur Python concernera, l’utilisation des bibliothèques Pandas et Matlotlib afin d’analyser et de visualiser les données. En après-midi, c’est Spark qui sera à l’honneur, l’un des projets libres les plus importants dans le monde du Big Data. La formation détaillera son utilisation sur une grappe de calcul similaire à celle trouvée chez Calcul Québec et Calcul Canada. Une emphase particulière sera mise sur l’analyse interactive de données avec Jupyter.
 
 

Analyse et visualisation de données avec Python

 
Cette formation s’inscrit dans la continuité de l’Introduction à la programmation en Python. On utilise les bibliothèques Pandas et Matplotlib afin d’analyser et de visualiser des données.
 
Niveau : Intermédiaire
Durée : 3 h 30
 
Prérequis
Une connaissance de base de Python est fortement suggérée. Si ce n’est pas votre cas, on vous suggère d’assister à la présentation Introduction à la programmation en Python.
 
Plan de cours
  1. Pandas et les DataFrames (jeux de données) en Python
  2. Indexation, découpage et sélection de jeux de données
  3. Type et format des données
  4. Combiner des jeux de données
  5. Automatisation d’analyses
  6. Visualiser vos données avec Matplotlib
  7. Accéder à des bases de données SQLite avec Python et Pandas

Analyse de données massives avec Spark

 
Avec plus de 1000 contributeurs, Apache Spark est devenu en 2015 l'un des projets libres les plus importants dans le monde du Big Data. Basé sur le concept de traitement en mémoire des données, Spark permet d'atteindre des performances allant jusqu'à 100 fois celle offerte par Hadoop.
 
Durant ce cours, nous présenterons Apache Spark et nous expliquerons comment il est possible de l'utiliser sur une grappe de calcul telle qu'on en retrouve à Calcul Québec et Calcul Canada pour analyse de grande quantité de données. Une emphase particulière sera mise sur l'analyse interactive de données avec Jupyter (IPython Notebook).
 
Niveau : Intermédiaire
Durée : 3 h 30 (30 minutes de présentation magistrale et 3 h d’exercices dirigés)
 
Prérequis
Utilisation de la ligne de commande Linux, connaissances de base en statistiques, cours d’initiation à la programmation avec Python ou niveau équivalent.
 
Plan de cours
 

Introduction

  1. Présentation du paradigme Map-Reduce
  2. Présentation des principes base de Spark

Travailler avec Spark

  1. Resilient Distributed Dataset
  2. Paires clé-valeurs dans Spark
  3. DataFrame
  4. Algorithmie avec Spark