Apprentissage automatique I : analyse des mégadonnées et prise de décision
MATH 60629

Automne 2024

[Horaire] [Évaluations] [Références] [English]

Professeur: Laurent Charlin

Horaire: Je donne ce cours deux fois cet automne.

Jour/Heure Section Salle de classe

Mercredi 8:30am --11:30am J02 (Français) Decelles, Natashquan

Mardi 15:30pm -- 18:30pm J01 (English) Decelles, Natashquan

Heure de bureau: mercredi 1pm--2pm (Salle 4.830)

Description:
Ce cours porte sur les modèles d'apprentissage automatique (machine learning). En plus des modèles standards, nous étudierons aussi les modèles pour analyser les comportements des utilisateurs ainsi que pour la prise de décision.
Nous étudierons les modèles d'apprentissage automatique pour l'apprentissage supervisé, non supervisé et comment ils peuvent être étendus aux données massives à l'aide de techniques de calcul à grande échelle (p. ex., grappe d'ordinateurs). Nous étudierons en plus des modèles récents pour les systèmes de recommandations.

**Déroulement du cours:** Le cours se donnera en format pédagogie inversée (et aussi ici). C'est une approche pédagogique dans laquelle les étudiants apprennent la matière avant de venir en classe. Le matériel du cours sera donc disponible sous forme de vidéos ou de lectures. Le temps en classe sera réservé pour de la pédagogie plus active par exemple avec des activités comme la résolution de problèmes, les démonstrations et les séances de questions-réponses. De plus, les classes démarreront par un court résumé de la matière de la semaine.

**Niveau mathématique:** Les étudiants doivent avoir une maturité mathématique.

**Niveau de programmation:** Les étudiants devront connaître le langage Python pour suivre ce cours. Si vous ne le connaissez pas, voici quelques options pour l'apprendre. Je recommande fortement la première (Data Camp) ou la seconde (HEC CAMS).

Cours en ligne. DataCamp. Étudiez les chapitres 1 à 3 du cours Introduction to Python (utilisez le lien que je vous ai envoyé pour accéder aux chapitres 2 et 3).
Cours. HEC CAMS propose des cours d'introduction à Python en septembre (en français). Vous pouvez vous inscrire ici: inscriptions CAMS
Voici le tutoriel que j'ai utilisé en 2018: Fall 2018 tutorial (en anglais). Bien que je conseille plutôt les deux premières options, celle-ci peut vous donner une idée du niveau minimal souhaitable pour le cours.

En plus, un tutoriel sur l'apprentissage automatique utilisant le Python sera offert à la semaine 4 du cours.

Horaire Hebdomadaire

08/28. Introduction au cours et rappels mathématiques. [diapos fr]
- Lecture obligatoire: Prologue to The Master Algorithm
- Lecture suggérée: Chapter 1 de [ESL]
- Rappel mathématique des chapitres 2 et 3 du livre [DL]
  - Voir d'autres suggestions de ressources (page en anglais)
09/04. Les fondements de l'apprentissage automatique
- Lectures obligatoires: Chapitre 5 du livre [DL]. Vous pouvez survoler les sections 5.4 (sauf 5.4.4) à 5.10.
- Capsules: [diapos]
  1. Learning Problem [14:40]
  2. Types of Experiences [13:15]
  3. A first Supervised Model [8:03]
  4. Model Evaluation [15:26]
  5. Regularization [4:09]
  6. Model Validation [3:08]
  7. Bias / Variance tradeoff [11:50]
- Matériel pour la classe:
  - Résumé fr
  - Exercices fr (colab), réponses (colab)
  - Si vous ne voulez pas utiliser colab, voici les deux fichiers à télécharger: 1a) Fundamentals_questions_fr.ipynb ET 2) utilities.py
09/11. Modèles d'apprentissage supervisé
- Références:
  Sections 4.1-4.3, 4.5 du livre [ESL],
  Sections 3.5 et 4.2 du livre [ML-Murphy]
- Capsules: [diapos]
  1. Nearest Neighbor [19:05]
  2. Linear Classification [15:26]
  3. Introduction to Probabilistic Models (for Classification) [11:55]
  4. The Naive Bayes Model [24:28]
  5. Naive Bayes Example [9:26]
- Matériel pour la classe:
  - Résumé fr
  - Exercices fr (colab), réponses (colab)
  - Si vous ne voulez pas utiliser colab, voici les deux fichiers à télécharger: 1a) Supervised_questions_fr.ipynb ET 2) utils.py
09/18. Python pour la programmation scientifique et pour l'apprentissage automatique [Séance pratique]
- Le tutoriel à suivre est ici, Solutions.
- Je vous recommande de démarrer le tutoriel la semaine avant le cours et de le terminer pendant le cours.
09/25. Réseaux de neurones et apprentissage profond
- Lectures obligatoires: Sections 6.1--6.3 et 6.5 (arrêtez à 6.5.4) du livre [DL]
- Autre référence: Chapitre 11 du livre [ESL].
- Capsules: [diapos]
  1. From linear classification to neural networks [19:28]
  2. Training neural networks [20:14]
  3. Learning representations [13:40]
  4. Neural networks hyperparameters [25:20]
  5. Neural networks takeaways [7:00]
- Matériel pour la classe:
  - Résumé
  - Exercices fr (colab) , réponses fr (colab)
10/02 Réseaux de neurones récurrents et réseaux de neurones à convolutions
- Lectures obligatoires: Sections 10, 10.1, 10.2 (survoler 10.2.2, sauter 10.2.3) et 10.7. Sections 9, 9.1, 9.2, 9.3 (9.11 pour le plaisir). Les deux venant de Deep Learning (le livre).
- Capsules: [diapos]
  1. Modelling Sequential Data [8:42]
  2. Practical Overview of RNNs [29:32]
  3. RNNs for language modelling [15:13]
  4. Overview of CNNs [13:30]
  5. Convolutions and Pooling [26:00]
  6. Conclusions and Practical remarks [9:17]
- Matériel pour la classe:
10/09. Apprentissage Non supervisé
- Lectures obligatoires: Section 14.3 (sauf 14.3.5 et 14.3.12) du livre [ESL]
- Capsules: [diapos]
  1. Introduction to unsupervised learning [8:17]
  2. K-means clustering [41:58] (cette capsule est plus longue, mais il y a une pause naturelle à 22:28)
  3. GMMs for clustering [17:52]
  4. Beyond Clustering [14:42]
- Matériel pour la classe:
  - Résumé
  - Exercices fr (colab)
10/16. Semaine d'étude (pas de cours)
10/23. Rencontre en équipe à propos du projet
11/06. Calcul parallèle pour données massives
- Cette séance ne sera pas donnée en pédagogie inversée (mais les résumés des capsules seront quand même acceptés).
- Capsules: [diapos]
  1. Intro. to Distributed Computing for ML [19:35]
  2. MapReduce [17:41]
  3. Spark [17:37]
- Diapos de la séance
- Sommaire
11/13. Systèmes de recommandations
- Obligatoire: Présentation du cas et déroulement de la séance (réponse à la Question 1 à remettre la veille du cours au plus tard)
  - Diapos utilisées pendant la séance
- Référence (facultative): Tutoriel sur la factorisation de matrice
11/20. Attention et Transformeurs
- Cette séance ne sera pas donnée en pédagogie inversée.
- Référence optionelle: An Introduction to Transformers (en anglais)
- Diapos
1l/27 Modèles génératifs modernes
- Cette séance ne sera pas donnée en pédagogie inversée.
- Diapos
12/04. Présentations des projets

Évaluations

Devoir (20%)

Disponible ici.
Date de remise: 18 octobre.
Projet (30%)
- Date de remise: plan d'étude le 21 octobre, rapport final le 15 décembre.
- Instructions
Présentation du projet (10%)
- Lors de la dernière séance
- Instructions
Examen final (30%)
- Date: 8 décembre, Heure: 13h30--16h30,
- Documentation permise: une feuille de notes recto-verso (format 8.5 x 11) et une calculatrice.
- Matière à examen: tout ce que l'on a vu en classe ainsi que les lectures obligatoires
- Examens précédents: Automne 2018 (en anglais), Automne 2020 (Solutions en anglais)
Résumés de capsules (10%)
- Écrivez un court résumé (10 à 15 lignes du formulaire) sur 10 capsules de votre choix.
- Le sommaire de la capsule doit être soumis avant le cours de cette capsule capsule (par exemple, un sommaire de la capsule "Learning Problems" devrait être soumise avec le 09/04)
- Vous devez m'envoyer vos résumés en utilisant ce formulaire.

Références

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition Hastie, Trevor, Tibshirani, Robert, Friedman, Jerome, 2009 [ESL]
Deep Learning. Ian Goodfellow, Yoshua Bengio and, Aaron Courville. [DL]
Reinforcement Learning : An Introduction Hardcover. Richard S. Sutton, Andrew G. Barto. A Bradford Book. 2nd edition [RL-Sutton-Barto]
Machine Learning. Kevin Murphy. MIT Press. 2012. [ML-Murphy]
Recommender Systems Handbook, Ricci, F., Rokach, L., Shapira, B., Kantor, P.B. 2011. [RSH]
Data Algorithms : Recipes for Scaling Up with Hadoop and Spark 1st Edition. Mahmoud Parsian. O'Reilly. 2015 [DA]
Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython. Wes McKinney. O'Reilly. 2012 [PDA]
Pattern Recognition and Machine Learning. Christopher Bishop. 2006 [PRML]
Advanced Analytics with Spark. O'Reilly. Second Edition. 2017

Apprentissage automatique I : analyse des mégadonnées et prise de décision MATH 60629 Automne 2024

Horaire Hebdomadaire

Évaluations

Références

Apprentissage automatique I : analyse des mégadonnées et prise de décision
MATH 60629

Automne 2024