Exploitation sous R des données massives en sciences sociales

Exploitation sous R des données massives en sciences sociales (24h, 3ECTS)

Responsable : L. Reboul (MCF AMU, 26ème CNU)

Objectif

Apprendre la signification de termes clés et des approches pour analyser de gros volumes de données au sens informatique et statistique. Étudier l'implémentation de ces approches sous le logiciel R

Contenu

1) Statistique de la décision

  • Introduction à l’apprentissage statistique – notion d’échantillon test, échantillon d’apprentissage, échantillon de validation, mesure de l’erreur de prédiction, courbe ROC
  • Classification supervisée (scoring)
  • Arbres de décision

2) Introduction aux Big-data

  • ­ Vocabulaire des Big-Data (données massives).
  • ­ Spécificité des données massives : les 3 V.
  • ­ Exemples de données massives en sciences sociales.
  • ­ Limite des approches classiques pour la manipulation de données massives : exemple des K-means et du calcul de la matrice de var-cov en discrimination.

3) Implémentation

  • ­ Environnement de travail : frameworks hadoop et spark
  • ­ Calcul parallèle : technique MapReduce, utilisation des packages foreach, parallel de R. Application sur des méthodes statistiques connues (ex : discrimination, régression,...)
  • ­ Utilisation du package filehash. Illustration sur les fonctions lda (package MASS) et rpart (package rpart) de R.