Greek-French Master Programme PODEPRO

Analyse des données

Course goal

Objectif du cours

L’important développement des bases de données a conduit à mettre au point de nombreuses méthodes pour synthétiser les informations volumineuses et repérer les grandes structures d’un vaste tableau de données quantitatives, mais aussi qualitatives.  Le cours a donc pour objectif de procéder à une présentation théorique de ces méthodes, de leur intérêt, de leurs biais et limites, ainsi qu’à une initiation à l’application concrète de ces divers outils, mettant en exergue les précautions nécessaires à leur utilisation.

Après un rapide rappel des principes essentiels de l’analyse statistique : théorie des probabilités et statistique descriptive, l’essentiel du cours a pour objectif de familiariser les étudiants aux méthodes les plus courantes d’Analyse des Données Multidimensionnelles et multi variées. Les deux principaux types de méthodes de la statistique multidimensionnelle seront traités, à savoir :

Ø  les méthodes de classification, qui tentent de regrouper les points (cluster analysis etc), de façon à procéder à une typologie des unités étudiées. Ces opérations de découpage en classes d’une ou plusieurs séries statistiques est basée sur le principe de la discrétisation à savoir rendre discontinue (s), une ou plusieurs séries mesurées sur une échelle continue de valeurs. Principalement, deux techniques seront abordées :

    la classification ascendante hiérarchique
    la classification non hiérarchique

Ø  les méthodes factorielles, qui consistent à projeter le nuage de points sur un sous-espace, en perdant le moins d'information possible Trois techniques fondamentales seront abordées:

    l'analyse en composantes principales (plusieurs variables quantitatives),
    l'analyse des correspondances (deux variables qualitatives, représentées par un tableau de contingences)
    l'analyse des correspondances multiples (plus de deux variables qualitatives).

Enfin, le cours se terminera par la présentation d’une méthode quelque peu spécifique de représentation et classification des données qui repose sur un traitement visuel des données, particulièrement efficace dans le cas de données géographiques, à savoir la méthode Bertin.

Course subject

Organisation du cours et méthode de travail

Chaque cours fera l’objet :

    d’une présentation théorique, concernant les principes, la logique et les algorithmes relatifs aux méthodes étudiées

Les étudiants intéressés par une présentation mathématique plus poussée, pourront se reporter aux documents qui seront fournis à chaque cours.

    u traitement d’exemples concrets, basés sur des données réelles, l’accent étant mis sur les méthodes de lecture et interprétation des résultats

A la fin de chaque cours, un document de T.P. (Travaux Pratiques) sera distribué aux étudiants qui seront donc appelés à appliquer par eux-mêmes, les méthodes présentées auparavant. Cela signifie qu’un travail personnel assez conséquent est exigé de la part des étudiants. Ces derniers devront s’organiser sous forme de tandem. Dans tous les cas, les méthodes appréhendées dans ce cours, ont pour objectif de conserver au mieux l’information contenue dans la ou les séries statistiques étudiées, tout en permettant une réduction du volume initial d’information de façon à obtenir la meilleure lisibilité possible. Ce principe de réduction de l’information et sa lisibilité est d’ailleurs primordial lorsque l’on souhaite procéder à un travail de cartographie des données.

Contenu du cours

Séance 1

Introduction

Rappel de la théorie des probabilités, principes et lois.

Principes de la réduction de l’information :

-    Variables et indices

-    Ordre de grandeur

-    Forme des distributions

-    Dispersion et concentration

-    Irrégularités des séries

Séance 2

Les processus de discréditation

La relation entre caractères (corrélation, etc)

Les tests statistiques

La notion de distance

Séance 3

Les méthodes de classification hiérarchiques et non hiérarchiques à partir de l’étude de certains exemples classiques

-    Classification hiérarchique : fournir un ensemble de partitions plus ou moins fines obtenues par regroupements successifs de parties

-    Classification non hiérarchique : produire une partition en un nombre k fixé de classes

Séance 4

Présentation et analyse des exemples de classification hiérarchiques et non hiérarchiques qu’auront étudié et préparé les groupes d’étudiants

Séance 5

L’Analyse en Composantes Principales (ACP)

Séance 6

Présentation et analyse de deux exemples d’ACP

Séance 7

L’Analyse des Correspondances – Tableaux de contingence

Séance 8

L’Analyse des Correspondances Multiples

Séance 9

Présentation et analyse des exemples d’Analyse des Correspondances qu’auront étudié et préparé les groupes d’étudiants

Séance 10

La Méthode Bertin

Assessment

Évaluation des étudiants

Les étudiants seront amenés à construire un dossier portant sur une thématique choisie en commun lors de la première séance.

Ce dossier permettra à l’étudiant de construire par lui-même et étape par étape, à l’aide des outils de l’analyse des données, une étude sur la thématique retenue. Cette construction porte donc, sur (a) le choix des variables et indices pertinents, compte-tenu de la problématique centrale et des hypothèses, (b) leur analyse exploratoire, (c) la mise en œuvre des outils d’analyse des données et (d) l’interprétation des résultats.

Ce travail d’élaboration est donc un travail continu sur l’ensemble des 10 séances.

L’évaluation de l’étudiant portera sur

(a) Sa participation à la construction du problème et au choix des variables: il devra à intervalle régulier remettre à l’enseignant des fiches d’avancement du travail: 30% de la note finale

(b)  La rédaction du dossier (présentation de la méthode, justification du choix des variables et des outils utilisés): 30% de la note finale

(c)  La soutenance orale du dossier: 40% de la note finale

Bibliography

  • Béguin M., Pumain D., (2003), La représentation des données géographiques, Statistique et cartographie, Armand Colin, Collection Cursus, 192 pages.
  • Benzécri J.P. & F., (1984), Pratique de l’Analyse des Données, Dunod, 457 pages
  • Bouroche J.M., (2002), L’analyse des données, PUF, Collection Que sais-je. No 1854, 8ème édition, 127 pages.
  • Cibois P., (2000), L'analyse factorielle, 2000, PUF, Collection Que sais-je. N° 2095, 127 pages
  • Dervin C., (1992), Comment interpréter les résultats d’une analyse factorielle des correspondances, Collection STAT-ITCF, 72 pages.
  • Doise W., Clémence A., Lorenzi-Cioldi F., (1992), Représentations sociales et analyses de données, PUG, Grenoble, 264 pages.
  • Dumolard P., Dubus N. Charleux L., (2005), Les statistiques en géographie, Edition Belin atouts Géographie, 240 pages.
  • Fénelon J.P., (1999), Qu’est-ce que l’analyse de données?, Seisam, 311 p.
  • Georgin J.P., (2002), Analyse interactive des données (ACP, AFC) avec Excel 2000. Théorie et pratique, Presses Universitaires de Rennes, Collection Didact Statistique, 266 pages.
  • Groupe Chadule (1997), Initiation aux pratiques statistiques en géographie, Armand Colin, Collection U, 4ème édition, 203 pages
  • Lebart L., Morineau A., Piron M., (2004), Statistique exploratoire multidimensionnelle, Dunod, 2ème édition, 439 pages.
  • Sanders L., (1990), L’analyse des données appliquée à la géographie, Montpellier, Reclus, Alidade, 267 pages.
  • Tomassone R., (1988), Comment interpréter les résultats d’une analyse factorielle discriminante, Collection STAT-ITCF, 56 pages