Analyse des données

Objectif du cours

L’important développement des bases de données a conduit à mettre au point de nombreuses méthodes pour synthétiser les informations volumineuses et repérer les grandes structures d’un vaste tableau de données quantitatives, mais aussi qualitatives. Le cours a donc pour objectif de procéder à une présentation théorique de ces méthodes, de leur intérêt, de leurs biais et limites, ainsi qu’à une initiation à l’application concrète de ces divers outils, mettant en exergue les précautions nécessaires à leur utilisation.

Après un rapide rappel des principes essentiels de l’analyse statistique : théorie des probabilités et statistique descriptive, l’essentiel du cours a pour objectif de familiariser les étudiants aux méthodes les plus courantes d’Analyse des Données Multidimensionnelles et multi variées. Les deux principaux types de méthodes de la statistique multidimensionnelle seront traités, à savoir :

Ø les méthodes de classification, qui tentent de regrouper les points (cluster analysis etc), de façon à procéder à une typologie des unités étudiées. Ces opérations de découpage en classes d’une ou plusieurs séries statistiques est basée sur le principe de la discrétisation à savoir rendre discontinue (s), une ou plusieurs séries mesurées sur une échelle continue de valeurs. Principalement, deux techniques seront abordées :

la classification ascendante hiérarchique
la classification non hiérarchique

Ø les méthodes factorielles, qui consistent à projeter le nuage de points sur un sous-espace, en perdant le moins d’information possible Trois techniques fondamentales seront abordées:

l’analyse en composantes principales (plusieurs variables quantitatives),
l’analyse des correspondances (deux variables qualitatives, représentées par un tableau de contingences)
l’analyse des correspondances multiples (plus de deux variables qualitatives).

Enfin, le cours se terminera par la présentation d’une méthode quelque peu spécifique de représentation et classification des données qui repose sur un traitement visuel des données, particulièrement efficace dans le cas de données géographiques, à savoir la méthode Bertin.

Organisation du cours et méthode de travail

Chaque cours fera l’objet :

d’une présentation théorique, concernant les principes, la logique et les algorithmes relatifs aux méthodes étudiées

Les étudiants intéressés par une présentation mathématique plus poussée, pourront se reporter aux documents qui seront fournis à chaque cours.

u traitement d’exemples concrets, basés sur des données réelles, l’accent étant mis sur les méthodes de lecture et interprétation des résultats

A la fin de chaque cours, un document de T.P. (Travaux Pratiques) sera distribué aux étudiants qui seront donc appelés à appliquer par eux-mêmes, les méthodes présentées auparavant. Cela signifie qu’un travail personnel assez conséquent est exigé de la part des étudiants. Ces derniers devront s’organiser sous forme de tandem. Dans tous les cas, les méthodes appréhendées dans ce cours, ont pour objectif de conserver au mieux l’information contenue dans la ou les séries statistiques étudiées, tout en permettant une réduction du volume initial d’information de façon à obtenir la meilleure lisibilité possible. Ce principe de réduction de l’information et sa lisibilité est d’ailleurs primordial lorsque l’on souhaite procéder à un travail de cartographie des données.

Contenu du cours

Séance 1

Introduction

Rappel de la théorie des probabilités, principes et lois.

Principes de la réduction de l’information :

– Variables et indices

– Ordre de grandeur

– Forme des distributions

– Dispersion et concentration

– Irrégularités des séries

Séance 2

Les processus de discréditation

La relation entre caractères (corrélation, etc)

Les tests statistiques

La notion de distance

Séance 3

Les méthodes de classification hiérarchiques et non hiérarchiques à partir de l’étude de certains exemples classiques

– Classification hiérarchique : fournir un ensemble de partitions plus ou moins fines obtenues par regroupements successifs de parties

– Classification non hiérarchique : produire une partition en un nombre k fixé de classes

Séance 4

Présentation et analyse des exemples de classification hiérarchiques et non hiérarchiques qu’auront étudié et préparé les groupes d’étudiants

Séance 5

L’Analyse en Composantes Principales (ACP)

Séance 6

Présentation et analyse de deux exemples d’ACP

Séance 7

L’Analyse des Correspondances – Tableaux de contingence

Séance 8

L’Analyse des Correspondances Multiples

Séance 9

Présentation et analyse des exemples d’Analyse des Correspondances qu’auront étudié et préparé les groupes d’étudiants

Séance 10

La Méthode Bertin

Évaluation des étudiants

Les étudiants seront amenés à construire un dossier portant sur une thématique choisie en commun lors de la première séance.

Ce dossier permettra à l’étudiant de construire par lui-même et étape par étape, à l’aide des outils de l’analyse des données, une étude sur la thématique retenue. Cette construction porte donc, sur (a) le choix des variables et indices pertinents, compte-tenu de la problématique centrale et des hypothèses, (b) leur analyse exploratoire, (c) la mise en œuvre des outils d’analyse des données et (d) l’interprétation des résultats.

Ce travail d’élaboration est donc un travail continu sur l’ensemble des 10 séances.

L’évaluation de l’étudiant portera sur

(a) Sa participation à la construction du problème et au choix des variables: il devra à intervalle régulier remettre à l’enseignant des fiches d’avancement du travail: 30% de la note finale

(b) La rédaction du dossier (présentation de la méthode, justification du choix des variables et des outils utilisés): 30% de la note finale

(c) La soutenance orale du dossier: 40% de la note finale

Analyse des données

Contact info

News

ΣΥΝΔΕΣΜΟΙ