Formation Journée de découverte - Exploration des Données Multidimensionnelles - Sigma Plus
Journée de découverte - Exploration des Données Multidimensionnelles (F-dec-00)
Découvrir les principales méthodes multidimensionnelles (analyse en composantes principales, analyse des correspondances, analyse discriminante ...), en comprendre l'intérêt dans de nombreuses problématiques.
Informations
Public : Toute personne souhaitant découvrir les analyses multidimensionnelles et en comprendre l'intérêt dans de nombreuses problématiques métiers. Méthode : La mise en œuvre de ces outils s'effectuera d'abord à l'aide du tableur Excel et à partir d'un exemple académique avant d'aborder l'utilisation de logiciels spécialisés (StatGraphics, Uniwin, ...) et des exemples plus métiers. Remarque : Nous mettons à votre disposition les stages Analyse des Données Quantitatives, Analyse des Données Qualitatives et Méthodes PLS afin de vous permettre d'approfondir les différentes notions abordées lors de cette journée de découverte.
Durée : 1 jour(s)
Prochaine(s) session(s) :
Lieu
Du
Au
Paris
20/03/2012
20/03/2012
Paris
14/09/2012
14/09/2012
Frais d'inscription :
- Inter-entreprises : Prix unitaire par stagiaire(s) inscrit(s)
L'observation des phénomènes aussi bien scientifiques ou
technologiques que sociologiques ou médicaux, conduit souvent à la construction de
tableaux de données. Dans ces tableaux, les colonnes représentent les variables
caractérisant les individus qui occupent quant à eux les lignes; on parle
ainsi de tableaux individus-variables dont la dimension peut devenir rapidement
importante, en fonction de la diversité des sujets abordés. Il devient alors
nécessaire de disposer d'un ensemble de méthodes permettant de synthétiser, de
la manière la plus objective possible, l'information issue du recueil des
données. Cette synthèse produit généralement des cartes, représentations
graphiques planes restituant au mieux les similarités entre les individus. La
projection des variables dans ces mêmes cartes permet d'expliquer les
différences entre les individus. Les représentations graphiques sont des
synthèses qui doivent aider ingénieurs et chercheurs à dégager des éléments
d'interprétation : c'est le but de l'analyse multidimensionnelle des données.
Les différentes méthodes disponibles (Fig.1)
dépendent naturellement de la nature des variables. Les plus anciennes a avoir
été développées s'intéressent aux variables quantitatives; elle trouvent leur
fondement au début du XXème siècle, époque où l'informatique ne
permettait pas les calculs d'aujourd'hui. Ces méthodes sont à l'initiative des
psychométriciens.
Figure 1. Quelle méthode choisir ?
Le choix de la méthode dépend naturellement de la nature quantitative et/ou qualitative des variables et des objectifs attendus. La description des données quantitatives permet d'établir des cartes qui restituent au mieux les distances entre les individus et les corrélations entre les variables : c'est l'objet de l'analyse en composantes principales. La description des données qualitatives donne lieu à l'identification de correspondances fortes entre les modalités de deux ou plusieurs variables qualitatives : c'est l'objet de l'analyse des correspondances simples ou multiples. On peut également chercher à établir une relation entre les modalités d'une variable qualitative et un ensemble de variables quantitatives : c'est l'objet de l'analyse discriminante, méthode classée ici parmi les méthodes explicatives.
La vulgarisation des outils informatiques a permis une
diffusion plus large de ces méthodes dans la dernière partie du XXème
siècle mais paradoxalement, il existe bien des domaines industriels où on ne
les utilise pas encore, sans doute à cause de l'approche trop mathématique et
statistique que l'on associe à leur diffusion. Pourtant quelques notions
simples permettent leur mise en œuvre, y compris à l'aide d'un tableur : la
notion de distance euclidienne et la notion de projection, découvertes bien
avant le lycée, permettent de construire des arbres de classification (Fig.2) ou des cartes
de projection des individus (Fig.3). Des notions complémentaires telles que la
corrélation entre variables peuvent être elles aussi abordées de façon
géométrique (Fig.4). Tous les outils d'aide à l'interprétation des résultats relèvent
ensuite du bon sens.
Figure 2. Résultat d'une méthode de classification ascendante hiérarchique.
En restituant sous forme de dendrogramme ou arbre de classification les distances euclidiennes entre des individus pouvant être caractérisés par un grand nombre de variables, on peut matérialiser la présence de classes qu'il convient ensuite de décrire à partir des variables de base. On distingue ici trois catégories de voitures selon les dénominations actuelles des journaux automobiles : les citadines ou les petites voitures, les voitures compactes ou familiales, et enfin les routières ou les voitures à forte cylindrée et forte puissance.
Figure 3. Carte des individus obtenue par une analyse en composantes principales.
Les individus caractérisés par de nombreuses variables sont projetés dans un plan dont la définition doit respecter au mieux la notion de distance entre les individus. En associant ainsi la notion de projection à celle de distance et de variance, on construit facilement la carte des individus. Des outils d'aide à l'interprétation permettent ensuite, au travers de l'inertie, de chiffrer le pourcentage d'information restitué par une carte.
Figure 4. Cercle des corrélation obtenu par une analyse en composantes principales.
La projection des variables permet de restituer leur corrélation et l'interprétation de cette nouvelle carte fait appel à la notion d'angle. En superposant ou en juxtaposant la carte des variables et celle des individus, on peut expliquer les similitudes ou les distances entre individus à partir des variables.
Le plan de la journée
La construction de la synthèse d'un tableau de données
sous forme graphique ou numérique obéit à une démarche méthodologique. Chaque
étape de la démarche fait appel à des notions de base et y associe des
équations simples dont il convient de démystifier l'usage pour que chacun
puisse apprécier le bien fondé de la méthode et son potentiel.
Redécouvrir des notions de base
La première notion de base est la distance euclidienne
qui, à elle seule, permet la construction d'un dendrogramme, encore appelé
arbre de classification, à partir d'une méthode de classification ascendante hiérarchique. Il est alors possible d'identifier
de façon objective des regroupements d'individus (Fig.2). On illustre
ainsi l'objectif de description des méthodes d'analyse multidimensionnelle des
données. On rappellera ensuite la notion de projection d'un point sur une
droite, en insistant sur les propriétés de la projection dite orthogonale.
Différentes animations permettront de s'apercevoir que certains axes de
projection sont plus informatifs que d'autres pour les utilisateurs (Fig.3). On terminera
enfin cette partie par des rappels sur la notion de corrélation entre deux
variables, qui est en quelque sorte le pendant de la distance entre deux
individus. On associera à cette notion statistique la notion d'angle (Fig.4), sans
doute plus facile à interpréter. La notion de variance permettra de définir un critère à optimiser lors de la mise en œuvre de différentes méthodes de projection telles que l'analyse en composantes principales ou certaines formes de l'analyse discriminante.
Associer des notions de base pour bâtir une méthode
Pour obtenir une première synthèse de l'information
contenue dans un tableau de données multidimensionnelles, on peut envisager de
projeter les individus dans un plan, afin d'obtenir une carte des individus. Le
critère de construction de cette carte est naturellement de respecter la
distance euclidienne entre les individus. En associant la notion de variance
des points projetés aux notions de distance et de projection, on obtient ainsi
une première représentation graphique, facile à obtenir et riche
d'enseignements. Il convient d'expliquer ensuite les similitudes et les
distances entre individus. Il faut alors faire appel aux variables que l'on
projettera également afin de faire ressortir, au travers de la notion d'angle,
leurs corrélations. L'association des deux projections, celle des individus et
des variables, est également connue sous le nom de représentation conjointe ou
biplot. En appliquant cette approche pragmatique, point n'est besoin de
diagonaliser la matrice des corrélations ! C'est ainsi que l'on peut mener à bien une analyse en composantes principales.
De même, lorsque les individus sont caractérisés par deux ou plusieurs variables qualitatives présentant chacune différentes modalités, il est possible d'adapter les outils précédents. Après avoir construit un tableau de contingence afin de dénombrer le nombre d'individus caractérisés par chaque couple de modalités, on compare les profils de chacune de modalités représentant les lignes et les colonnes du tableau de contingence. Deux profils voisins seront représentés par des points proches dans une cartographie. Les points seront d'autant plus éloignés que les profils seront différents (Fig.5). La distance utilisée en ici la distance du khi-deux. C'est ainsi que l'on peut mener à bien une analyse des correspondances simples.
Figure 5. Projection des profils dans une analyse des correspondances simples.
Les individus d'un tableau de données sont caractérisés par deux variables qualitatives : la fonction occupée lors du premier emploi et le secteur économique de l'entreprise. Il est possible d'établir, par exemple, le profil de chacune des modalités relatives à la fonction occupée lors du premier emploi. On constate immédiatement que les fonctions F2 et F4 ont des profils proches. Les points représentant ces profils seront donc proches dans le plan de projection. Par ailleurs, les fonctions F3 et F5 ont des profils radicalement différents. Le points représentatifs de ces deux profils sont les plus éloignés.
Quand on cherche à expliquer les modalités d'une variable qualitative à partir d'un ensemble de variables quantitatives, on peut appliquer encore une fois le principe de projection associé à la notion de variance. On cherche alors un espace de projection qui permet de distinguer, au mieux, chacun de groupes représentés par les modalités de la variable qualitative. Après avoir déterminé le meilleur sous-espace de projection associé à la notion de score, il est possible d'affecter a priori à un groupe donné un nouvel individu caractérisé par des variables quantitatives. Cette affection se traduit par une probabilité, c'est-à-dire un nombre compris entre 0 et 1 qui traduit un degré de croyance qu'un nouvel individu appartienne à un groupe donné. Il s'agit là des bases de l'analyse discriminante (Fig.6), méthode qui a connu de nombreux développements.
Figure 6. Le principe de base de l'analyse discriminante.
Un certain nombre d'individus sont caractérisés par deux variables quantitatives X1 et X2 et par une variable qualitative dont les modalités permettent de constituer trois groupes. La figure montre qu'aucune des variables initiales ne permet de distinguer les trois groupes. Par contre, il est possible de définir un axe particulier pour lequel les projections orthogonales des individus respectent la distinction des groupes. La valeur des projections sur cet axe représentent un score. Il est alors possible d'attribuer à un nouvel individu une probabilité d'appartenir à un groupe grâce au score qu'il obtiendrait à l'aide des valeurs des variables X1 et X2 le caractérisant.
Aider l'utilisateur à interpréter les différentes cartographies
Par définition, une projection ne restitue
jamais l'intégralité des informations contenues dans le tableau initial de
données. Mais il convient d'accepter de perdre un peu d'information pour gagner
en signification. Différentes approches permettent d'apprécier la qualité de la
restitution obtenue à partir d'une projection, depuis la définition des
inerties, c'est-à-dire la quantité d'information restituée, jusqu'à la
contribution des individus à la construction d'un plan de projection. Il
convient donc de préciser la démarche à adopter pour établir et interpréter ces
différents outils d'aide à la lecture de la carte des individus et de la carte
des variables. On présentera simplement à ce niveau quelques outils complémentaires
issus des méthodes PLS, tels que l'ellipse de Hotelling ou la notion de
distance au modèle. On introduira également le rôle des variables et des individus
supplémentaires pour aborder le caractère explicatif de l'analyse en
composantes principales.
Aller plus loin, y compris en présence de données manquantes
Il arrive parfois que pour quelques
individus l'intégralité des variables ne soient pas renseignées : on est donc
en présence de données manquantes. Doit-on pour autant perdre l'information
disponible pour ces individus ? L'algorithme NIPALS, rattaché aux méthodes PLS,
permet d'apporter des éléments de réponse et d'offrir de nouvelles voies à
l'analyse multidimensionnelle des données. Basé sur la décomposition d'un
tableau aux valeurs singulières, il permet au travers d'une succession de
régressions linéaires simples d'obtenir des projections d'individus et de
variables, y compris en présence de données manquantes (Fig.7).
Figure 7. Comment gérer les données manquantes ?
L'algorithme NIPALS représente le complément indispensable aux méthodes plus traditionnelles d'analyse en composantes principales. La construction des cartes s'opère de manière itérative et offre de nouveaux outils d'aide à l'interprétation.