SIMCA pour l’analyse multivariée des données

Qu’est-ce que l’analyse multivariée des données ?

Pourquoi et quand est-elle utile ?

Des données, des données et encore des données. Contrôle de la qualité, maîtrise de procédés, recherche, développement, comptabilité, finance, prévision. Partout de plus en plus de données sont disponibles et visualisées, ce qui rend difficile la compréhension de ce qui se passe et la vue globale d’un problème. Prendre des décisions intelligentes est de plus en plus difficile.

Les coûts des expérimentations est de plus en plus élevé alors que les coûts des mesures additionnelles sur un procédé décroissent grâce à la mise en place d’instruments électroniques comme des spectromètres, des chromatographes, etc. Ainsi on observe une tendance à faire de moins en moins d’expériences mais à collecter du plus en plus de données pour chacune des expériences. Cette tendance est observée partout, depuis la recherche de base en physique, où les coûts des accélérateurs sont élevés, jusqu’à la recherche biomédicale où des aspects éthiques ou liés aux normes poussent à faire moins d’expériences.

C’est pour cela qu’il est nécessaire d’utiliser l’analyse multivariée des données. Avec ces méthodes tout tableau de données, même un tableau de peu de lignes et de beaucoup de colonnes, est transformé en quelques puissants graphiques qui affichent les informations contenues dans les données d’une façon aisée à comprendre.

Applications typiques

  • Contrôle de qualité et optimisation (aliments, boissons, peintures, cosmétiques, matériaux, polymères, médicaments).
  • Optimisation de procédés et maîtrise de procédés.
  • Développement et optimisation de méthodes de mesure.
  • Prospection: pétrole, eau, minéraux, etc.
  • Classification de bactéries, virus, et autres spécimens médicaux.
  • Analyses économiques et administratives.
  • Conception de nouveaux médicaments.
  • Développement de nouveaux matériaux.

Quelques exemples

  • Huit propriétés différentes ont été mesurées sur un produit dans le cadre d’un contrôle de la qualité avant livraison. Vous possédez un tableau de ces huit valeurs mesurées sur 114 échantillons du produit fabriqués l’année dernière.
    • Y-a-t-il des tendances ?
    • Les huit propriétés sont-elles liées et si oui comment ?
    • Y-a-t-il eu une différence lorsque le nouveau procédé de production a été mis en place il y a six mois ?
    • Y-a-t-il une relation entre la qualité du produit et les valeurs des seize variables du procédé ? Le procédé est-il améliorable?
    • Avons-nous une mesure des huit propriétés qui peut nous garantir la fabrication d’un bon produit ?
  • Les concentrations de 18 composés chimiques ont été mesurées deux fois par jour à sept emplacements dans une usine (ou une ville, ou une région, ou le long d’une rivière) pendant une période de trois ans.
    • Comment obtenir un résumé de ces informations ?
    • Y-a-t-il des tendances ?
    • Est-ce que certaines concentrations chimiques varient ensemble ?
    • Y-a-t-il des liens avec le temps, le jour de la semaine, etc.?
  • Trente cinq concentrations d’éléments ont été mesurées dans 300 échantillons de sols, la moitié a été collectée près de zones contenant du pétrole, l’autre moitié près de zones ne contenant pas de pétrole.
    • Y-a-t-il des informations dans les données permettant de déterminer la probabilité de trouver du pétrole ?
    • Y-a-t-il des mesures non nécessaires ?
    • Quelles sont les prévisions — ‘présence de pétrole’ ou ‘pas de pétrole’ — pour les 46 échantillons additionnels qui ont été collectés dans une zone prometteuse X14 ? Quelle est la certitude de ces prévisions ?
  • Cinquante-six composés chimiques ont été synthétisés et leurs activités biologiques lors de six tests pharmaceutiques ont été mesurées pour évaluer l’éventuelle qualité médicamenteuse pour le traitement d’une certaine maladie. Alternativement, cinquante-six polymères ou cinquante-six matériaux ont été fabriqués et testés en dureté, durabilité, etc.
    • Est-il possible d’utiliser cette relation pour fabriquer des composés (ou des polymères, ou des matériaux) possédant des propriétés désirées ?

Analyse multivariée des données

L’analyse multivariée des données vous aide à répondre à toutes les questions ci-dessus. Ces questions peuvent concerner:

  • L’obtention d’un résumé, d’une vue d’ensemble d’un tableau. Cette analyse est souvent appelée analyse en composantes principales ou analyse factorielle. Dans ce résumé, affiché sous la forme de deux graphiques, sont montrées les formes dominantes dans les données, telles que les groupes, les points extrêmes, les tendances, etc.
  • L’analyse de groupes dans le tableau, comment ces groupes diffèrent, et à quels groupes les lignes de données appartiennent. Cela a été donné comme exemple ci-dessus avec les deux groupes ‘présence de pétrole’ et ‘pas de pétrole’. Ces analyses sont appelées classification et analyse discriminante.
  • La mise en évidence de relations entre des colonnes du tableau, par exemple les relations entre les conditions d’opération du procédé et la qualité du produit fabriqué. L’objectif est souvent d’utiliser un ensemble de variables (colonnes) pour prévoir un autre ensemble de variables, dans le but de l’optimisation, et pour savoir quelles colonnes sont importantes dans la relation. L’analyse correspondante est appelée régression multiple ou régression par les moindres carrés partiels ou projections par les moindres carrés sur les structures latentes (PLS), en fonction de la taille du tableau des données.

Pourquoi l’analyse multivariée des données est-elle efficace ?

Ces méthodes sont efficaces pour tout tableau possédant au moins 5 lignes et 3 colonnes.

Il n’y a pas de contrainte sur la forme du tableau; il peut avoir beaucoup de lignes et peu de colonnes, ou beaucoup de colonnes et peu de lignes. Cet aspect est important car souvent on mesure beaucoup de paramètres sur un petit ensemble d’observations, par exemple 156 pics chromatographiques sur 23 échantillons.

Il peut y avoir des « trous », des données manquantes dans le tableau des données. Mais bien entendu, plus il y a de trous, moins il y a d’informations disponibles dans le tableau.