Analyse de données : notions de base

Avant toute analyse de données, il y a 5 principes à respecter :

Méfiance : d’où proviennent les données ? Sont-elles fiables ?
Population : Quels sont les individus étudiés
Stabilité : La population est-elle toujours la même ?
Homogénéité : tous les individus étudiés appartiennent-ils à la même population ?
quel est le problème ?

Pour analyser des informations, on va chercher à procéder selon un état d’esprit, des attitudes et comportements. Cela passe par :

la description : répétition, valeurs centrales, dispersion des données, …
l’analyse : modélisation, généralisation
l’extrapolation : prévision

L’analyse de données comprend les activités suivantes :

Synthèse (description)
Analyse (modélisation)
Divergence
Communication
Extrapolation
Suivi

Notion de population

Définition

On appelle population un ensemble d’éléments caractérisés par un critère permettant de les identifier sans ambiguïté.

Exemple :

	Quantités vendues
Janvier	7
Février	10
Mars	6

Ici la population statistique est le mois.

Population continue

Une population est dite continue lorsqu’un individu peut prendre toutes les valeurs d’un intervalle : poids, revenu, longueur, âge, temps, etc.

On qualifie de continu tout ce qui est fractionnable.

Population discontinue

Une population est dite discontinue ou discrète lorsqu’un individu ne peut prendre que des valeurs isolées : nombre d’enfants dans une famille, classe d’âges, etc.

On qualifie de discontinu ce qui n’est pas fractionnable.

Dispersion

La dispersion est la répartition des individus d’une population autour des valeurs centrales. On peut visualiser cette répartition en réalisant un graphique.

Principales valeurs centrales

Les valeurs centrales ont pour but de nous aider à choisir la modélisation qui convient à l’analyse d’un phénomène.

Pour cela il faut d’abord déterminer si la population est continue ou discontinue.

Moyenne

La moyenne, aussi nommée moyenne arithmétique, correspond à la somme des individus divisée par la population totale.

Pour avoir une idée de la moyenne, il suffit de connaître le mode et la mi-étendue.

Médiane

Valeur centrale dans une distribution de données. Elle se cherche sur les individus et non sur la valeur.
C’est à dire qu’il y a autant d’individus de valeur inférieure ou égale que d’individus d’une valeur supérieure ou égale à la valeur de l’individu médian.

On peut aussi définir la médiane comme étant la valeur de l’individu qui correspond au partage de la population en deux sous-ensembles de même effectif.

Quand la distribution est paire, la médiane est impossible à déterminer.

Étendue

L’étendue est la différence entre la plus grande et la plus petite valeur de la série.

Mi-étendue

La mi-étendue est égale à l’étendue divisée par deux à la quelle on ajoute la valeur minimale.

La mi-étendue permet d’avoir un repère pour reclasser les données.

Mode

Le mode est la localisation géographique de l’endroit où il y a le plus grand nombre d’individus semblables.

En d’autres termes, le mode est la valeur la plus fréquente dans les individus d’une population.

En général :

mode <= médiane <= moyenne <= mi-étendue

Mi-décile

La mi-décile est la localisation géographique du milieu de la distance interdécile.

C’est l’équivalent de la mi-étendue, après avoir supprimé les 10% d’individus avec la plus faible valeur ainsi que les 10% d’individus avec la plus forte valeur.

Mi-quartile

La mi-quartile est la localisation géographique du milieu de la distance interquartile.

C’est l’équivalent de la mi-étendue, après avoir supprimé les 25% d’individus avec la plus faible valeur ainsi que les 25% d’individus avec la plus forte valeur.

Écart-type

L’écart-type est la valeur permettant d’évaluer la distance entre un certain nombre de valeurs et la moyenne.

Dans toute population stable et homogène, la valeur de l’écart-type est proche de l’étendue divisée par 6.

Autres valeurs centrales

Selon le type de population concernée par l’analyse de données à effectuer, il peut être utile de s’appuyer sur les valeurs centrales suivantes.

Moyenne harmonique

On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des domaines ou il existe des liens de proportionnalité inverse.

La moyenne harmonique de N valeurs est le nombre dont l’inverse est la moyenne arithmétique des inverses desdites valeurs.

moyenne harmonique = nombre de valeurs / ( 1/valeur a + 1/valeur b + … + 1/valeur n)

Exemple :

Un voyageur roule à 40 km/h à l’aller et à 20 km/h au retour.
Nombre de valeurs = 2 trajets

moyenne harmonique = 2 / (1/40 + 1/20)
moyenne harmonique = 2 / (0,025 + 0,05)
moyenne harmonique = 2 / 0,075
moyenne harmonique = 26,67 km/h

Moyenne géométrique

La moyenne géométrique sert à calculer le taux moyen d’augmentation annuel, semestriel, mensuel, etc …

Soit n le nombre de valeurs,
Exemple :

Le chiffre d’affaires d’une société en 2018 est de 100 K€. En 2020, il est de 200 K€.

Ici le nombre de valeurs est le nombre d’années, soit 2.

L’augmentation moyenne annuelle est donc de 41 %.

Moyenne quadratique

La moyenne quadratique est utilisée dans le cadre du calcul de périmètres et d’aires.
D’une manière générale, elle est surtout utilisée lorsqu’on raisonne sur des carrés.

La moyenne quadratique est la racine carrée de la somme des carrés divisée par la quantité de données.

La moyenne quadratique d’un ensemble de nombres est la racine carrée de la moyenne arithmétique des carrés de ces nombres.Par exemple, l’écart type dans une population est la moyenne quadratique des distances à la moyenne.

Introduction aux modèles statistiques

Les principaux modèles statistiques détectés par LAPLACE et GAUSS, POISSON et BERNOULLI ont des caractéristiques particulières et facilitent l’analyse de données par la modélisation des populations.

Le modèle normal

Il s’agit du modèle de LAPLACE et GAUSS.

Il peut s’utiliser dans le cas :

d’une population continue
d’une population discontinue, à incrémentation par 1 avec une moyenne supérieure à 9

Le modèle normal est le modèle plus fréquent. On le retrouve dans 70% des cas.

Il est caractérisé par le fait que mode, médiane, moyenne et mi-étendue sont confondus.

On constate également que :

65% de la population est comprise entre la moyenne et +/- 1 écart-type
90% de la population est comprise entre la moyenne et +/- 2 écarts-types
99% de la population est comprise entre la moyenne et +/- 3 écarts-types

Le modèle normal peut s’utiliser pour évaluer, par exemple, le pourcentage de chances de réaliser un chiffre d’affaires maximum sur les ventes d’un produit ou encore d’estimer la durée de vie d’un produit.

Le modèle de Poisson

Il s’agit du modèle détecté par Denis POISSON.

Ce modèle s’utilise dans le cas d’une population discontinue, à incrémentation, avec 0 possible et une moyenne inférieure à 9.

Le modèle de Poisson représente 10% des cas.

La table de poisson permet de définir le pourcentage de chances, qu’au minimum ou au maximum, un événement soit constaté.

Il peut, par exemple, permettre d’évaluer le nombre de jours par an où un service d’expéditions n’arrivera pas à traiter toutes les commandes du jour.

Le modèle binomial

Il s’agit du modèle détecté par Jacques et Jean BERNOULLI.

Le modèle binomial décrit la modélisation d’une variable qualitative à deux modalités (1 ou 0, vrai ou faux, succès ou échec).

Lorsque le nombre d’expériences est supérieur à 20 il convient d’utiliser la table normale ou de Poisson suivant les conditions définies précédemment.

Ce modèle permet par exemple d’évaluer la probabilité que, sur 100 pièces, il y en ait 80 de bonnes.

Autres notions à connaître

Coefficient de corrélation

Le coefficient de corrélation « R » a une valeur comprise entre -1 et +1. On parle ici de corrélation linéaire entre variables quantitatives.
Il décrit le lien de cause à effet entre un phénomène et un résultat avec quatre cas de figure possibles :

Quand le phénomène augmente et que le résultat diminue, alors R est proche de -1.
Ex : quand on augmente la quantité de pastis dans un verre, la quantité d’eau ajoutée diminue
Quand le phénomène augment et que le résultat augmente aussi, alors R est proche de +1.
Ex : quand les températures augmentent, les ventes de glaces augmentent aussi.
Quand le phénomène diminue et que le résultat augmente, alors R est proche de -1.
Quand le phénomène diminue et que le résultat diminue aussi, alors R est proche de +1.

Ainsi, quand le résultat suit la même tendance que le phénomène, R est proche de +1.

On considère généralement que si la valeur absolue de R est supérieure à 0,95, il y a une liaison forte entre le phénomène et le résultat.

Attention, un coefficient de corrélation élevé peut laisser penser à une relation de causalité entre le phénomène et le résultat. En réalité, le phénomène et le résultat peuvent être corrélés à un même phénomène-source : une troisième variable non mesurée, et dont dépendent les deux autres.
Ex: Le nombre de ruptures des ligaments croisés antérieurs observés dans une station de ski, par exemple, peut être fortement corrélé au nombre de forfaits vendus pour l’accès aux remontées mécaniques ; mais aucun des deux n’est probablement la cause de l’autre.

Phénomène de combinaison

Combinaison additive

Lorsque l’on veut étudier deux phénomènes A et B qui se cumulent, il est nécessaire de les combiner pour étudier la population dans son ensemble.

Ici la moyenne se calcule comme suit :

m = m_A+ m_B

Dans ce cas, l’écart-type des deux phénomènes combinés se calcule selon la formule :

σ² = σ_A² + σ_B² + 2Rσ_Aσ_Boù R est le coefficient de corrélation

Ex : un restaurateur veut évaluer l’écart-type du poids du plat « viande-frite ».
Il a prévu dans sa recette : 200g de viande en moyenne à plus ou moins 20g et 100g de frites en moyenne à plus ou moins 10g.
On part du principe qu’il n’y a pas de lien entre le poids de viande et le poids de frite dans l’assiette.

On considère donc :
V = 200g σ_V=20g
F = 100g σ_F=10g

Moyenne de la portion = 100 + 200 = 300 g

Ecart-type de la portion :
σ² = 20² + 10²
σ² = 400 + 100
σ² = 500

On peut en déduire que l’écart type du poids de l’assiette σ = 22,36g.

Combinaison multiplicative

Lorsque l’on veut étudier deux phénomènes A et B agissant l’un sur l’autre de manière multiplicative, il est également nécessaire de les combiner pour les étudier.

Ici la moyenne se calcule comme suit :

m = m_Ax m_B

Dans ce cas, l’écart-type des deux phénomènes combinés se calcule selon la formule :

σ² = (σ_A²+ m_A²) x (σ_B² + m_B²) – (m_Ax m_B)²

Ex : un installateur d’ascenseur veut calculer le poids maximal que doit pouvoir supporter une installation pouvant accueil 7 habitants en moyenne, à plus ou moins 1 habitant.

On constate que la population a un poids moyen de 75 Kg, à plus ou moins 10 Kg.

On considère donc :
H = 7 σ_H=1
P = 75 Kg σ_P=10 Kg

Charge moyenne = 7 + 75 = 525 Kg

Ecart-type de la portion :
σ² = (1²+7²) x (10²+75²)-(7×75)²
σ² = (1 + 49) x (100 + 5 625) – 525²
σ² = 50 x 5 725 – 275 625
σ² = 286 250 – 275 625
σ² = 10 625

On peut en déduire que l’écart-type est de 103,08 Kg.

Ainsi, la charge utile est estimée à 525 Kg à plus ou moins 103,08 Kg.
Pour des questions de sécurité, en considérant que 99% de la population est entre la moyenne et + ou – 3 écarts-types, l’installation doit pouvoir supporter une charge de 525 + 3 x 103,08 = 834,24 Kg.

Selon le contexte, particulièrement lorsqu’il y a des risques pour le personnel ou la clientèle, le seuil de tolérance peut être fixé à plus de 3 écarts-types. C’est notamment le cas dans le domaine des transports : 20 écarts-types pour la SNCF ou encore 50 écarts-types pour Airbus.

En conclusion

L’analyse de données s’appuie sur le calcul des valeurs centrales telles que la moyenne et la médiane qui permettent de confirmer la correspondance au modèle statistique.

Lorsque les informations sur la population ne sont pas fiables ou lorsque la population n’est pas totalement homogène, il est préférable de supprimer les valeurs extrêmes pour étudier la distribution des individus.

Les trois principaux modèles statistiques peuvent être utiles à une entreprise pour sa gestion des stocks, des commandes ou encore pour évaluer la qualité de sa production.

On veillera à combiner les populations lorsqu’on étudie la variation de deux phénomènes, en tenant compte de leur corrélation.