Passer au contenu principal
Entre moyenne et médiane, mon cœur balance - actualités
Actualités
Entre moyenne et médiane, mon cœur balance - jens-lelie-15662-unsplash

Entre moyenne et médiane, mon cœur balance

écrit par : Loup-Pascal

Catégories : En bref,

La moyenne.  Ce terme devrait vous être vaguement familier. Si vous avez quelque sombre et lointain souvenir de vos cours de statistiques, c’est certainement le premier concept qui vous revient à l’esprit. Peut-être l’utilisez-vous toujours aujourd’hui au travail, lors de vos rapports ou présentations, peut-être l’avez-vous lu ce matin dans un quelconque article de presse et peut-être même appréciez-vous user de ce concept qui semble facilement maîtrisable?  Peut-être. Cependant, on peut se demander si cet outil statistique est toujours utilisé à bon escient. Est-il toujours pertinent et irremplaçable? J’espère que ces quelques lignes vous prouveront le contraire.

Dans un premier temps, il est nécessaire de rappeler l’utilité de la moyenne. Son but ultime est de résumer une série de nombres. Si cette série contient un nombre ‘petit’, selon le contexte, de données, utiliser la moyenne est superflu car on a facilement une vue simultanée sur l’ensemble des données. Cependant, prenons l’exemple d’une série contenant une centaine d’observations seulement, représentant des âges. Expliciter chacune de ces données me prendrait beaucoup trop de lignes, alors que vous en donner la moyenne vous permettra directement de deviner si l’on parle plutôt d’enfants ou de personnes à la retraite. Cette valeur résumera grossièrement toutes les données et indiquera la tendance globale de la série, elle permettra d’approximer le ‘milieu’ de la série.

Comment calcule-t-on une moyenne? Bonne question, car la plupart des formules mathématiques usuelles étant pré-encodées dans nos ordinateurs, on ne se soucie plus assez de leur définition. Et sans définition formelle, difficile d’en interpréter le sens… Pour obtenir la moyenne d’une série de nombres, il s’agit de sommer toutes ces quantités et de diviser cette somme par le nombre d’observations. Assez simple, n’est-ce pas? Cependant, là réside le hic: ce sont les valeurs des observations qui comptent dans ce calcul. Rappelons que le but de la moyenne est de donner une idée générale de la série! Rien de mieux qu’un exemple basique pour illustrer le problème.

Considérons 10 personnes exerçant la même profession que vous avec le même profil. C’est le genre de situations dont la presse raffole, agrémentée de graphiques tape-à-l’œil cherchant à vous convaincre de telle ou telle théorie. Supposons donc que vous et 4 autres personnes gagnez 1999€, que 4 autres gagnent 2001 tandis qu’une dernière en gagne 6000. Vous conviendrez comme moi que le salaire faramineux de la dernière personne de notre série semble faire tâche parmi les autres. Il ne « ressemble » vraiment pas aux autres: c’est ce qu’on appelle une observation aberrante. Quelle qu’en soit la raison (erreur parmi les données, situation exceptionnelle ou même montant correct) , nous sommes tous d’accord que ce n’est toutefois pas la donnée qui représente le mieux le salaire de votre profession. Si vous deviez, avec un seul nombre, résumer ces salaires, vous diriez comme moi: 2000€. Et pourtant, si on applique notre formule de la moyenne pour cette série, on obtient… 2399,9!

En effet,  (1999+1999+1999+1999+1999+2001+2001+2001+2001+6000) / 10 = 2399,9

La plupart des calculs de moyenne pour des séries possédant des valeurs aberrantes donneront des valeurs similairement trompeuses. Vous seriez en effet enclin à penser que vous gagnez beaucoup trop peu à la lecture de ce résultat. Vous ne possédez en effet que deux informations: vous gagnez 1999€ tandis que la moyenne est à 2399. C’est donc bien trop peu, et vous allez de ce pas réclamer une augmentation! Certes, le calcul est correct, mais non pertinent. La valeur 6000 « entraîne » la valeur de la moyenne vers le haut. Cette propriété s’appelle la robustesse. Or, il se fait que la moyenne n’est pas du tout robuste. Quel que soit le nombre d’observations, il suffit qu’une seule donnée soit « très grande » ou « très petite » et la moyenne sera plus ou moins fortement affectée… Sommes-nous donc dans une impasse? Que nenni! 😊

La solution toute désignée est d’utiliser un autre concept, une autre formule, pour résumer la série: la Médiane. Tout comme la moyenne, son rôle est d’approximer le « milieu » de la série. A contrario, ce ne sont plus les valeurs des observations qui importent, mais bien leur « position ». Quelle qu’en soit la valeur, aucune observation ne « pèsera » plus qu’une autre dans le calcul. On peut définir la médiane d’une série comme la valeur qui la sépare en deux plus petites séries ayant le même nombre d’observations. Il y a donc (au moins) 50% de valeurs plus grandes et (au moins) 50% de valeurs plus petites. Pour reprendre notre exemple des salaires, la médiane serait… 2000! En effet, comme il y a 10 observations, il faut les ordonner par ordre croissant et les séparer en deux « paquets » de 5 observations. L’intervalle entre la 5ième et la 6ième valeur est [1999, 2001] et est appelé l’intervalle médian. La médiane est définie comme le milieu de cet intervalle et vaut donc 2000.

Dans le cas où il y a un nombre impair de valeurs, la médiane est définie comme la valeur ‘du milieu’. Par exemple, s’il y avait 11 observations, la médiane serait la 6ième valeur ordonnée et il y aurait donc 6 observations plus petites ou égales à la médiane, et 6 observations plus grandes ou égales à celle-ci. Notons que la 6ième observation apparaît dans les deux camps (si on est égal à une valeur, on est également plus grand ou égal à cette valeur, et également plus petit ou égal à cette valeur… Oui, c’est spécial, mais c’est ainsi… 😊)

Pour terminer, remarquons que même si le salaire aberrant avait été de 16 000€, la médiane n’aurait pas bougé d’un iota, tandis que la moyenne aurait fait un bond jusqu’à 3399,9 ! La médiane est donc bien plus robuste que la moyenne et donc, dans bien des cas, plus pertinente car plus représentative de la réalité.

En conclusion, cet exemple démontre que le choix d’une approche appropriée est une étape fondamentale du raisonnement. C’est le premier point auquel s’attaquent les experts en Data Science d’Ingestic, afin d’extraire les informations les plus pertinentes de vos données.

Pour aller plus loin, les concepts de « quartiles », « quantiles », « boîte à moustaches » ou « boxplot » peuvent aussi apporter des informations fort intéressantes. De plus, certaines démonstrations fournissent également des résultats utiles sur la relation entre moyenne et médiane sur des distributions types… mais cela pourra être développé dans un prochain article!

 

J'accepteJe refuse C'est quoi un cookie ? Fermer

Vos préférences de cookie ont bien été modifiées

error: