Rechercher
Fermer ce champ de recherche.

Le diagramme en boîte expliqué : Interprétation, exemples et comparaison

4 minutes de lecture

Sommaire

En statistiques descriptives, un diagramme en boîte ou boxplot (également connu sous le nom de diagramme en boîte et de diagramme à moustaches) est un type de graphique souvent utilisé dans l’analyse de données explicatives. Les diagrammes en boîte montrent visuellement la distribution des données numériques et l’asymétrie en affichant les quartiles (ou percentiles) et les moyennes des données.

Les diagrammes en boîte montrent le résumé en cinq nombres d’un ensemble de données : le score minimum, le premier quartile (inférieur), la médiane, le troisième quartile (supérieur) et le score maximum.

Apprenez des meilleurs mentors

Définitions

Score minimum

Le score le plus bas, à l’exclusion des valeurs aberrantes (indiquées à l’extrémité de la moustache gauche).

Quartile inférieur

Vingt-cinq pour cent des scores sont inférieurs à la valeur du quartile inférieur (également appelé premier quartile).

Médiane

La médiane marque le point médian des données et est représentée par la ligne qui divise la boîte en deux parties (parfois appelée deuxième quartile). La moitié des scores est supérieure ou égale à cette valeur, et l’autre moitié est inférieure.

Quartile supérieur

Soixante-quinze pour cent des scores se situent en dessous de la valeur du quartile supérieur (également appelé troisième quartile). Ainsi, 25 % des données sont supérieures à cette valeur.

Score maximal

Le score le plus élevé, à l’exclusion des valeurs aberrantes (indiquées à l’extrémité de la moustache de droite).

Moustaches

Les moustaches supérieures et inférieures représentent les scores en dehors des 50% du milieu (c’est-à-dire, l’intervalle interquartile (ou IQR)

Le diagramme en boîte montre la moitié moyenne des scores (c’est-à-dire l’intervalle entre le 25e et le 75e rang), l’intervalle entre le 25e et le 75e percentile).

Excellent
4.8 out of 5
Programme confiance en soi : formation éligible au CPF. Coaching individuel et collectif.

Pourquoi les diagrammes en boîte sont-ils utiles ?

Les diagrammes en boîte divisent les données en sections contenant environ 25 % des données de cet ensemble.

Box Plot Quartiles

Les diagrammes en boîte sont utiles car ils fournissent un résumé visuel des données permettant aux chercheurs d’identifier rapidement les valeurs moyennes, la dispersion de l’ensemble de données et les signes d’asymétrie.

Notez que l’image ci-dessus représente des données qui sont une distribution normale parfaite et que la plupart des diagrammes en boîte ne se conforment pas à cette symétrie (où chaque quartile est de la même longueur).

Les diagrammes en boîte sont utiles car ils montrent le score moyen d’un ensemble de données

La médiane est la valeur moyenne d’un ensemble de données et est représentée par la ligne qui divise la boîte en deux parties. La moitié des résultats est supérieure ou égale à cette valeur, et l’autre moitié est inférieure.

Les diagrammes en boîte sont utiles car ils montrent l’asymétrie d’un ensemble de données

La forme du diagramme en boîte montre si un ensemble de données statistiques est normalement distribué ou asymétrique.

Box Plots Showing Skewness of a Data Set

Lorsque la médiane se trouve au milieu de la boîte et que les moustaches sont à peu près les mêmes des deux côtés de la boîte, la distribution est symétrique.

Lorsque la médiane est plus proche du bas de la boîte et que la moustache est plus courte à l’extrémité inférieure de la boîte, la distribution est positivement asymétrique (à droite).

Lorsque la médiane est plus proche du haut de la boîte et que la moustache est plus courte à l’extrémité supérieure de la boîte, la distribution est négativement asymétrique (à gauche).

Les diagrammes en boîte sont utiles car ils montrent la dispersion d’un ensemble de données

En statistique, la dispersion (également appelée variabilité, dispersion ou étalement) est la mesure dans laquelle une distribution est étirée ou comprimée.

Les valeurs les plus petites et les plus grandes se trouvent à l’extrémité des « moustaches » et sont utiles pour fournir un indicateur visuel de la dispersion des résultats (par exemple, l’étendue), l’intervalle).

box plot showing the interquartile range

L’intervalle interquartile (IQR) est le diagramme en boîte montrant la moitié centrale des scores et peut être calculé en soustrayant le quartile inférieur du quartile supérieur (par exemple, Q3-Q1).

Les diagrammes en boîte sont utiles car ils montrent les valeurs aberrantes au sein d’un ensemble de données

Une valeur aberrante est une observation qui est numériquement éloignée du reste des données.

Lors de l’examen d’un diagramme en boîte, une valeur aberrante est définie comme un point de données situé en dehors des moustaches du diagramme en boîte.

box plot outliers

Source : https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51

Par exemple, en dehors de 1.5 fois l’écart interquartile au-dessus du quartile supérieur et au-dessous du quartile inférieur (Q1 – 1,5 * IQR ou Q3 + 1,5 * IQR).

Comment comparer les diagrammes en boîte

Les diagrammes en boîte sont un moyen utile de visualiser les différences entre différents échantillons ou groupes. Ils permettent de fournir de nombreuses informations statistiques, notamment les médianes, les intervalles et les valeurs aberrantes.

Note : bien que les diagrammes en boîte aient été présentés horizontalement dans cet article, il est plus courant de les visualiser verticalement dans les documents de recherche

Étape 1 : Comparer les médianes des diagrammes en boîte

Comparer les médianes respectives de chaque diagramme en boîte. Si la ligne médiane d’un diagramme en boîte se situe en dehors de la boîte d’un diagramme en boîte de comparaison, il est probable qu’il y ait une différence entre les deux groupes.

compare box plot medians

Source : https://blog.bioturing.com/2018/05/22/how-to-compare-box-plots/

Étape 2 : Comparer les intervalles interquartiles et les moustaches des diagrammes en boîte

Comparer les intervalles interquartiles (c’est-à-dire les longueurs des boîtes) pour examiner la façon dont les données sont dispersées entre chaque échantillon. Plus la boîte est longue, plus les données sont dispersées. Plus elle est petite, moins les données sont dispersées.

compare box plot range and IQR

Par la suite, regardez l’étendue globale, comme le montrent les valeurs extrêmes à l’extrémité de deux moustaches. Cela montre l’étendue des résultats (un autre type de dispersion). Des fourchettes plus grandes indiquent une distribution plus large, c’est-à-dire des données plus dispersées.

Étape 3 : Recherchez les valeurs aberrantes potentielles (voir l’image ci-dessus)

Lors de l’examen d’un diagramme en boîte, une valeur aberrante est définie comme un point de données situé à l’extérieur des moustaches du diagramme en boîte.

Étape 4 : Recherchez des signes d’asymétrie

Si les données ne semblent pas symétriques, chaque échantillon présente-t-il le même type d’asymétrie ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *