site de Fabien Torre, université de Lille


Pense-bêtes en Statistiques

Des éléments de base en statistiques et des procédures de test.

Des carrés dans la formule de l'écart-type ?

J'ai toujours trouvé bizarre la formule de l'écart-type : pourquoi utiliser les carrés des observations $x_i$ ? L'âge du capitaine au carré, ça n'a pas sens. Du coup, on est obligé ensuite de prendre la racine carrée pour retrouver un résultat qui respecte l'unité des observations.

\begin{displaymath}
\sqrt{\frac{\sum_{i=1}^{n} (x_{i}-\overline{x})^{2}}{n}}
\end{displaymath}

On pourrait utiliser l'écart absolu moyen :

\begin{displaymath}
\frac{\sum_{i=1}^{n} \vert x_{i}-\overline{x} \vert}{n}
\end{displaymath}

Il faut revenir à la base : nous avons un ensemble d'observations $\chi = \{ x_{i} \}_{i=1 \dots n}$ et nous voulons déterminer pour cet ensemble une valeur centrale $c(\chi)$ et une dispersion $d(\chi)$ autour de cette valeur centrale.

Supposons la dispersion calculée par la formule :

\begin{displaymath}
d(\chi) = \sqrt{\frac{\sum_{i=1}^{n} (x_{i}-c(\chi))^{2}}{n}}
\end{displaymath}

Assez logiquement, on voudrait que, pour des $x_{i}$ fixés, le choix de $c(\chi)$ minimise la dispersion $d(\chi)$. On cherche donc la valeur de $c(\chi)$ qui annule la dérivée de $d\chi)$ :

\begin{displaymath}
d(\chi) = \sqrt{\frac{1}{n} \times \sum_{i=1}^{n} \left( x_{i}^{2} -2 \times x_{i} \times c(\chi) + c(\chi)^{2} \right) }
\end{displaymath}

donc

\begin{displaymath}
\begin{array}{ll}
\frac{\delta d(\chi)}{\delta c(\chi)} = 0 ...
...ow 2 \times c(\chi) - 2 \times \overline{x} = 0 \\
\end{array}\end{displaymath}

et par conséquent :

\begin{displaymath}
\frac{\delta d(\chi)}{\delta c(\chi)} = 0 \Rightarrow c(\chi) = \overline{x}
\end{displaymath}

Ainsi, c'est le choix de l'écart-type comme mesure de dispersion qui amène à choisir la moyenne comme valeur centrale.

Menons le même raisonnement avec comme mesure de dispersion :

\begin{displaymath}
d(\chi) = \frac{\sum_{i=1}^{n} \vert x_{i}-c(\chi) \vert}{n}...
...)} (x_{i}-c(\chi)) + \sum_{i: x_{i}<c(\chi)} (c(\chi)-x_{i}) )
\end{displaymath}
\begin{displaymath}
\frac{\delta d(\chi)}{\delta c(\chi)}
= \frac{1}{n} \times \...
...{i: x_{i}>c(\chi)} (+1) + \sum_{i: x_{i}<c(\chi)} (-1) \right)
\end{displaymath}

Pour annuler cette dérivée, il faut choisir la valeur centrale $c(\chi)$ de telle manière que exactement la moitié des $x_{i}$ lui soient supérieurs et les autres inférieurs. C'est la définition de la médiane.

En conclusion, plus que sur la mesure de dispersion elle-même, le choix porte sur un couple (valeur centrale,mesure de dispersion) : (moyenne,écart-type) ou (médiane,écart-absolu-moyen).

Calculer la moyenne et l'écart-type en même temps

La formule classique de la variance oblige à disposer de la moyenne. Il est cependant possible de calculer les deux en même temps : il suffit de faire simultanément la somme des valeurs observées et la somme de leurs carrés.

    s  = 0;
    s2 = 0;

    for i=1 to n do begin
	s  = s  + x[i];
	s2 = s2 + x[i]*x[i];
    end;

    moyenne  = s/n;
    variance = s2/n - moyenne*moyenne;
    ecart    = racine(variance);

La démonstration est laissée au lecteur (c'est facile !).

Corrélation des rangs entre deux ordres

Nous présentons deux méthodes classiques pour déterminer la corrélation des rangs entre deux ordres :

  • le coefficient de corrélation des rangs de Spearman ;
  • le coefficient de corrélation des rangs de M. G. Kendall.

Les brèves descriptions qui suivent sont tirées de

Probabilités, Analyse de Données et Statistique,
G. Saporta,
Chapitre 7, pages 141 à 145.

Une implémentation commode est fournie avec le langage R.

Précisons immédiatement que ces deux coefficients varient entre -1 (les deux classements sont inversés l'un par rapport à l'autre) et 1 (les classements sont identiques), en passant par 0 (les classements sont indépendants).

Dans la suite, on considère $n$ objets $\{ o_{1}, \ldots, o_{n}\}$ pour lesquels on dispose de deux classements $C_{1}$ et $C_{2}$. On notera $C_{1}[o_{i}]$ et $C_{2}[o_{i}]$ les positions de l'objet $o_{i}$ dans les deux classements.

Le coefficient de corrélation des rangs de Spearman

Ici, on compare pour chaque objet ses rangs dans les deux classements :

\begin{displaymath}
c_{s} = 1 - \frac{6 \times \sum_{i=1}^{n} \left( C_{1}[o_{i}] - C_{2}[o_{i}] \right)^{2}}{n \times (n^{2} - 1)}
\end{displaymath}

Pour savoir si la valeur trouvée est significative, on se reporte à la table du coefficient de Spearman.

Le coefficient de corrélation des rangs de M. G. Kendall

Cette fois, on compte le nombre de couples $(o_{i},o_{j})$ pour lesquels les deux classements s'accordent sur le fait que $o_{i}$ est avant $o_{j}$. Soit $R$ ce nombre.

\begin{displaymath}
c_{k} = \frac{4 \times R}{n \times (n-1)} - 1
\end{displaymath}

Pour savoir si la valeur trouvée est significative, on utilise que la distribution de $c_{k}$ est approximable par une loi de Laplace-Gauss (approximation satisfaisante dès que $n \geq 8$) :

\begin{displaymath}
c_{k} \sim LG\left( \sqrt{\frac{2(2n+5)}{9n(n-1)}} \right)
\end{displaymath}

Corrélation entre deux comportements

Fabien Torre Valid HTML5! Valid CSS!
Accueil > Pense-bêtes > Technique > Statistiques
(contenu mis à jour )
site de Fabien Torre, université de Lille

Description

Survoler un lien de navigation pour lire sa description ici...