Coefficient de détermination

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Le fond de cet article de mathématiques est à vérifier ().

Améliorez-le ou discutez des points à vérifier. Si vous venez d’apposer le bandeau, merci d’indiquer ici les points à vérifier.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article concernant les mathématiques doit être recyclé ().

Une réorganisation et une clarification du contenu paraissent nécessaires. Améliorez-le, discutez des points à améliorer ou précisez les sections à recycler en utilisant {{section à recycler}}.

Illustration du coefficient de détermination pour une régression linéaire. Le coefficient de détermination est égal à 1 moins le rapport entre la surface des carrés bleus et la surface des carrés rouges.

En statistique, le coefficient de détermination linéaire de Pearson, noté R2 ou r2, est une mesure de la qualité de la prédiction d'une régression linéaire.

Il est défini par[réf. nécessaire] :

R 2 = 1 i = 1 n ( y i y i ^ ) 2 i = 1 n ( y i y ¯ ) 2 {\displaystyle R^{2}=1-{\dfrac {\sum _{i=1}^{n}\left(y_{i}-{\hat {y_{i}}}\right)^{2}}{\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)^{2}}}}

n est le nombre de mesures, y i {\displaystyle y_{i}} la valeur de la mesure no i, y i ^ {\displaystyle {\hat {y_{i}}}} la valeur prédite correspondante et y ¯ {\displaystyle {\bar {y}}} la moyenne des mesures.

Cas de la régression linéaire univariée par la méthode des moindres carrés

Dans le cas d'une régression linéaire univariée (une seule variable prédictive) par la méthode des moindres carrés, on montre que la variance (totale) SST est la somme de la variance expliquée par la régression SSE et de la moyenne des carrés des résidus SSR, de sorte que :

S S E S S T = S S T S S R S S T = i = 1 n ( y i ^ y ¯ ) 2 i = 1 n ( y i y ¯ ) 2 = 1 i = 1 n ( y i y i ^ ) 2 i = 1 n ( y i y ¯ ) 2 = R 2 {\displaystyle {\dfrac {\mathrm {SSE} }{\mathrm {SST} }}={\dfrac {\mathrm {SST} -\mathrm {SSR} }{\mathrm {SST} }}={\dfrac {\sum _{i=1}^{n}({\hat {y_{i}}}-{\bar {y}})^{2}}{\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}=1-{\dfrac {\sum _{i=1}^{n}(y_{i}-{\hat {y_{i}}})^{2}}{\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}=R^{2}}

c'est-à-dire que le coefficient de détermination est alors le rapport de la variance expliquée par la régression SSE sur la variance totale SST[1].

Le coefficient de détermination est le carré du coefficient de corrélation linéaire R entre les valeurs prédites y i ^ {\displaystyle {\hat {y_{i}}}} et les mesures y i {\displaystyle y_{i}}  :

R 2 = c o r r ( y ^ , y ) 2 {\displaystyle R^{2}=corr({\hat {y}},y)^{2}}

Dans le cas univarié, on montre que c'est aussi le carré du coefficient de corrélation entre les valeurs x i {\displaystyle x_{i}} de la variable prédictive et les mesures y i {\displaystyle y_{i}} . C'est une conséquence immédiate de la relation : i = 1 n ( y i ^ y i ) 2 = ( 1 R 2 ) i = 1 n ( y i ^ y ¯ ) 2 {\displaystyle \sum _{i=1}^{n}({\hat {y_{i}}}-y_{i})^{2}=(1-R^{2})\sum _{i=1}^{n}({\hat {y_{i}}}-{\bar {y}})^{2}} démontrée ici et ici.

La propriété précédente permet de voir le coefficient de détermination comme une généralisation du coefficient de corrélation au cas d'une régression linéaire multivariée.

Notes et références

  1. Université Paris Ouest Nanterre La Défense, PMP STA 21 Méthodes statistiques pour l'analyse des données en psychologie, «Chapitre 4 : Régression linéaire p. 7

Voir aussi

Bibliographie

  • Pierre Bailly et Christine Carrère, Statistiques descriptives : Théorie et applications, PUG, coll. « Libres cours économie », (lire en ligne), p. 165-167.

Articles connexes

  • Coefficient d'efficacité du modèle de Nash-Sutcliffe (en)

Liens externes

  • Un débat sur le thème "Coefficient de détermination et régression non linéaire"
  • icône décorative Portail des probabilités et de la statistique