CRITERES STATISTIQUES

LE COEFFICIENT DE CORRELATION CARRE (R²)

La plus courante façon d'apprécier la qualité d'une procédure de régression linéaire consiste à calculer son coefficient de corrélation carré R². Comprise entre 0 et 1, cette valeur indique la proportion de variation de la variable dépendante dont l'équation de régression rend compte.

Afin de calculer R² il faut procéder en plusieurs étapes (supposons que les Ycalc,i sont les valeurs obtenues via l'équation de régression et que les Yi sont les valeurs expérimentales correspondantes) :

Somme totale des carrés (Total Sum of Squares) :

TSS = S (Yi - Ymoy)²

Somme étendue des carrés (Explained Sum of Squares) :

ESS = S (Ycalc,i -Ymoy)²

Somme résiduelle des carrés (Residual Sum of Squares) :

RSS = S (Yi – Ycalc,i)²

(D'où TSS = ESS + RSS)

Ainsi on a enfin :

R² = ESS / TSS º (TSS - RSS) / TSS º 1 – RSS/TSS


LE COEFFICIENT DE VALIDATION CROISEE (Q²) & LA DEVIATION STANDARD DES ERREURS DE PREDICTION (SPRESS)

Les méthodes de validation croisée sont une façon de dépasser certains problèmes inhérents à l'utilisation de R² comme seul critère. La validation croisée implique le retrait de quelques valeurs du jeu de données, la synthèse d'un modèle QSAR utilisant les données restantes, puis l'application de ce modèle pour prédire les valeurs des structures écartées.

La forme la plus simple de validation croisée est l'approche Leave-One-Out (LOO), où seule une valeur est écartée. Répéter cette marche à suivre pour l'ensemble des valeurs du jeu de données successivement conduit à un R² validé par croisement, noté Q². Si R² est une mesure de la justesse de la corrélation, Q² est une mesure de la justesse de la prédiction.

La somme résiduelle prédictive des carrés (PRESS, Predictive Residual Sum of Squares) est comme Q² une mesure des capacités prédictives d'un modèle. Elle est analogue à RSS, mais plutôt que d'utiliser Ycalc,i calculé depuis le modèle, PRESS utilise les valeurs prédites Ypred,i pour les données non utilisées pour l'élaboration du modèle :

PRESS = º (Yi – Ypred,i)²
Q² = 1 – ( PRESS / TSS )

On peut également utiliser le paramètre SPRESS qui rend compte des variations d'erreur des prédictions.

SPRESS = [PRESS/(N–k–1)]^(1/2)

Où k est le nombre de variables (descripteurs) et N le nombre de molécules total du jeu.

L'ECART-TYPE (s)

L'écart-type, ou erreur standard de prédiction, est un paramètre statistique très couramment utilisé. Il indique avec quelle précision la fonction de régression prédit les valeurs.

s = [ RSS / ( N – k – 1 ) ]^(1/2)

où k est le nombre de variables indépendantes dans l'équation.

LE COEFFICIENT DE FISCHER (F)

Le critère de Fischer reflète le nombre de degrès de liberté associé à chaque paramètre :

F = [ ESS / ( s² * k ) ] = ( ESS / k ) * [ ( N – k – 1 ) / RSS]

La somme étendue des carrés ESS est associée à k degrés de liberté, et la somme résiduelle des carrés RSS avec (N – k – 1) degrés de liberté.

La valeur calculée de F est comparée avec les valeurs des tables statistiques, donnant F pour différents degrés de confiance. Si a valeur calculée est supérieure à la valeur tabulée, alors l'équation est dite significative pour ce niveau de confiance. De hautes valeurs de F correspondent à des niveaux de haute confiance – et pour un niveau de confiance donné, la valeur de F chute lorsque le nombre de variables indépendantes diminue et/ou lorsque le nombre de points (données initiales) augmente, ce qui corrèle avec le fait que l'on désire idéalement décrire un grand nombre de données avec le moins de variables indépendantes possibles. Les tables donnent les valeurs de F en fonction de k et (N – k – 1).