test \(t\) à un échantillon (\(n\) individus) | ANOVA à un facteur (\(m\) groupes de \(n\) individus) | |
---|---|---|
Hypothèse nulle | La moyenne \(\bar{x}\) est égale à \(\mu\) | La moyenne est la même pour les \(m\) groupes |
Statistique | \(t = (\bar{x} - \mu) / (s/\sqrt{n})\) | \(F = MSA/MSE\) |
Distribution | \(t\) avec \(n-1\) degrés de liberté | \(F\) avec \(m(n-1)\) et \((m - 1)\) degrés de liberté |
Le seuil de signification est la probabilité de rejeter l’hypothèse nulle lorsqu’elle est vraie.
Il faut choisir un test et un seuil de signification avant d’analyser les résultats.
Si on effectue plusieurs test dans une expérience, la probabilité de rejeter par erreur une des hypothèses nulles augmente (problème des comparaisons multiples).
La puissance d’un test est la probabilité de rejeter l’hypothèse nulle si elle est fausse. Plus l’effet à détecter est faible par rapport à la variance de la réponse (faible ratio signal/bruit), puis \(n\) doit être élevé pour avoir la même puissance.
Avec un \(n\) suffisamment grand, même un très petit effet sera jugé statistiquement significatif; cela ne signifie pas que l’effet est important.
Biais: écart systématique entre l’estimé d’un paramètre et sa valeur exacte.
Erreur-type: écart-type de l’estimé d’un paramètre, dû à l’échantillonnage limité; diminue lorsque \(n\) augmente.
Intervalle de confiance: Dans X% des échantillons possibles, l’intervalle de confiance à X% de l’estimé d’un paramètre contient la vraie valeur de ce paramètre.
Relation entre intervalle de confiance et test d’hypothèse: l’hypothèse \(\theta = \theta_0\) peut être rejetée à un seuil \(\alpha\) si l’intervalle de confiance à \(100\%(1 - \alpha)\) de \(\hat{\theta}\) n’inclut pas \(\theta_0\).
L’ANOVA tolère bien des écarts modérés par rapport à la normalité, donc cette supposition est moins critique que les deux autres.
Avec seulement 2 groupes, le test \(t\) permet des variances inégales.
Types de modèles en gris non vus dans ce cours.
Modèles en italique non vus dans ce cours.
\[ y \sim w + x + z \]
\(y\) est la réponse numérique, \(w\) et \(x\) sont des prédicteurs numériques, \(z\) est un facteur avec codage de traitement (défaut dans R) et trois niveaux: A (référence), B et C.
Coefficients estimés:
\[ y \sim x * z \]
Coefficients estimés:
Autrement dit, il faut additionner les coefficients x et x:zB pour obtenir la pente de \(y\) vs. \(x\) si \(z\) = B.
\[ y \sim w * x \]
Coefficients estimés:
Dans ces modèles, la moyenne de \(y\) n’est pas égale à la combinaison linéaire des prédicteurs \(\eta\), mais à une transformation de \(\eta\) selon une fonction de lien.
L’interprétation des paramètres ci-dessus donne l’effet sur \(\eta\). Pour obtenir l’effet sur la moyenne de \(y\), il faut appliquer l’inverse de la fonction de lien.
\[ x_{norm} = \frac{x - \mu_x}{\sigma_x} \]
Puisque \(x_{norm} = 0\) correspond à la moyenne de \(x\), il est plus facile d’interpréter l’ordonnée à l’origine (intercept) dans tous les cas, et les coefficients dans le cas d’un modèle avec interactions.
Puisqu’une augmentation unitaire de \(x_{norm}\) correspond à augmenter \(x\) d’un écart-type, la magnitude du coefficient donne une idée de l’importance de l’effet de ce prédicteur. On peut ainsi comparer des prédicteurs dont les échelles originales sont différentes.
Choix entre modèles de différentes complexités: compromis entre sous-ajustement et surajustement.
Sous-ajustement: effets importants non inclus dans le modèle.
Surajustement: le modèle reproduit très bien les données utilisées pour son ajustement, mais performe moins bien sur de nouvelles données.
En l’absence de données indépendantes pour évaluer le pouvoir prédictif de différents modèles, on peut l’estimer avec l’AIC (et ses variantes).
Comparer selon la même variable réponse et les mêmes observations.
Le meilleur modèle n’est peut-être pas bon: vérifier l’ajustement.
Si plusieurs modèles sont plausibles, la moyenne pondérée de leurs prédictions est souvent meilleure que les prédictions du meilleur modèle.
Problème où deux ou plusieurs prédicteurs sont fortement corrélés.
Différentes options: