Dans cet exemple, nous voulons vérifier l’absence de biais d’un humidimètre, en mesurant l’humidité relative du sol à 9 endroits dans une placette de 1 m\(^2\). Avec un appareil plus précis, nous avons déterminé que l’humidité moyenne dans cette parcelle est de 50%. Voici les 9 valeurs obtenues avec l’appareil à tester, leur moyenne et l’erreur-type de cette moyenne.
humidite <- c(47, 50, 48, 50, 54, 49, 56, 52, 51)
humid_moy <- mean(humidite)
humid_et <- sd(humidite) / sqrt(length(humidite))
paste("Moyenne de", round(humid_moy, 2), "et erreur-type de", round(humid_et, 2))
## [1] "Moyenne de 50.78 et erreur-type de 0.95"
Supposons que ces mesures suivent une distribution normale. Si l’appareil n’était pas biaisé (\(\mu\) = 50), quelle serait la probabilité que la moyenne de l’échantillon \(\bar{x}\) soit aussi éloignée de la valeur de référence \(\mu\)?
Durant le cours sur les intervalles de confiances, nous avons vu que l’écart entre \(\bar{x}\) et \(\mu\), divisé par l’erreur-type, suit une distribution \(t\) avec \(n - 1\) degrés de liberté:
\[ t_{n-1} = \frac{\bar{x} - \mu}{s / \sqrt{n}} \]
Souvenez-vous que la distribution \(t\) remplace la distribution normale centrée réduite lorsque que l’écart-type \(s\) est estimé à partir de l’échantillon.
La statistique \(t\) pour cet échantillon, si \(\mu\) = 50, est égale à:
humid_t <- (humid_moy - 50) / humid_et
humid_t
## [1] 0.8151115
La distribution \(t\) cumulative (fonction pt
dans R) nous donne la probabilité d’observer une valeur plus petite ou égale à une valeur donnée. Dans ce cas, la probabilité d’obtenir une valeur de la statistique \(t\) plus grande que celle observée pour notre échantillon, si \(\mu\) est bien égale à 50, est calculée ainsi:
1 - pt(humid_t, df = 8)
## [1] 0.2192996
Cette probabilité (21.9%) correspond à la portion de l’aire sous la courbe coloriée dans le graphique ci-dessous:
Puisque notre question était: “Quelle est la probabilité de la moyenne de l’échantillon soit aussi éloignée de la valeur de référence?”, il faut aussi considérer la probabilité d’obtenir un écart négatif plus grand que l’écart positif observé, i.e. une valeur de la statistique \(t\) inférieure à -0.815. Comme la distribution \(t\) est symétrique, cette probabilité est aussi égale à 21.9%, donc la probabilité d’avoir obtenu une moyenne plus éloignée de 50 que celle observée est de 43.8%, tel qu’illustré sur le graphique suivant.
Ainsi, l’écart observé entre la moyenne de l’échantillon et la valeur attendue (\(\mu\) = 50) est très probable vu la variation entre les mesures. Dans le contexte des tests d’hypothèse, la probabilité d’obtenir un résultat plus extrême que celui observé se nomme valeur p (p-value). Dans ce cas, la valeur p associée à l’hypothèse \(\mu\) = 50 est de 0.438.
Dans les prochaines sections, nous verrons de façon plus formelle les éléments d’un test d’hypothèse statistique.
De façon générale, un test d’hypothèse statistique vise à déterminer si une variation observée dans un échantillon de données est compatible avec un modèle “par défaut” (l’hypothèse nulle), ou si les observations sont si improbables selon cette hypothèse nulle qu’elle doit être rejetée au profit d’une hypothèse alternative.
L’hypothèse nulle tire son nom du fait qu’elle correspond souvent à une absence d’effet: aucune différence entre deux traitements, absence de corrélation entre deux variables, etc.
Dans notre exemple précédent, l’hypothèse nulle (\(H_0\)) correspondait à l’absence de biais de l’humidimètre (\(\mu = 50\)). L’hypothèse alternative (\(H_a\)) est la négation logique de l’hypothèse nulle, donc \(\mu \neq 50\).
Quelle est l’hypothèse nulle correspondant à chacune des hypothèses alternatives suivantes?
La densité des semis de sapins varie selon la pente dans une parcelle.
Ce nouvel insecticide est plus efficace que le traitement existant contre l’agrile du frêne.
Le deuxième exemple de l’exercice constitue un test unilatéral. Si \(\mu_T\) est l’effet du nouveau traitement et \(\mu_R\) celui du traitement de référence, alors l’hypothèse nulle est \(\mu_T \leq \mu_R\) et l’hypothèse alternative est \(\mu_T > \mu_R\).
Dans notre premier l’exemple, nous voulions tester la présence d’un biais positif ou négatif dans les mesures de l’humidimètre. Il s’agit d’un test bilatéral, où l’hypothèse alternative \(\mu \neq 50\) est équivalente à l’union de deux hypothèse unilatérales (\(\mu < 50\) ou \(\mu > 50\)).
Le choix d’un test unilatéral ou bilatéral doit être fait à l’avance et dépend de la question qui nous intéresse.
Quel serait un exemple d’hypothèse nulle et d’hypothèse alternative dans votre domaine de recherche?
Dans le contexte d’évaluation de traitements expérimentaux (en médecine, en agronomie ou sylviculture, etc.), l’hypothèse nulle correspond généralement à l’absence d’effet du traitement étudié par rapport à un traitement de référence ou un groupe témoin. Dans ce cas, l’hypothèse alternative correspond à l’hypothèse scientifique qui intéresse réellement les chercheurs. On fait l’hypothèse que le traitement a un effet, donc on vérifie si cet effet peut être détecté (c’est-à-dire, si l’hypothèse nulle est rejetée par l’expérience).
Dans d’autres contextes, l’hypothèse nulle est basée sur les prédictions d’un modèle qu’on souhaite tester. Par exemple, est-ce que les jours de pluie observés dans une année correspondent aux probabilités de précipitation prévues par les modèles météorologiques? Dans ce cas, le rejet de l’hypothèse nulle signifie que les observations sont incompatibles avec le modèle et donc que ce modèle doit être amélioré.
À partir d’une hypothèse nulle donnée, la construction d’un test statistique requiert trois principaux éléments:
Dans l’exemple vu au début de ce cours, nous avons calculé la statistique \(t\) dont nous connaissons la distribution théorique, ce qui nous a permis de déterminer une valeur \(p\), soit la probabilité d’obtenir un écart égal ou supérieur à celui observé, si l’hypothèse nulle était vraie.
Le seuil de signification (\(\alpha\)) correspond à une probabilité qu’on considère assez petite pour rejeter l’hypothèse nulle si \(p \leq \alpha\). Pour des raisons historiques, le seuil le plus souvent utilisé dans est \(\alpha = 0.05\). Cela correspond à une probabilité de 5% de rejet erroné de l’hypothèse nulle.
Le seuil \(\alpha\) doit être choisi avant l’analyse des données.
Pour un test bilatéral, on rejette une fraction \(\alpha / 2\) de chaque extrême de la distribution (comme pour l’intervalle de confiance). Pour un test unilatéral, on rejette une fraction \(\alpha\) d’une extrême de la distribution. Voici une illustration des deux cas avec \(\alpha = 0.05\).
Voici les quatre scénarios possibles selon que \(H_0\) soit vraie ou fausse et qu’elle soit rejetée ou non:
On ne rejette pas \(H_0\) | On rejette \(H_0\) | |
---|---|---|
\(H_0\) vraie | décision correcte | erreur de type I |
\(H_0\) fausse | erreur de type II | décision correcte |
Note: La vérité d’\(H_0\) pour une hypothèse nulle du type \(\mu = 0\) est plutôt une abstraction. En pratique, la différence entre deux traitements peut être très faible, mais ne sera presque jamais parfaitement nulle. Néanmoins, on peut concevoir une hypothèse nulle qui soit vraie à une certaine précision.
Une erreur de type I survient lorsqu’on rejette \(H_0\) bien que celle-ci soit vraie. Le seuil de signification \(\alpha\) correspond à la probabilité de ce type d’erreur si \(H_0\) est vraie.
Une erreur de type II survient lorsqu’on ne rejette pas \(H_0\) même si celle-ci est fausse. La probabilité de ce type d’erreur est désignée par \(\beta\). Plus souvent, on s’intéresse à (\(1 - \beta\)), soit la probabilité de rejeter \(H_0\) lorsque celle-ci est fausse (de détecter un écart significatif lorsqu’il y en a un). Cette probabilité se nomme la puissance du test.
Dans notre exemple du début du cours, pourrions-nous calculer la puissance du test, soit la probabilité de détecter un biais de l’appareil avec l’échantillon de 9 mesures? De quelle information supplémentaire avons-nous besoin?
Contrairement au seuil de signification \(\alpha\) qui est choisi par l’analyste, la puissance d’un test dépend (entre autres) de la valeur réelle de l’effet. Dans notre exemple, pour un \(\alpha\) et un plan d’expérience fixes, il est plus facile de détecter un grand biais qu’un plus petit biais.
Le calcul de la puissance d’un test \(t\) est un problème assez complexe; dans R, vous pouvez utiliser les fonctions du package pwr pour effectuer ce calcul.
Ici, nous simplifierons en supposant que la statistique de test suit une distribution normale (ce qui est approximativement correct si la taille de l’échantillon \(n\) est élevé).
Par exemple, calculons la puissance de notre test sur les données d’humidité (hypothèse nulle: \(\mu = 50\)), si le biais réel est de 2, l’erreur-type est de 1 et le seuil \(\alpha = 0.05\). Dans ce cas, le biais réel correspond à une valeur centrée réduite \(z = 2\), soit 2 erreurs-types au-dessus de la moyenne prévue par l’hypothèse nulle.
Puisque \(\alpha = 0.05\) et que notre test est bilatéral, l’hypothèse nulle sera rejetée pour les valeurs de \(z\) correspondant à une probabilité cumulative < 0.025 et > 0.975.
Concentrons-nous pour l’instant sur la limite supérieure. La valeur critique de \(z\) au-delà de laquelle on rejette l’hypothèse nulle peut être déterminée avec qnorm
.
qnorm(0.975)
## [1] 1.959964
En raison du biais, la moyenne mesurée à partir de l’échantillon suivra une distribution normale avec le même écart-type, mais centrée sur \(z = 2\). Cette distribution est la courbe en bleu sur le graphique ci-dessous.
La section coloriée en bleu correspond à la probabilité que l’hypothèse nulle soit rejetée, si la moyenne réelle est 2 erreurs-types au-dessus de celle prévue. Cette probabilité, la puissance du test, est d’environ 50%. La valeur exacte peut être calculée ainsi: 1 - (Probabilité que la moyenne obtenue soit plus petite que la valeur critique de \(z\) selon l’hypothèse nulle).
1 - pnorm(qnorm(0.975), mean = 2)
## [1] 0.5159678
Pour le même \(\alpha\), la puissance d’un test unilatéral (hypothèse alternative: \(\mu > 50\)) est-elle plus petite, égale ou plus grande à celle d’un test bilatéral?
Si vous réalisez le test illustré par ce graphique et que vous obtenez un résultat significatif (rejet de l’hypothèse nulle), est-ce que le biais mesuré serait un bon estimé du biais réel de l’appareil? Pourquoi?
Si on prend seulement la section coloriée en bleu du graphique ci-dessus, la moyenne de \(z\) est égale à 2.77. Donc, dans les cas où l’on détecte un effect significatif, cet effet est surestimé.
Voici un cas plus extrême, lorsque le biais réel est à \(z = 0.5\) (l’effet réel est la moitié de l’erreur-type).
Dans ce cas, nous avons:
Gelman et Carlin (2014) qualifient ces deux derniers cas d’erreurs de type M (erreur sur la magnitude de l’effet) et de type S (erreur sur le signe).
Gelman, A. et Carlin, J. (2014) Beyond power calculations: Assessing type S (sign) and type M (magnitude) errors.
Un seuil de signification \(\alpha\) plus élevé diminue le nombre d’erreurs de type II (meilleure puissance), mais augmente le nombre d’erreurs de type I (et de type S… détection erronée d’effets contraires).
La seule façon de réduire tous ces types d’erreurs est d’augmenter la taille de l’échantillon. La taille d’échantillon appropriée dépend à la fois de la magnitude de l’effet qu’on souhaite mesurer et de la variabilité des données.
On ne peut pas calculer la puissance après coup à partir de l’effet mesuré. Comme nous avons vu, cet effet peut être fortement biaisé si la puissance réelle est faible.
La première application du test \(t\) consiste à comparer la moyenne d’un échantillon à une valeur fixe (par exemple, une prédiction théorique ou une valeur de référence très précise).
Répétons notre premier exemple, une comparaison d’un échantillon de 9 valeurs d’humidité à une moyenne de référence de 50, en utilisant cette fois-ci la fonction t.test
dans R.
humidite <- c(47, 50, 48, 50, 54, 49, 56, 52, 51)
t.test(humidite, mu = 50)
##
## One Sample t-test
##
## data: humidite
## t = 0.81511, df = 8, p-value = 0.4386
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
## 48.57739 52.97816
## sample estimates:
## mean of x
## 50.77778
Que signifie chacun des éléments de ce résultat de la fonction t.test
?
Quelle est la relation entre un intervalle de confiance et un test d’hypothèse? Qu’est-ce que l’intervalle de confiance à 95% de \(\bar{x}\) nous dit sur le résultat du test de l’hypothèse nulle \(\mu = 50\) avec un seuil \(\alpha = 0.05\)?
Le tableau de données InsectSprays
inclus avec R contient les données d’une expérience de Geoffrey Beall (1942) sur le nombre d’insectes (count
) sur des placettes traitées avec différents insecticides (spray
), avec 12 mesures indépendantes par type d’insecticide.
ggplot(InsectSprays, aes(x = spray, y = count)) +
geom_boxplot()
Considérons un sous-ensemble des données composé des placettes traitées avec les produits A et B, et testons l’hypothèse nulle selon laquelle les deux produits ont la même efficacité: \(\mu_A = \mu_B\), ou de façon équivalente, \(\mu_A - \mu_B = 0\).
Pour deux échantillons indépendants suivant chacun une distribution normale, selon l’hypothèse nulle où ces deux distributions ont la même moyenne, la différence des moyennes estimées \(\bar{x}_A - \bar{x}_B\) divisée par l’erreur-type de cette différence suit aussi une distribution \(t\):
\[t = \frac{\bar{x}_A - \bar{x}_B}{\sigma_{\bar{x}_A - \bar{x}_B}}\] Il reste à déterminer l’erreur-type de la différence entre deux moyennes et le nombre de degrés de liberté de cette distribution \(t\).
La variance d’une différence entre deux variables aléatoires indépendantes est égale à la somme des variances des variables prises séparément. Ainsi, on peut relier l’erreur-type de la différence à la variance et à la taille de chacun des deux échantillons.
\[\sigma_{\bar{x}_A - \bar{x}_B}^2 = \sigma_{\bar{x}_A}^2 + \sigma_{\bar{x}_B}^2\] \[\sigma_{\bar{x}_A - \bar{x}_B}^2 = \frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}\] \[\sigma_{\bar{x}_A - \bar{x}_B} = \sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}\]
Le calcul du nombre de degrés de liberté est plus complexe. Selon l’approximation de Welch:
\[df = \frac{\left(s_A^2 / n_A + s_B^2 / n_B \right)^2}{\frac{\left( s_A^2 / n_A \right) ^2}{n_A - 1} + \frac{\left( s_B^2/n_B \right)^2}{n_B - 1}}\]
Ces formules sont présentées ici à titre d’information, mais heureusement, les logiciels statistiques font ces calculs pour nous. Voici le code R pour comparer la moyenne des échantillons traités par les produits A et B avec t.test
.
library(dplyr)
insectesAB <- filter(InsectSprays, spray %in% c("A", "B"))
t.test(count ~ spray, data = insectesAB)
##
## Welch Two Sample t-test
##
## data: count by spray
## t = -0.45352, df = 21.784, p-value = 0.6547
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.646182 2.979515
## sample estimates:
## mean in group A mean in group B
## 14.50000 15.33333
Le premier argument de t.test
est la formule count ~ spray
. Ces formules sont utilisées dans plusieurs fonctions R pour définir des modèles statistiques. La variable précédent le symbole ~
est la variable dépendante (réponse), tandis que la variable suivant ce symbole est la variable indépendante (prédicteur, traitement).
Si on sait que la variance de chaque groupe est égale, on peut spécifier var.equal = TRUE
.
t.test(count ~ spray, data = insectesAB, var.equal = TRUE)
##
## Two Sample t-test
##
## data: count by spray
## t = -0.45352, df = 22, p-value = 0.6546
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.643994 2.977327
## sample estimates:
## mean in group A mean in group B
## 14.50000 15.33333
Dans ce cas-ci, le résultat est quasiment identique, sauf pour une légère augmentation du nombre de degrés de liberté, et donc une légère réduction de la largeur de l’intervalle de confiance. Lorsque les groupes sont de même taille et que leurs variances sont semblables, les deux versions du test donnent des résultats semblables.
La fonction t.test
choisit var.equal = FALSE
par défaut et dans le doute, il est préférable de supposer que les variances sont différentes. Il existe des tests pour déterminer si la variance de deux échantillons est identique, mais ces tests sont moins fiables que les tests comparant les moyennes, surtout lorsque la distribution de la variable n’est pas exactement normale.
Si on s’intéresse seulement au cas où l’insecticide B est plus efficace que A, quelle est l’hypothèse nulle et l’hypothèse alternative sur la valeur de \(\bar{x}_A - \bar{x}_B\)?
Pour faire un test unilatéral, il faut définir l’argument alternative
de t.test
comme étant less
ou greater
. Dans le cas où notre hypothèse alternative est \(\bar{x}_A - \bar{x}_B > 0\), on spécifie alternative = "greater"
.
t.test(count ~ spray, data = insectesAB, alternative = "greater")
##
## Welch Two Sample t-test
##
## data: count by spray
## t = -0.45352, df = 21.784, p-value = 0.6727
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -3.989891 Inf
## sample estimates:
## mean in group A mean in group B
## 14.50000 15.33333
Supposons que nous souhaitons comparer les mesures d’humidité du sol prises par deux appareils aux mêmes 9 points sur une placette. Notre hypothèse nulle est que la moyenne des mesures est la même pour les deux appareils.
humi <- data.frame(
point = 1:9,
mesureA = c(50.0, 51.1, 48.0, 50.0, 51.1, 55.7, 54.3, 46.0, 50.7),
mesureB = c(49.6, 52.2, 48.3, 50.2, 52.0, 56.1, 54.5, 46.8, 51.7)
)
humi
## point mesureA mesureB
## 1 1 50.0 49.6
## 2 2 51.1 52.2
## 3 3 48.0 48.3
## 4 4 50.0 50.2
## 5 5 51.1 52.0
## 6 6 55.7 56.1
## 7 7 54.3 54.5
## 8 8 46.0 46.8
## 9 9 50.7 51.7
Il s’agit de mesures appariées (une paire de mesures par point), donc nous utilisons l’argument paired = TRUE
de la fonction t.test
.
t.test(humi$mesureA, humi$mesureB, paired = TRUE)
##
## Paired t-test
##
## data: humi$mesureA and humi$mesureB
## t = -3.0779, df = 8, p-value = 0.01516
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.8746025 -0.1253975
## sample estimates:
## mean of the differences
## -0.5
Notez que ce test est équivalent à un test \(t\) à un échantillon, qui comparerait la moyenne des neufs différences (une par paire) à la valeur 0.
humi <- mutate(humi, diff = mesureA - mesureB)
t.test(humi$diff)
##
## One Sample t-test
##
## data: humi$diff
## t = -3.0779, df = 8, p-value = 0.01516
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -0.8746025 -0.1253975
## sample estimates:
## mean of x
## -0.5
Interprétez le résultat du test apparié ci-dessus et comparez-le au test suivant qui suppose que les deux échantillons sont indépendants.
t.test(humi$mesureA, humi$mesureB)
##
## Welch Two Sample t-test
##
## data: humi$mesureA and humi$mesureB
## t = -0.3629, df = 16, p-value = 0.7214
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.420809 2.420809
## sample estimates:
## mean of x mean of y
## 50.76667 51.26667
Lorsque deux groupes sont appariés, le nombre de degrés de liberté du test \(t\) est plus petit, puisque nous avons 9 paires indépendantes plutôt que 18 points indépendants. Malgré cela, la puissance du test augmente si l’utilisation de paires permet de séparer l’effet du traitement d’autres sources de variation qui influencent la réponse entre les paires. Ici, on veut séparer la différence de mesure de l’humidité entre les deux appareils de la variation de l’humidité entre différents points de la placette.
Le test \(t\) requiert que:
les observations soient indépendantes les unes des autres (pour les groupes appariées, les paires d’observations doivent être indépendantes); et
les observations proviennent d’une distribution normale.
L’indépendance des observations dépend de l’échantillonnage ou du plan d’expérience (échantillonnage aléatoire ou assignation aléatoire des traitements).
Le test \(t\) est plutôt robuste, c’est-à-dire que ses conclusions sont peu affectées par des déviations faibles à modérées de la supposition de normalité.
Il existe des tests de la normalité d’un échantillon (ex.: test de Shapiro-Wilk). Toutefois, ceux-ci sont rarement nécessaires.
Le test \(t\) est moins fiable lorsque la distribution est fortement asymétrique ou comporte des valeurs extrêmes aberrantes (outliers).
Le test de Wilcoxon-Mann-Whitney est basé le rang des observations. Pour le test bilatéral avec deux échantillons A et B indépendants, l’hypothèse nulle est qu’en tirant au hasard un élément de chaque groupe \(x_A\) et \(x_B\), les probabilités \(P(x_A > x_B)\) et \(P(x_A < x_B)\) sont égales. Habituellement, cela équivaut à affirmer que la médiane est la même pour les deux groupes.
Ce test est effectué par la fonction wilcox.test
dans R, dont la structure est semblable à t.test
.
Puisque le test est basé sur l’ordre des observations plutôt que leur valeur, il est moins sensible aux valeurs extrêmes, comme la médiane est moins sensible aux valeurs extrêmes que la moyenne.
Toutefois, étant un test non-paramétrique (qui ne dépend pas d’une distribution spécifique des observations), le test de Wilcoxon-Mann-Whitney ne fournit qu’une valeur \(p\), sans estimer la taille de l’effet ou son intervalle de confiance. De plus, il n’est pas conçu pour comparer deux échantillons de variance inégale.
D’autres méthodes non-paramétriques sont basées sur un ré-échantillonnage des observations afin d’obtenir un intervalle de confiance. Ce type de méthodes, dont le bootstrap, feront partie du cours avancé de statistiques (ECL 8202, offert à la session hiver).
Les tests d’hypothèse sont souvant mal utilisés dans la littérature scientifique. Cette dernière section présente donc quelques points à surveiller au sujet de l’utilisation et de l’interprétation de ces tests.
Pour justifier la présentation d’un test d’hypothèse, l’hypothèse nulle doit être plausible. Par exemple, s’il n’y a aucun doute qu’une variable a un effet sur la réponse mesurée, il suffit d’estimer cet effet et indiquer son intervalle de confiance.
Le graphique ci-dessous montre l’estimation de deux effets avec leur intervalle de confiance à 95%. Les deux effets sont significativement différents de zéro avec une valeur \(p\) = 0.01.
Une petite valeur \(p\) indique qu’il est très improbable d’avoir observé un effet donné si l’hypothèse nulle est vraie. Elle n’indique pas la magnitude de l’effet sur la variable mesurée. C’est pourquoi il est important de non seulement indiquer le résultat du test d’hypothèse avec sa valeur \(p\), mais aussi une estimation de la taille de l’effet avec un intervalle de confiance.
Dans le graphique suivant, les deux effets ont le même intervalle de confiance. Toutefois, la distribution des valeurs observées (points) est différente.
En résumé, il faut communiquer au moins trois résultats d’un test statistique:
En réalité, il est rare que l’effet d’un traitement soit exactement zéro. Dans ce cas, avec un échantillon assez grand et un seuil \(\alpha\) constant, on pourra toujours détecter un effet significatif.
Par exemple, en 2014, une étude controversée produite par des statisticiens de Facebook avait montré qu’une manipulation expérimentale des sujets négatifs et positifs apparaissant sur le fil de nouvelles des abonnés au site pouvait affecter le nombre de mots positifs et négatifs des les messages écrits par ces mêmes abonnés. La taille de l’échantillon est immense (\(n\) d’environ 700,000) et les effets mesurés sont minuscules.
Aussi, notez qu’un diagramme à barres doit toujours inclure le zéro de l’axe. Dans le cas contraire, comme on voit ici, la différence entre la longueur des barres surestime la magnitude de l’effet.
Si un test statistique démontre qu’un effet n’est pas dû au hasard de l’échantillonnage, il en revient aux chercheurs de déterminer si l’effet estimé est important dans le contexte du sujet d’étude.
Par définition, un test d’hypothèse réalisé avec \(\alpha\) = 0.05 va commettre une erreur de type I une fois sur 20. Ainsi, lorsqu’on effectue plusieurs tests dans une même étude, la probabilité qu’un des tests détecte un effet dû seulement au hasard de l’échantillonnage augmente. Nous verrons certaines solutions au problème des comparaisons multiples dans le prochain cours.
Aussi, rappelons-nous qu’un taux d’erreur de type I de 5% n’est pas négligeable, surtout lorsqu’on considère le nombre d’études publiant des tests d’hypothèses à chaque année. La publication d’une étude montrant avec \(p < 0.05\) ne signifie pas que l’hypothèse nulle est définitivement rejetée. De plus, comme nous l’avons vu plus haut, lorsque la puissance statistique est faible, les résultats qui dépassent le seuil de signification peuvent fortement surestimer l’effet réel. Il est donc prudent de faire preuve de scepticisme envers une étude montrant un effet plus grand que prévu si la taille de l’échantillon est faible. La réplication du résultat significatif sur un autre site est un bon moyen de confirmer l’existence d’un effet.