Diplôme: Licence Sciences Spécialité: Sciences du vivant Parcours: CB , BMC , BCPO Année: 2014 /2015 second semestre Session : contrôle continu, troisième épreuve Intitulé UE: VI00FUST Intitulé épreuve: Statistique pour Biologistes L3 S6 Durée: 1h 30 Enseignant référent: R.Supper L’usage des téléphones portables (et autres appareils électroniques) est interdit pendant toute la durée de l'épreuve. Les appareils doivent impérativement être éteints et rangés pendant l'épreuve. Ils ne peuvent donc pas être utilisés comme chronomètre ou calculatrice. L'épreuve se déroulera sans document. Le seul type de calculatrice autorisé est le modèle basique quatre opérations. Ne rédigez pas de copie, détachez cette fiche (à rendre en fin d'épreuve) complétez en page 1 : – pour les questions calculatoires, reportez les valeurs numériques que vous avez obtenues dans les emplacements (cadres) prévus à cet effet – pour les questions à choix multiples, entourez la lettre (ou les lettres) correspondant à votre choix de réponse(s) exacte(s), exemple: a b c d e f g h i une légère pénalité est prévue pour les choix inexacts Pour les étudiants ne disposant pas de la touche « Racine carrée » sur leur calculatrice quatre opérations, quelques valeurs approchées sont fournies ci-dessous: x √ x x √ x x √ x 0,0100 0,0125 0,0150 0,0175 0,0200 0,0225 0,0250 0,0275 0,0300 0,0325 0,100000 0,111803 0,122474 0,132288 0,141421 0,150000 0,158114 0,165831 0,173205 0,180278 0,0350 0,0375 0,0400 0,0425 0,0450 0,0475 0,0500 0,0525 0,0550 0,0575 0,187083 0,193649 0,200000 0,206155 0,212132 0,217945 0,223607 0,229129 0,234521 0,239792 0,0600 0,0625 0,0650 0,0675 0,0700 0,0725 0,0750 0,0775 0,0800 0,0825 0,244949 0,250000 0,254951 0,259808 0,264575 0,269258 0,273861 0,278388 0,282843 0,287228 Lundi 13 avril 2015 EXERCICE no.1 Test des signes & Test de Wilcoxon Dans une étude sur le poids des cabillauds ( Gadus Morhua ), on voudrait tester si le poids 2 kg est une valeur plausible pour la médiane théorique de la population totale. Le caractère étudié est donc : X = poids ( mesuré en kg ) - 2 et le problème se ramène à tester si la médiane de X est nulle. Des mesures expérimentales seront effectuées sur un échantillon de taille n = 11. Question 1. On note s la valeur observée pour la statistique du test des signes. On veut déterminer au seuil 10 % la zone d'acceptation de l'hypothèse (H0) du test des signes. Cette zone est un intervalle I tel que: si s ∉ I , alors on rejette (H0) si s ∈ I , alors on considère (H0) vraie Cet intervalle s'écrit sous la forme d'un intervalle fermé I = [ a , b ] . Que vaut a ? Question 2. Que vaut b ? Question 3. On note w la valeur observée pour la statistique du test de Wilcoxon. On veut déterminer au seuil 10 % la zone d'acceptation de l'hypothèse (H0) du test de Wilcoxon. Cette zone est un intervalle J tel que: si w ∉ J , alors on rejette (H0) si w ∈ J , alors on considère (H0) vraie Cet intervalle s'écrit sous la forme d'un intervalle fermé J = [ c , d ] . Que vaut c ? Question 4. Que vaut d ? Mesures expérimentales : I II III Cabillaud no. i Poids mesuré en kg Valeur observée x i 1 2 3 4 5 6 7 8 9 10 11 1,177 1,804 1,730 1,388 1,524 1,292 1,955 2,436 3,327 3,302 4,065 -0,823 -0,196 -0,270 -0,612 -0,476 -0,708 -0,045 0,436 1,327 1,302 2,065 à partir de la colonne III, MINITAB a calculé les moyennes deux à deux, pour lesquelles il affiche diverses statistiques descriptives indiquées ci-dessous. De même pour les différences deux à deux : Statistiques descriptives : moyennes deux à deux; différences deux à deux Somme des Variable Moyenne EcTyp Variance Somme carrés Médiane moy 2 à 2 0,1818 0,6870 0,4720 12,0000 32,8614 0,1015 diff 2 à 2 0,000 1,316 1,731 0,000 207,677 0,000 Le test des signes et le test de Wilcoxon porteront sur la colonne III. Question 5. Que vaut s ? Question 6. Déterminer la médiane (de III ). Question 7. Calculer la P-valeur pour le test des signes. Question 8. Que vaut w ? Question 9. Que vaut la médiane estimée ? Question 10. Calculer la P-valeur pour le test de Wilcoxon. EXERCICE no.2 Régression en plan expérimental 2 On étudie le poids des cabillauds ( Gadus Morhua ) en fonction de leur âge. Le caractère étudié est le logarithme: Y = ln ( poids mesuré en kilogrammes ) en fonction du facteur X = âge mesuré en années. L'étude porte sur 24 poissons se répartissant en quatre classes d'âge ( I = 4 ). Ainsi le caractère X est entièrement contrôlé par l'expérimentateur. Les observations expérimentales ( x i , y ij ) ont été rassemblées dans le tableau ci-dessous où 1 ≤ i ≤ I , 1 ≤ j ≤ n i avec n 1 = 6 , n 2 = n 3 = 7 et n 4 = 4, donc n = n 1 + n 2 + n 3 + n 4 = 24. x 1 = 2 ans x 2 = 3 ans x 3 = 4 ans x 4 = 6 ans -0,560366 -0,421594 -0,310610 -0,848632 -0,627359 -0,677274 -0,037031 0,390006 0,348121 0,127864 0,221338 0,056191 0,470390 0,89036 1,20207 1,19453 1,40241 1,32176 1,56862 0,40547 2,12216 2,44605 1,75988 2,15632 Canadian Journal of Fisheries and Aquatic Sciences , 53, pages 610-620 (1996) article de : O.O.Kjesbu, P.Solemdal, P.Bratland, M.Fonn Sur ces quatre colonnes, le logiciel MINITAB a procédé à une analyse de la variance à un facteur, après avoir contrôlé que l'hypothèse (H0) pouvait être acceptée pour chacun des 3 tests préliminaires : tests de Levène / normalité / Bartlett (avec une P-valeur de : 0,658 / > 0,10 / 0,274 respectivement) ANOVA à un facteur contrôlé : X = 2 ans ; X = 3 ans ; X = 4 ans ; X = 6 ans Méthode Hypothèse nulle Toutes les moyennes sont égales Hypothèse alternative Au moins une moyenne est différente Les variances ont été supposées égales pour l’analyse. Analyse de variance SomCar Valeur Source DL ajust CM ajust Valeur F de p X âge en années 3 20,557 6,85237 90,01 0,000 Erreur 20 1,523 0,07613 Total 23 22,080 Récapitulatif du modèle R carré R carré S R carré (ajust) (prév) 0,275911 93,10% 92,07% 90,10% Les couples ( x i , y ij ) forment un échantillon de taille n = 24 à partir duquel MINITAB fournit les moyennes x et y , les écarts-types corrigés s c ( x ) et s c ( y ) , les variances corrigées s c 2 ( x ) et s c 2 ( y ), entre autres statistiques élémentaires, ainsi que le coefficient de corrélation linéaire r (x, y) : Statistiques descriptives : X âge en années; Y logarithme du poids en kg Somme des Variable Moyenne EcTyp Variance Somme carrés Médiane X âge en années 3,542 1,351 1,824 85,000 343,000 3,000 Y log du poids en kg 0,608 0,980 0,960 14,601 30,962 0,398 Corrélation : X âge en années; Y logarithme du poids en kg Corrélation de Pearson de X âge en années et Y logarithme du poids en kg = 0,952 Valeur de p = 0,000 Question 1. Calculez la variance non corrigée s 2 ( x ) . Question 2. Estimez, par une proportion, quelle part des variations du caractère Y s'explique par une fonction linéaire de la variable X. Question 3. Les observations sont visualisées sous forme d'un nuage de points : On note y = â + ĥ x l'équation de la droite de régression ajustée à ce nuage de points. Calculez le coefficient directeur (ou pente) ĥ Question 4. Calculez le coefficient â Question 5. En déduire le résidu (de la régression) associé au cabillaud no.2 dans l'échantillon no.3 (colonne des cabillauds d'âge 4 ans) Question 6. Pour un cabillaud âgé de 7 ans, soit y ( 7 ) la valeur attendue pour le logarithme du poids. On peut estimer ce nombre inconnu y ( 7 ) de deux façons – estimation ponctuelle par la valeur connue ŷ ( 7 ) = â + 7 ĥ – estimation par un intervalle de confiance I contenant y ( 7 ) Rappel : la construction de cet intervalle utilise des variables aléatoires L , S L et T = L - y ( 7 ) S L Sur cet échantillon, les variables aléatoires L et S L prennent les valeurs ŷ ( 7 ) et s L respectivement, [1- r 2 ( x , y )] s c 2 ( y ) avec s L 2 = s B 2 [ s 2 ( x ) + ( 7 - x ) 2 ] où s B 2 = ( n - 2 ) s c 2 ( x ) Calculer ŷ ( 7 ) Question 7. Déterminer la valeur critique c associée à la statistique T , au seuil 0,02. Question 8. Calculer s B 2 Question 9. Calculer s L 2 Question 10. L'intervalle de confiance I (au seuil 0,02 ) pour le nombre y ( 7 ) , sera noté sous forme d'un intervalle ouvert I = ] p , q [ Déterminer la borne inférieure p Question 11. Déterminer la borne supérieure q . EXERCICE no.3 Test de validation du modèle linéaire Suite de l'exercice précédent.... Question 1 Estimez, à l'aide d'une proportion, quelle part des variations du caractère Y s'explique comme fonction du facteur X Question 2 Estimez, à l'aide d'une proportion, quelle part des variations du caractère Y s'explique comme une fonction de X , mais non linéaire en X Question 3. Déterminez la valeur de la variation totale SC tot Question 4. La variation du modèle autour de la régression SC M|RG est donnée par l'une des formules ci-dessous. Laquelle? a) ( 1 - r 2 (x, y) ) n s c 2 ( y ) b) ( 2 (y|x) - r 2 (x, y) ) SC tot c) ( 2 (y|x) - r 2 (x, y) ) n s c 2 ( y ) d) ( 1 - 2 (y|x) ) SC tot e) ( 1 - 2 (y|x) ) n s c 2 ( y ) f) r 2 (x, y) SC tot g) r 2 (x, y) n s c 2 ( y ) h) 2 (y|x) SC tot i) ( 1 - r 2 (x, y) ) SC tot Dans ces formules, 2 (y|x) désigne le rapport de corrélation. Question 5. Déterminez la valeur de SC M|RG Question 6. Que vaut s² M|RG la variance du modèle autour de la régression ? Question 7. Que vaut s² R la variance résiduelle ? Question 8. On va pratiquer le test de validation du modèle linéaire. Déterminez la valeur critique c au seuil 0,025. Question 9. Calculez la valeur observée f pour la statistique F de ce test. Question 10. Laquelle des formules de la question 4 donne la variation résiduelle SC R ? EXERCICE no.4 Test d'indépendance Suite de l'exercice précédent.... Question 1 La variation du modèle SC M est donnée par l'une des formules proposées à la question 4 de l'exercice précédent. Laquelle? Question 2. Déterminer la valeur de SC M Question 3. En déduire la valeur de SC R| M (variation résiduelle autour du modèle) Question 4 Laquelle des formules (question 4 de l'exercice précédent) correspond à cette variation ? Question 5. Que vaut s² M la variance du modèle ? Question 6. Que vaut s² R|M la variance résiduelle autour du modèle ? Question 7. On va pratiquer le test d'indépendance. Déterminez la valeur critique c' au seuil 0,025. Question 8. Calculez la valeur observée f' pour la statistique F' de ce test. Question 9. La variation résiduelle est définie comme une somme de carrés: SC R = Σ i j ( T i j ) 2 avec 1 ≤ j ≤ n i , 1 ≤ i ≤ 4 et des termes T i j à reconnaître parmi: a) T i j = y i - â - ĥ x i b) T i j = y i - y c) T i j = y ij - â - ĥ x i d) T i j = y - â - ĥ x i e) T i j = y ij - y f) T i j = y i - â + ĥ x i g) T i j = y - â + ĥ x i h) T i j = y ij - y i i) T i j = y ij - â + ĥ x i où y i désigne la moyenne de la colonne no. i dans le tableau des résultats expérimentaux. Question 10. L a variation du modèle aussi se définit par une somme de carrés: SC M = Σ i j ( T i j ) 2 avec des termes T i j à choisir par les propositions ci-dessus. Question 11. Même question pour l a variation résiduelle autour du modèle SC R| M EXERCICE no.5 Test de normalité & Test de Tukey On revient aux quatre échantillons de l'exercice 2. Question 1. La statistique du test de normalité prend une valeur particulière r , déterminer cette valeur observée en utilisant les informations suivantes: o n admet avoir construit un tableau comportant - une colonne pour les résidus classés ê (ij) - une colonne pour les rangs r ij - une colonne pour les fréquences cumulées corrigées f c,ij - une colonne pour les scores normaux z ij - une colonne pour les produits ê (ij) z ij pour chacune de ces colonnes, MINITAB fournit: la somme de ses termes, leur moyenne, leur écart- type corrigé, leur variance corrigée, leur médiane, la somme de leurs carrés : Statistiques descriptives : résidus; rangs; fréquences; scores; produits Somme des Variable Moyenne EcTyp Variance Somme carrés Médiane résidus 0,0000 0,2573 0,0662 0,0000 1,5225 0,0246 rangs 12,50 7,07 50,00 300,00 4900,00 12,50 fréquences 0,5000 0,2916 0,0850 12,0000 7,9556 0,5000 scores -0,000 0,968 0,937 -0,000 21,548 0,000 produits 0,2319 0,3299 0,1088 5,5658 3,7936 0,1116 Question 2. Une autre expérimentation est menée avec des échantillons 2 et 4 différents: x 1 = 2 ans x 2 = 3 ans x 3 = 4 ans x 4 = 6 ans -0,560366 -0,421594 -0,310610 -0,848632 -0,627359 -0,677274 0,162969 0,590006 0,548121 0,327864 0,421338 0,256191 0,670390 0,89036 1,20207 1,19453 1,40241 1,32176 1,56862 0,40547 1,62216 1,94605 1,25988 1,65632 Sur ces nouveaux résultats, on pratique les tests de Levène, normalité, Bartlett, ANOVA et Tukey. MINITAB fournit les informations suivantes : Comparaisons deux à deux de Tukey Erreur type Différence des Différence de la Valeur Valeur de niveaux des moyennes différence de T p ajustée 3 ans - 2 ans 1,000 0,154 6,51 0,000 4 ans - 2 ans 1,715 0,154 11,17 0,000 6 ans - 2 ans 2,195 0,178 12,33 0,000 4 ans - 3 ans 0,715 0,147 4,85 0,001 6 ans - 3 ans 1,196 0,173 6,91 0,000 6 ans - 4 ans 0,480 0,173 2,78 0,052 Au seuil 2,5 % q uel tableau de synthèse convient pour récapituler ces comparaisons ? Tableau a) Tableau b) Tableau c) Tableau d) 2 ans 3 ans 4 ans 6 ans A A B B C C 2 ans 3 ans 4 ans 6 ans A A B B C 2 ans 3 ans 4 ans 6 ans A A B B 2 ans 3 ans 4 ans 6 ans A A A B Tableau e) Tableau f) Tableau g) Tableau h) 2 ans 3 ans 4 ans 6 ans A A B C 2 ans 3 ans 4 ans 6 ans A B C C 2 ans 3 ans 4 ans 6 ans A B B C 2 ans 3 ans 4 ans 6 ans A B B C C réponse i) aucun de ces tableaux ne convient Table des valeurs critiques (au seuil 0,025) pour la loi de Fisher Table des valeurs critiques bilatérales de Student en fonction du degré de liberté ddl et du seuil α Loi Binomiale Soit Z une variable aléatoire de loi binomiale B ( N , ½ ) . Pour différents entiers k et N , on vous fournit quelques valeurs de P ( Z ≤ k ) : N = 9 N = 10 N = 11 N = 12 N = 13 k = 0 k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 0,001953 0,019531 0,089844 0,253906 0,500000 0,746094 0,910156 0,000977 0,010742 0,054687 0,171875 0,376953 0,623047 0,828125 0,000488 0,005859 0,032715 0,113281 0,274414 0,500000 0,725586 0,000244 0,003174 0,019287 0,072998 0,193848 0,387207 0,612793 0,000122 0,001709 0,011230 0,046143 0,133423 0,290527 0,500000 Test de Wilcoxon Soit W N + la statistique du test de Wilcoxon sur les échantillons sans ex-aequo de taille N Pour différents entiers N et différents seuils α , on vous fournit le plus grand entier k tel que : P ( W N + ≤ k ) ≤ α / 2 N α = 0,10 α = 0,05 α = 0,02 α = 0,01 α = 0,001 11 12 13 14 15 16 17 18 19 20 13 17 21 25 30 35 41 47 53 60 10 13 17 21 25 29 34 40 46 52 7 9 12 15 19 23 27 32 37 43 5 7 9 12 15 19 23 27 32 37 0 1 2 4 6 8 11 14 18 21 Pour différents entiers k et N , la table de la page suivante fournit quelques valeurs de P ( W N + ≤ k ) . TABLE : Distribution function of T, the Wilcoxon signed-rank test Sample Size t 2 3 4 5 6 7 8 9 10 11 12 1 0.5000 0.2500 0.1250 0.0625 0.0313 0.0157 0.0079 0.0040 0.0020 0.0010 0.0005 2 0.3750 0.1875 0.0938 0.0469 0.0235 0.0118 0.0059 0.0030 0.0015 0.0008 3 0.6250 0.3125 0.1563 0.0782 0.0391 0.0196 0.0098 0.0049 0.0025 0.0013 4 0.4375 0.2188 0.1094 0.0547 0.0274 0.0137 0.0069 0.0035 0.0018 5 0.5625 0.3125 0.1563 0.0782 0.0391 0.0196 0.0098 0.0049 0.0025 6 0.4063 0.2188 0.1094 0.0547 0.0274 0.0137 0.0069 0.0035 7 0.50000 0.2813 0.1485 0.0743 0.0372 0.0186 0.0093 0.0047 8 0.3438 0.1875 0.0977 0.0489 0.0245 0.0123 0.0062 9 0.4219 0.2344 0.125 0.0645 0.0323 0.0162 0.0081 10 0.5000 0.2891 0.1563 0.0821 0.0420 0.0210 0.0105 11 0.3438 0.1915 0.1016 0.0528 0.0269 0.0135 12 0.4063 0.2305 0.125 0.0655 0.0337 0.0171 13 0.4688 0.2735 0.1504 0.0801 0.0416 0.0213 14 0.5313 0.3204 0.1797 0.0967 0.0508 0.0262 15 0.3711 0.2129 0.1163 0.0616 0.0320 16 0.4219 0.2481 0.1377 0.0738 0.0386 17 0.4727 0.2852 0.1612 0.0875 0.0462 18 0.5274 0.3262 0.1875 0.1031 0.0550 19 0.3672 0.2159 0.1202 0.0647 20 0.4102 0.2461 0.1392 0.0757 21 0.4551 0.2784 0.1602 0.0882 22 0.5000 0.3125 0.1827 0.1019 23 0.3477 0.2066 0.1167 24 0.3848 0.2325 0.1331 25 0.4229 0.2598 0.1507 26 0.4610 0.2886 0.1697 27 0.5000 0.3189 0.1902 28 0.3501 0.2120 29 0.3824 0.2349 30 0.4156 0.2593 31 0.4493 0.2847 32 , 0.4830 0.3111 33 0.5171 0.3387 34 0.3667 35 0.3956 36 0.4251 37 0.4549 38 0.4849 39 0.5152 N k k