IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
1
COURS D’ANALYSE DE DONNEES MASTER 2 PROFESSIONNELLE
CHAPITRE 1 : RAPPEL DES METHODES DIFFÉRENTES DONNÉES ET QUELQUES ANALYSES CORRESPONDANTES
TYPES DE VARIABLES
ANALYSES DESCRIPTIVES
ANALYSES EXPLICATIVES
DESCRIPTION GRAPHIQUE
DESCRIPTION NUMERIQUE
TESTS PARAMETRIQUES
TEST NON PARAMETRIQUES
Variable nominale univariée
Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur
mode
////////////////////
Test d’adéquation du Khi-deux
Variable ordinale univariée
Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur
Mode, médiane, quantiles
///////////////////////
Test d’ajustement du Khi-deux ou de Kolmogorov-Smirnov
Variable quantitative scalée
Diagramme à bâton, courbe en escalier
Mode, médiane, quantiles, moyenne écart-type, coefficient de variation
Test de signification de la moyenne
Test d’ajustement du Khi-deux ou de Kolmogorov-Smirnov
Variable quantitative discrete
Diagramme à bâton, courbe en escalier
Mode, médiane, quantiles, moyenne écart-type, coefficient de variation
Test de signification de la moyenne
Test d’ajustement du Khi-deux ou de Kolmogorov-Smirnov
Variable quantitative continue
Histogramme, courbe cumulative des effectifs ou des fréquences
Mode, médiane, quantiles, moyenne écart-type, coefficient de variation, coefficient d’asymétrie, coefficient d’aplatissement
Test de signification de la moyenne
Test d’adéquation à la loi normale, à la loi de poisson, à la loi binomiale
Couple de variables nominales
Droite de régression, Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur
Mode, fréquences
Test de comparaison de deux moyennes
Test d’indépendance du Khi-deux
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
2
Couple de variables ordinales
Droite de régression, Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur
Rangs, Mode, fréquences
Test du coefficient de corrélation de Spearman
Test d’adéquation du Khi-deux ou de Kolmogorov-Smirnov
Couple de variable nominale/variable ordinale
Droite de régression, Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur
Mode, médiane, quantiles, proportions
Test de Mann-Whitney
Test d’adéquation du Khi-deux ou de Kolmogorov-Smirnov
Couple de variables quantitatives
Selon les cas : Diagramme à bâton, courbe en escalier, Histogramme, courbe cumulative des effectifs ou des fréquences
Mode, médiane, quantiles, moyenne écart-type, coefficient de variation, proportions, coefficient de détermination
Test du coefficient de corrélation de Pearson
Test d’ajustement du Khi-deux ou de Kolmogorov-Smirnov
Couple de variable quantitative/variable qualitative
Selon les cas : Diagramme à bâton, courbe en escalier, Histogramme, courbe cumulative des effectifs ou des fréquences, Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur
Mode, médiane, quantiles, moyenne écart-type, coefficient de variation, proportions
Test de comparaison entre deux moyennes, analyse de la variance ou test de Fisher –Sinedecor, test H de Kruskal-Wallis
Test d’adéquation du Khi-deux ou de Kolmogorov-Smirnov
Tableau individus/ variables quantitatives
ACP avec nuage de points représentés dans le premier plan factoriel
ACP avec calculs de poids, coordonnées, matrice des corrélations, coordonnées factorielles, contributions absolues et contributions relatives, classification hiérarchique et
Test de signification des contributions
Test d’uniformité des variables
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
3
classification non hiérarchique
Tableau individus/ variables qualitatives
AFC avec nuage de points représentés dans le premier plan factoriel
Classification ascendante hiérarchique indicée, AFC avec calculs de poids, coordonnées, matrice des corrélations, coordonnées factorielles, contributions absolues et contributions relatives
Test de signification des contributions
Test d’uniformité des variables
Deux groupes de variables quantitatives mesurées sur les mêmes individus
ACP…
ACP…
Analyse des corrélations canoniques, test de régressions linéaires simple et multiples, analyse canonique des correspondances non linéaire
Test d’uniformité des variables
Un groupe de variables qualitatives représentant un caractère répartit en g classes mesurées sur les mêmes individus et un second groupe de variables quantitatives
Analyse des correspondances (AC)
Analyse des correspondances (AC)
Analyse canonique discriminante
Test d’uniformité
Deux groupes de variables qualitatives et un groupe de variables quantitatives
Analyse des correspondances canoniques
Analyse des correspondances canoniques
Régression logistique, régression
Test d’uniformité
Trois groupes ou plus de variables quantitatives mesurées sur les mêmes individus
ACP
ACP
Analyse canonique généralisée
Test d’uniformité
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
4
Deux groupes de variables qualitatives mesurées sur les mêmes individus
Analyse des correspondances canoniques ACC
Analyse des correspondances canoniques ACC
Corrélations poly chroniques
Test d’uniformité
Couple de variable quantitative/variable qualitative(s) et quantitative(s)
Analyse de la Covariance (ANCOVA)
CHAPITRE 2 : STATISTIQUES INFERENTIELLES ET TESTS D’HYPOTHESE
2.1- EXPLICATIONS DE QUELQUES NOTIONS DE BASE
Les Statistiques inférentielles : Ensemble des méthodes et des théories permettant de généraliser à une population de référence des conclusions obtenues à partir de l'étude d'un échantillon extrait de cette population. Elles visent à:
hypothèse: l'hypothèse est une relation hypothétique (provisoire, postulée par le chercheur) entre une variable indépendante et une variable dépendante.
On distingue deux formes d’hypothèse :
- Hypothèse nulle (H0), postulant l'absence de différences entre les caractéristiques de l'échantillon et celles de la population de référence.
- Hypothèse significative ou alternative (H1), postulant l'existence de différences entre les caractéristiques de l'échantillon et celles de la population de référence.
L'hypothèse alternative peut être de deux types: soit dirigés (postule l'existence de la différence et précise le sens qu'elle prendrait) soit non dirigée (postule la différence sans précision du sens). Le premier type est dit unilatéral et le second est bilatéral.
Population: l'ensemble des sujets ou des événements visés par l'étude (les enseignants du primaire, scores des étudiants, revenus des personnes, etc.) = population de référence. Elle peut aller d'un ensemble de nombre relativement réduit, et donc facile à rassembler, à un ensemble de nombre important, fini ou infini, qui
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
5
serait, en pratique difficile à rassembler dans son entièreté. Il en résulte que les chercheurs ont recours généralement à prélever de la population (de référence ou mère) un nombre déterminé de sujets ou d'observations = l'échantillon.
Echantillon: un ensemble de sujets ayant les mêmes caractéristiques de la population-mère, utilisé en vue d'inférer quelque chose à propos de cette population. Il y a plusieurs types d'échantillon dont l'échantillon aléatoire, l'échantillon stratifié, l'échantillon par quotas, etc.
test d’hypothèse
C'est une fonction des variables aléatoires représentant l’échantillon dont la valeur numérique obtenue pour l’échantillon considéré permet de distinguer entre H0 vraie et H0 fausse.
Autrement dit, c'est une démarche consistant à rejeter ou à ne pas rejeter une hypothèse statistique, appelée hypothèse nulle, en fonction d'un jeu de données (échantillon). Il s’agit d'émettre, à partir de calculs réalisés sur des données observées, des conclusions sur la population, en leur rattachant des risques de se tromper.
Définir les hypothèses de travail, constitue un élément essentiel des tests d'hypothèses de même que vérifier les conditions d'application de ces dernières (normalité de la variable, égalité des variances)
Types de test
On parle de tests paramétriques lorsque l’on stipule que les données sont issues d’une distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées à l’aide de paramètres estimés sur l’échantillon (moyenne, mode et médiane), la procédure de test subséquente ne porte alors que sur ces paramètres. L’hypothèse de normalité sous jacente des données est le plus souvent utilisée, la moyenne et la variance suffisent pour caractériser complètement la distribution. Concernant les tests d’homogénéité par exemple, pour éprouver l’égalité des distributions, il suffira de comparer les moyennes et/ou les variances.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
6
Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données. On les qualifie souvent de tests distribution free. L’étape préalable consistant à estimer les paramètres des distributions avant de procéder au test d’hypothèse proprement dit n’est plus nécessaire.
La distinction paramétrique et non paramétrique est essentielle. Elle est systématiquement mise en avant dans la littérature. Les tests non paramétriques, en ne faisant aucune hypothèse sur les distributions des données, élargissent le champ d’application des procédures statistiques. En contrepartie, ils sont moins puissants.
Puissance d'un test:
C'est une évaluation de sa sensibilité, de sa capacité à détecter les effets significatifs dans les données quand, en fait, ils sont présents ; lors de chaque test, nous acceptons une hypothèse et nous refusons l'autre
- On commet une erreur de type 1 quant on rejette H0, alors qu'elle est valable
- On commet une erreur de type 2 quand on accepte H0, alors qu'elle n'est pas valable
On dit qu'un test qui conduit à peu d'erreurs de type 2 est un test qui possède une haute puissance ou très sensible; à l'inverse, on dit qu'un test qui conduit à peu d'erreurs de type 1 et beaucoup d'erreurs de type 2 à une faible puissance. Il est souhaitable d'utiliser un test de haute puissance chaque fois que c'est possible ; la puissance d'un test augmente avec la taille de l'échantillon.
Seuil de signification
En statistique, il n'existe pas de règle rigide permettant de tirer une conclusion concernant les hypothèses; aucun test ne nous fournit une réponse en terme de oui ou non ou de catégorique, mais indique dans quelle mesure nous pouvons être certain de tirer des conclusions; cette mesure se nomme niveau ou seuil de signification, ou encore probabilité d'erreur. Au plus le seuil est petit, au moins il est
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
7
probable que nous nous trompions quand nous nous prononçons pour le rejet ou l'acceptation d'une hypothèse ; généralement, on travaille avec un seuil de 5%.
H0 vraie
H0 fausse
Accepter H0
OK
Erreur de 2nde espèce
Rejeter H0
Erreur de 1ière espèce
α
OK
Puissance 1- α
2.2. LES TESTS PARAMETRIQUES
2.2.1. Tests sur les moyennes
2.2.1.1. Comparaison d’une moyenne d’échantillon à une valeur de référence
quand la variance de la population
est connue.
La question de recherche est : une moyenne calculée sur un échantillon issu d’une population de variance
connue diffère-t-elle significativement d’une moyenne hypothétique
?
>Condition d’application
- La population a une variance
connue (cas très rare) et une moyenne
inconnue (posée par hypothèse égale à
).
- L’échantillon est aléatoire et contient n observations indépendantes.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
8
- La taille n de l’échantillon doit être supérieure à 5 sauf si la distribution de la moyenne dans la population suit une loi normale – auquel cas cette taille peut être quelconque.
On notera à cet égard que la condition d’une grande taille a pour principal but d’assurer que la moyenne de l’échantillon suive une distribution normale
Hypothèses
L’hypothèse nulle à éprouver est :
.
L’hypothèse alternative est :
(pour un test bilatéral)
Ou
(pour un test unilatéral à gauche)
Ou
(pour un test unilatéral à droite)
Statistique calculée et interprétation du test
La statistique calculée est
. Sa distribution suit une loi normale centrée
réduite (moyenne = 0 et écart type = i). On l’appelle test z (« test » ou « z statistic »).
- Dans le cas d’un test bilatéral, on rejette
ou
- Dans le cas d’un test unilatéral à gauche, on rejette
- Dans le cas d’un test unilatéral à droite, on rejette Ho si Z > Zα
Où
est le seuil de signification (ou erreur de première espèce) retenu,
des valeurs de la loi normale centrée réduite que l’on peut lire sur des tables appropriées.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
9
Exemple : Comparaison d’une moyenne à une valeur donnée (variance de la population connue)
Un échantillon de 16 observations est tiré d’une population d’écart type connu
= 40 et de moyenne inconnue
. On suppose que la moyenne de la population est
= 500. La moyenne trouvée sur l’échantillon est m = 493. Peut-on admettre que la population ait une moyenne
= 500, en adoptant un risque de première espèce
de 5% ? La taille de l’échantillon (n = 16, supérieure à 5) dispense de l’hypothèse de normalité.
Z =
, soit – 0,70.
Par ailleurs, on peut lire sur la table de la loi normale centrée réduite que
=
= 1,96 et que
=Z 0.05 = 1,64.
Test bilatéral : puisque -
(-1,96
- 0,70
1,96), on se situe dans la zone d’acceptation de
et on ne rejette pas l’hypothèse selon laquelle la moyenne de la population est égale à 500 (
= 5000). Test unilatéral à gauche : puisque Z
-
(-0,70
- 1,64), on se situe dans la zone d’acceptation de
et on ne rejette pas l’hypothèse selon laquelle la moyenne de la population est égale à 500 (
= 500).
Test unilatéral à droite : puisque Z <
(-0,70< 1,64), on se situe dans la zone de rejet de
et on rejette l’hypothèse selon laquelle la moyenne de la population est égale à 500 (
= 500).
2.2.1.2. Comparaison d’une moyenne d’échantillon m à une valeur de référence
quand la variation de la population
est inconnue
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
10
La question de recherche est : une moyenne m calculée sur un échantillon issu d’une population de variance
inconnue diffère-t-elle significativement d’une moyenne hypothétique
?
Condition d’application
- La population a une variance
inconnue qui doit être estimée sur l’échantillon et une moyenne
également inconnue (posée par hypothèse égale à
- L’échantillon est aléatoire et contient n observations indépendantes
- La taille n de l’échantillon est supérieure à 30 ou bien la moyenne suit dans la population une loi normale auquel cas la taille n est quelconque
a- Hypothèses
L’hypothèse nulle a éprouver est :
:
L’hypothèse alternative est
:
(pour un test bilatéral)
Ou
(pour un test unilatéral à gauche)
Ou
(pour un test unilatéral à droite).
Statistique calculée et interprétation du test
La variante inconnue de la population
est estimée sur l’échantillon, avec n -1 degrés de liberté, par s² =
La statistique calculée est T =
. Sa distribution suit une loi de student avec n – 1 degrés de liberté. On l’appelle « test » ou « test de student » (t test ou t statistic). Suit approximativement une loi normale centrée réduite. Autrement
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
11
dit, T =
. = Z =
. On peut donc prendre la décision (i.e rejet ou acceptation de Ho. Rappelons que les règles de décision de la loi normale centrée réduite sont :
- Dans le cas d’un test bilatéral, on rejette
si
ou
- Dans le cas d’un test unilatéral à gauche, on rejette
- Dans le cas d’un test unilatéral à droite, on rejette
Où
est le seuil de signification (ou erreur de première espèce) retenu,
et
des valeurs de la loi normale centrée réduite que l’on peut lire sur des appropriées.
Mais lorsque n est petit, par exemple inférieur à 30, il faut absolument utiliser la loi du T de student à n – 1 degrés de liberté et non la loi normale Z. Les règles de décision sont alors les suivantes :
- Dans le cas alors d’un test bilatéral, on rejette
si T
ou
T
- Dans le cas d’un test unilatéral à gauche, on rejette
si T
- Dans le cas d’un test unilatéral à droite, on rejette
si T
Exemple : comparaison d’une moyenne à une valeur donnée (variance de la population inconnue)
On dispose à présent d’un échantillon beaucoup plus large constitué de 144 observations. La moyenne trouvée sur cet échantillon est à nouveau m = 493. L’écart type estimé sur l’échantillon est s = 46,891. Peut-on toujours admettre que
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
12
la moyenne de la population est
= 500, en adoptant un risque de première espèce
de 5% ?
La grande taille de l’échantillon (n = 144, supérieure à 30) dispense de l’hypothèse de normalité de la distribution de la moyenne dans la population. De même, elle justifie l’approximation de la statistique T par une loi normale centrée réduite. Par ailleurs,
2.2.1.3 COMPARAISON DE LA DIFFERENCE DE DEUX MOYENNES A UNE VALEUR DONNEE QUAND LES VARIANCES SONT CONNUES
La question de recherche est : La différence entre les moyennes de deux populations de variances connues
1 et
2 est-elle significativement différente d’une valeur donnée Do (par exemple zéro) ?
Condition d’application
-les variances
1 et
2 des deux populations sont connues les moyennes
1 et
2 sont inconnues
-Les deux échantillons sont tous deux aléatoires et contiennent respectivement n1 et n2 observations indépendantes
- la distribution de la moyenne dans chacune des deux populations suit une loi normale ou bien la taille de chaque échantillon est supérieure à 5,
Hypothèses
L’hypothèse nulle à éprouver est : H.O ;
1 -
2 =DO
L’hypothèse alternative est : H1 :
1 -
2 ≠DO (pour un test bilatéral)
Ou H1 ;
1 -
2 <DO (pour un test unilatéral à gauche)
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
13
Ou H1 : 1 - 2 >DO (pour un test unilatéral à droite)
Statistique calculée et interprétation du test
La statistique calculée est 1 2
O
d
z D
m m
avec 2 2
1 2
1 2
2
n1 1 s n2 1 s d
n n
s
z suit une loi normale centrée et les règle de décisions sont les suivantes ;
- Dans le cas d’un test bilatéral, on rejette HO si Z< -Zα/2 ou Z> Zα/2
- Dans le cas d’un test unilatéral à gauche, on rejette HO si Z< -Zα
- Dans le cas d’un test unilatéral à droite, on rejette HO si Z >Zα
2.2.1.4 COMPARAISON DE LA DIFFERENCE DE DEUX MOYENNES A UNE
VALEUR DONNEE QUAND LES VARIANCES SONT INCONNUES MAIS
INEGALES
La question de recherche est : La différence entre les moyennes ; 1 et 2 de
deux populations de même variances inconnues est-elle significativement
différente d’une valeur donnée Do (par exemple zéro) ?
Conditions d’application
-Les deux populations ont la même variance inconnue et des moyennes 1 et 2
inconnues
-Les deux échantillons sont tous deux aléatoires et contiennent respectivement n1 et
n2 observations indépendantes
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
14
-la distribution de la moyenne dans chacune des deux populations suit une loi
normale ou bien la taille de chaque échantillon est supérieure à 30
-Hypothèse d’égalité des variances est vérifiée
Hypothèses
L’hypothèse nulle à éprouver est : H.O ; 1 - 2 =DO
L’hypothèse alternative est : H1 : 1 - 2 ≠DO (pour un test bilatéral)
Ou H.1 ; 1 - 2 <DO (pour un test unilatéral à gauche)
Ou H1 : 1 - 2 >DO (pour un test unilatéral à droite)
Statistique calculée et interprétation du test
La statistique calculée est 1 2
O
d
z D
m m
s
2.2.1.5 COMPARAISON DE K MOYENNES K(analyse de la variance)
la question de recherche est : K moyennes m1, m2 m3...mk observées sur k échantillons
diffèrent-elles significativement les unes des autres ?
Condition d’application
-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/
Observations indépendantes
-la distribution des moyennes dans chacune des k populations suit approximativement
une loi normale de même variance inconnue
-le choix de la structure des k groupes ne doit pas déterminer les variables
concomitantes.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
15
HYPOTHESES
L’hypothèse nulle à éprouver est : H0 : 1= 2= ….= K,
L’hypothèse alternative est : H1 : les valeurs des I (i=1, 2, …K)ne sont pas toutes
identiques, cela signifie qu’il suffit que la valeur d’un paramètre soit différente pour
que l’hypothèse nulle soit rejetée au profit de l’hypothèse alternative.
Statistique calculée et interprétation du test
La statistique calculée est
var exp
var
iance liquée
F
iance residuelle
. Cette statistique suit une loi
de Fisher avec k-1 et n-k-1 degrés de liberté où n est le nombre total d’observations.la
règle de décision est la suivante : on rejette Ho si F>Fα(k-1 ;n-k)
2.2.1.6 COMPARAISON DEUX SERIES DE MESURES (le test T2 de Hotteling)
la question de recherche est : les profils moyens de deux séries de k mesures ( m1,
m2 ;…mk) et( m1’, m2’ ;…mk’) observées sur deux échantillons diffèrent-ils
significativement l’un de l’autre?
le test de T2 de Hotteling permet de comparer deux matrices ou deux vecteurs
quelconques, notamment des matrices de d corrélations, de variances /covariances, des
moyennes, etc.
Condition d’application
-Les 2 échantillons sont aléatoires et contiennent respectivement n1, n2
Observations indépendantes
- les deux distributions sont indépendantes suivent une loi normale.
a- Hypothèse
L’hypothèse nulle a éprouver est : : les deux mesure pressentent le même
profil .
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
16
L’hypothèse alternative est : les deux mesures pressentent les profils
différents.
Statistique calculée et interprétation du test
la statistique calculée est 1 2 2
1 2
1
( 2)
K
F
k
n n
T
n n
où T2 est le T2 de Hotelling ; k le nombre de variables. Cette statistique suit une loi de
Fisher avec k-1 et n1+n2-k-1 degrés de liberté où n est le nombre total d’observations.
la règle de décision est la suivante : on rejette Ho si F>Fα(k-1 ; n1+n2-k-1)
2.2.2. TESTS SUR LES PROPORTIONS
2.2.2.1 COMPARAISON D’UNE PROPORTION ou pourcentage p à une valeur
de référence πo
La question de recherche est : une proportion p calculée sur un échantillon
diffère-t-elle significativement d’une proportion hypothétique πo ? .
-Condition d’application
- L’échantillon est aléatoire et contient n observations indépendantes
- la distribution de la proportion suit dans la population une loi binomiale
- La taille n de l’échantillon est grand (supérieure ou égale à 30).
- Hypothèse
L’hypothèse nulle a éprouver est : : π= πo
L’hypothèse alternative est : π πo (pour un test bilatéral)
Ou : : π< πo (pour un test unilatéral à gauche)
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
17
Ou : : π> πo (pour un test unilatéral à droite).
b- Statistique calculée et interprétation du test
La statistique calculée est
o
p
p
T
Avec
1
o o
p n
Les règles de décision de la loi normale centrée réduite sont :
- Dans le cas d’un test bilatéral, on rejette si ou
- Dans le cas d’un test unilatéral à gauche, on rejette
- Dans le cas d’un test unilatéral à droite, on rejette
2.2.2.2 COMPARAISONS DE DEUX PROPORTIONS OU POURCENTAGES
P1 ET P2 (GRANDS ECHANTILLONS)
La question de recherche est : deux proportions p1 et p2 observées sur deux
échantillons diffèrent-t-elles significativement l’une de l’autre ? .
-Condition d’application
- Les deux échantillons sont aléatoires et contiennent respectivement n1 et
n2 observations indépendantes
- la distribution des proportions suit dans chaque population une loi
binomiale
- La taille des échantillons est grande (supérieure ou égale à 30).
- Hypothèse
L’hypothèse nulle a éprouver est : : π1= π2
L’hypothèse alternative est : π1 π2 (pour un test bilatéral)
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
18
Ou : : π1< π2 (pour un test unilatéral à gauche)
Ou : : π1> π2 (pour un test unilatéral à droite).
-Statistique calculée et interprétation du test
La statistique calculée est
1 2
0 0
2 2
1 1
1
Z
p p
p p
n n
Cette distribution suit une loi normale centrée
réduite
Les règles de décision de la loi normale centrée réduite sont :
- Dans le cas d’un test bilatéral, on rejette si ou
- Dans le cas d’un test unilatéral à gauche, on rejette
- Dans le cas d’un test unilatéral à droite, on rejette
Comparaison de k proportions ou pourcentages pk (grands échantillons)
La question de recherche est : K proportions p1, p2 p3….pk observées sur k
échantillons diffèrent-elles significativement les unes des autres ?
Condition d’application
-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/
Observations indépendantes
-la distribution des proportions dans chacune des k populations suit une loi binomiale
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
19
- la taille des échantillons est grande.
- ce test est meilleurs si les tailles des échantillons sont supérieures à 50 chacune et
que nkpk≥ 5 pour chaque échantillon.
HYPOTHESES
L’hypothèse nulle à éprouver est : H0 :π1= π2= ….=πK,
L’hypothèse alternative est : H1 : les valeurs des πI (i=1, 2, …K) ne sont pas toutes
identiques, cela signifie qu’il suffit que la valeur d’un paramètre soit différente pour
que l’hypothèse nulle soit rejetée au profit de l’hypothèse alternative.
-Statistique calculée et interprétation du test
La statistique calculée est
2
1 1
k
j j
j j
p
p p
x n
n
Avec xj =effectif dans l’échantillon j correspondant à la proportion pj et 1
1
K
j
i
k
k
j
P
x
n
la distribution de χ suit un khi-deux à k-1 degrés de liberté.la règle de décision est la
suivante Ho si χ ≥ χ2
α(k-1).
2.2.3. TESTS SUR LES VARIANCES
2.2.3.1. COMPARAISON D’UNE VARIANCE σ2 A UNE VALEUR DE
REFERENCE σ0
2
La question de recherche est : une variance s2 calculée sur un échantillon diffère-t-elle
significativement d’une variance hypothétique σ0
2
>Condition d’application
- L’échantillon est aléatoire et contient n observations indépendantes.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
20
- la distribution de la variance dans la population suit une loi normale de
moyenne et de variance inconnues.
Hypothèses
L’hypothèse nulle a éprouver est : : σ2= σ0
2
L’hypothèse alternative est : σ2 σ0
2 (pour un test bilatéral)
Ou : : σ2< σ0
2 (pour un test unilatéral à gauche)
Ou : : σ2> σ0
2 (pour un test unilatéral à droite).
Statistique
La statistique à calculer est
2
2
1
2 2
0 0
1
n
i
i
m
n
s x
Où m est la moyenne et s2 la variance de l’échantillon
. Cette distribution suit une loi de khi-deux avec n-1 degrés de liberté noté χ2 (n-1)
Les règles de décision sont alors les suivantes :
- Dans le cas alors d’un test bilatéral, on rejette si χ2
<
χ2
α/2 (n-1) ou
χ2 > χ2
α/2 (n-1)
-Dans le cas d’un test unilatéral à gauche, on rejette si χ2
<
χ2
1-α (n-1)
-Dans le cas d’un test unilatéral à droite, on rejette si χ2 > χ2
1-α (n-1)
2.2.3.2. COMPARAISON DE DEUX VARIANCES
La question de recherche est : les variances σ1
2 et σ2
2de deux populations sont –elles
significativement différentes l’une de l’autre.
>Condition d’application
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
21
- les deux échantillons sont aléatoires et contiennent respectivement n1et n2
observations indépendantes.
- la distribution des variances dans chaque population suit une loi normale
ou bien les échantillons sont de grande taille
Hypothèses
L’hypothèse nulle a éprouver est : : σ1
2= σ2
2
L’hypothèse alternative est : σ1
2 σ2
2 (pour un test bilatéral)
Ou : : σ1
2< σ2
2 (pour un test unilatéral à gauche)
Ou : : σ1
2> σ2
2 (pour un test unilatéral à droite).
Statistique
La statistique à calculée est 1
2
F s
s
avec
1 2
1 1
1
1
1
1
i
i
n
x x
s
n
et
2 2
2 2
1
2
2
1
i
i
n
x x
s
n
.
Cette distribution suit une loi de Fisher –Snedecor Fα(n-1 ; n-1 )
Les règles de décision sont alors les suivantes :
- Dans le cas alors d’un test bilatéral, on rejette si F
<
Fα(n-1 ; n-1 )ou
F > Fα(n-1 ; n-1 )
-Dans le cas d’un test unilatéral à gauche, on rejette si F
<
Fα(n-1 ; n-1 )
-Dans le cas d’un test unilatéral à droite, on rejette si F > Fα(n-1 ; n-1 )
2.2.3.3. COMPARAISON DE K VARIANCES (TEST DE BARTLETT)
La question de recherche est : K variances σ1, σ 2 σ 3…. σ k observées sur k
échantillons diffèrent-elles significativement les unes des autres ?
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
22
Condition d’application
-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/
Observations indépendantes
-la distribution des variances dans chacune des k populations suit une loi normale ;
-Aucune des variances empiriques n’est nulle.
HYPOTHESES
L’hypothèse nulle à éprouver est : H0 : σ 1= σ 2= ….= σ K,
L’hypothèse alternative est : H1 : les valeurs des σ i(i=1, 2, …K)ne sont pas toutes
identiques, cela signifie qu’il suffit que la valeur d’un paramètre soit différente pour
que l’hypothèse nulle soit rejetée au profit de l’hypothèse alternative.
Statistique calculée et interprétation du test
La statistique calculée est 2 2
1
ln ln
k
i i
i
v s v s
Avec vi = ni -1.
2
2 1
n
ij i
j
i
i
x x
s
v
; 2 2
1 1
1 k k
i i i
i i
v
v v s v s
: xij est la valeur de
l’observation j dans la population i. xi= la moyenne de la variable x dans la
population i estimée sur la population de taille ni .si est la variance la variable x dans
la population i estimée sur la population de taille ni
Cette statistique suit une loi khi-deux à v degré de liberté.la règle de décision est
la suivante : on rejette Ho si χ>χα(k-1)
2.2.3.4 COMPARAISON DE K VARIANCES (TEST DE COCHRAN)
La question de recherche est : K variances σ1, σ 2 σ 3…. σ k observées sur k
échantillons diffèrent-elles significativement les unes des autres ?
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
23
plus précisément le test de Cochran si la plus grandes des k variances est
significativement différente des k-1 autres variances.
Condition d’application
-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/
Observations indépendantes
-la distribution des variances dans chacune des k populations suit une loi normale ;
ou tout au moins ; une loi unimodale.
HYPOTHESES
L’hypothèse nulle à éprouver est : H0 : σ 1= σ 2= ….= σ K,
L’hypothèse alternative est : H1 : les valeurs des σ i(i=1, 2, …K)ne sont pas toutes
identiques, cela signifie qu’il suffit que la valeur d’un paramètre soit différente pour
que l’hypothèse nulle soit rejetée au profit de l’hypothèse alternative.
Statistique calculée et interprétation du test
La statistique calculée est
2
max
2
1
k
i
i
C s
s
où s2
i sont les estimations des variances
calculées avec v=n-1 degré de liberté et s2
max la plus grande des k variances estimées.
on compare cette statistique c à des valeurs critiques cα disponibles dans une
table .la règle de décision est la suivante : on rejette H0 si c > cα
2.3. TEST NON PARAMETRIQUE
Les tests non paramétriques portent sur les statistiques (ie les fonctions) construites
à ions et qui ne dépendent pas de la distribution de la population correspondante. La
validité des tests non paramétriques dépend des conditions générales beaucoup moins
contraignantes que celles requises pour la mise en oeuvre des tests paramétriques.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
24
Les tests non paramétriques présentent plusieurs avantages ;
-Ils sont applicables aux petits échantillons.
-Ils sont applicables à divers types de données (nominales, ordinales, intervales, ratios)
-Ils sont applicables à des données incomplètes ou imprécises.
2.3.1. Les tests sur une variable dans plusieurs échantillons
2.3.1.1. Comparaison d’une distribution empirique à une distribution théorique
(test d’adéquation ou de qualité d’ajustement)
La question de recherche est : la distribution empirique De observée sur un
échantillon est-elle significativement différente d’une distribution de référence Dr?
Condition d’application
-L’échantillon est aléatoire et contient n Observations indépendantes reparties en k
classes
- une loi de distribution de référence Dr est choisie (loi normale, loi du khi-2, etc)
HYPOTHESES
L’hypothèse nulle à éprouver est : H0 : De = Dr
L’hypothèse alternative est : H1 : De Dr
Statistique calculée et interprétation du test
La statistique calculée est
2
1
k
i i
i i
o T
T
Où oi et Ti désignent pour chacune des k classes ; les effectifs observés et les effectifs
théoriques calculer d’après la distribution de référence Dr
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
25
la distribution de χ suit une loi de khi-deux à k-1-r degré de liberté ; où r désigne le
nombre de paramètres de la loi de référence qui ont été estimés à l’aide des
observations/la règle de décision est la suivante : on rejette Ho si χ>χα(k-1-r)
2.3.1.2. COMPARAISON DES DISTRIBUTIONS D’UNE VARIABLE X DANS
DEUX POPULATIONS A ET B (TEST DE KOLMOGOROV-SMIRNOV)
La question de recherche est : une variable X est –elle identiquement distribuée dans
deux population A et B.
Conditions d’application
-les deux échantillons sont aléatoires et contiennent nA et nB observation
indépendantes issues respectivement des populations A et B.
-la variable X étudiée est une variable d’intervalle ou de ratio dont la loi de
distribution est quelconque.
-les limites des classes sont identiques dans les deux échantillons.
Hypothèses
L’hypothèse nulle à éprouver est H0 :la variable X est distribuée à l’identique dans la
population A et B.
L’hypothèse alternative est H1 : la variable X est distribuée differemment dans la
population A et B.
Statistique calculée et interprétation du test
La statistique à calculée est : D= Maximum A B
F X F X OU FA(x) et FB(x)
désignent les fréquences cumulées des classes A et B .on compare aux valeurs
critiques do de la table de Kolmogorov-smirnov. la règle de décision est la suivante:
on rejette Ho si d>dO.
2.3.1-3-COMPARAISON DES DISTRIBUTIONS D’UNE VARIABLE X DANS
DEUX POPULATIONS A ET B (TEST DE U DE MANN ET WHITNEY)
la question de recherche est : une variable X est –elle identiquement distribuée dans
deux population A et B.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
26
Conditions d’application
-les deux échantillons sont aléatoires et contiennent nA et nB observations
indépendantes issues respectivement des populations A et B. supposons nA >nB pour
les formules qui vont suivent ; en cas de besoin on intervertit la notation des
échantillons A et B
-la variable X étudiée est au moins ordinale.
Hypothèses
L’hypothèse nulle à éprouver est H0 :la variable X est distribuée à l’identique dans la
population A et B.
L’hypothèse alternative est H1 : la variable X est distribuée différemment dans la
population A et B.
Statistique calculée et interprétation du test
Soit (A1 ;A2 …AnA) l’échantillon de taille nA issue de la population A et(B1 ;B2 …BnB)
l’échantillon de taille nB issue de la population B .on obtient N = nA + nB observation
que l’on classe par ordre croissant sans tenir compte de l’appartenance aux
échantillons.
la statistique calculée est U=minimum
1 1
;
2 2
A A B B
A B A A B B
n n n n
n n R n n R
Où RA et RB désignent respectivement la somme des rangs des éléments de A et de B.
on compare la statistique U aux valeurs critiques Uα de la table de Mann et Whitney.la
règle de décision est la suivante : on rejette HO si U> Uα
lorsque nA et nB sont grands(supérieur chacun à 12)
' 2
1
12
A B
A B A B
U
U
n n
n n n n
Suit une loi centrée réduite. On peut donc utiliser
U’comparé à la valeur lue sur la table de la loi normale.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
27
2.3.2. Tests de normalité.
Pour calculer les intervalles de confiance prévisionnels et aussi pour effectuer les tests de
Student sur les paramètres, la vérification de la normalité des erreurs s’avère nécessaire. Le test de
Jarque et Bera (1984), basé sur la notion de Skewness (asymétrie) et de Kurtosis (aplatissement)
permet de vérifier la normalité d’une distribution statistique.
2.3.2.1. Skewness et Kurtosis des rendements boursiers.
Soit
n
i
k
k i x x
n 1
1
le moment centré d’ordre k.
Le coefficient de Skewness mesure le degré d'asymétrie de la distribution. Il est définit
comme suit :
3/ 2
2
3
S en pratique on a :
2
3
2
3
( )
1
1
i
n
t
it
n
t
it i
R R
N
R R
N
Ski
Si Ski est égal à 0, la distribution est symétrique. Si S est inférieur à 0, la distribution est
asymétrique et étalée à gauche. Si S est supérieur 0, la distribution est asymétrique et étalée à droite.
En revanche Le coefficient de Kurtosis mesure le degré d'aplatissement de la distribution. Il
se définit classiquement comme suit:
2
2
4
K en pratique on a :
2
2
4
( )
1
1
i
n
i
it
n
i
it i
R R
N
R R
N
Kui
On le compare ensuite à 3. En effet, Lorsque K> 3, cela indique que la distribution est
« leptokurtique » ou pointue. Si K= 3 alors la distribution est dite mésokurtique. Lorsque K<3, cela
indique que la distribution est relativement plus aplatie ou « platikurtique ».
Si la distribution est normale et le nombre d’observations grand (n›30) alors S=0 et K=3.
2.3.2.2. Le test de Jarque Bera(JB).
(4,4)
(4.5)
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
28
Il s’agit d’un test joint qui synthétise les résultats précédents, si S et K obéissent aux
caractéristiques d’une loi normale alors la statistique JB décrite par: )
4
( 3)
(
6
2
2
K
S
n
JB suit un
Khi deux à deux degrés de liberté.
Donc si 2 2
1 JB on rejette l’hypothèse nulle (H0) de normalité des résidus au seuil α.
Ces tests de normalité servent également à détecter la présence de l’hétéroscédasticité. En
effet, l’hétéroscédasticité se manifeste sur le graphe de la distribution par des queues de probabilités
plus épaisses (distribution leptokurtique) que celles de la loi normale.
2.3.3. Test de rang signé de Wilcoxon
Ce deuxième test non paramétrique est utilisé afin de lever les hypothèses non vérifiées par
le test de Student tel que l'hypothèse de normalité des rentabilités. C’est un test non paramétrique
dont le modèle ne précise pas les conditions que doivent remplir les paramètres de l’échantillon,
à la différence des tests paramétriques. Ce test prend en compte à la fois le signe et l’amplitude de la
variation anormale sur un jour donné de la fenêtre d’événement. Ce test non paramétrique noté
Zrang, est basé sur l'hypothèse d’une répartition symétrique des rendements anormaux.
Le principe du test de rang signé de Wilcoxon est le suivant : tout d’abord les
variations positives et négatives des rendements sont rangées par ordre croissant sans tenir
compte de leurs signes1. Ensuite, nous calculons la somme des rangs des variations positives comme
suit :
n
i
i i T R d
1
où
- T : somme des rangs de variations positives
- i R : rang de la variation
- i d =1 si la variation est positive
- i d =0 si la variation est négative
-n : taille de l’échantillon
Enfin, la statistique du test se calcule ainsi :
24
( 1)(2 1)
4
( 1)
n n n
n n
T
Zrang
1 Pour les variations négatives, on tient compte de la valeur absolue.
(4. 27)
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
29
Sous l’hypothèse nulle, H0 : absence des rendements anormaux moyens et n supérieur à 8,
la statistique de Wilcoxon suit une loi normale centrée réduite.
CHAPITRE 3 : MISE EN EVIDENCE DE QUELQUES RELATIONS DE
CAUSE A EFFET
3.1. RELATIONS DE CAUSE A EFFET SIMULTANEES
3.1.1. TEST PRELIMINAIRE : Test de stationnarité
Lorsqu’on utilise des données temporelles, il est primordial qu’elles conservent une
distribution constante dans le temps. Ce concept de stationnarité doit être vérifié pour
chacune des séries afin d’éviter des régressions factices pour lesquelles les résultats
pourraient être « significatifs », alors qu’ils ne le sont pas. L’étude de la stationnarité
constitue le préalable incontournable de toutes analyses des séries chronologiques. Par étude
de la stationnarité, il est entendu l’examen des caractéristiques stochastiques de la série
temporelle en question (espérance et variance). Une série temporelle est dite stationnaire2si
elle ne comporte ni tendance, ni saisonnalité, et plus généralement aucun facteur n’évoluant
avec le temps.
Si une série est non stationnaire, la différencier peut la convertir en série stationnaire.
Par ailleurs, notre préoccupation étant de montrer que les séries sont stationnaires, en
considérant le taux de croissance réel du PIB par habitant noté t y , il convient d’écrire
l’équation suivant la forme : t t t y py 1 (3.1)
Où t
représente le terme d’erreur stochastique c’est-à-dire qui satisfait les hypothèses
classiques à savoir la moyenne du terme de l’erreur qui est nulle, soit ( ) 0 t E et sa
variance constante, soit I
t t
2 var( ) .
2 Un processus stochastique xt est stationnaire si :- sa moyenne est constante et indépendante du temps ; sa covariance
est indépendante du temps. - sa variance est finie et indépendante du temps ;
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
30
L’équation (3.1) étant du premier ordre, elle consiste en la régression de la valeur de y
de la période t sur sa valeur de la période t-1.
Par ailleurs si le coefficient de t 1 y est égal à 1 ( p 1), on dit qu’il y a problème de
racine unitaire autrement dit la série en question n’est pas stationnaire. Dans ce cas il faut la
différencier pour la rendre stationnaire.
En économétrie, la série temporelle qui est considérée comme racine unitaire est
qualifiée de processus de marche au hasard c’est-à-dire une situation de série non
stationnaire.
Le test le plus simple pour ce faire est celui proposé par Engle et Granger à savoir le
test de Dickey-Fuller augmenté3 (DFA [1981]) qui admet la possibilité d’auto-corrélation
des résidus. Ce test est utilisé du fait de la généralisation des valeurs critiques par le logiciel
économétrique « Eviews » qui facilite l’interprétation de significativité. En effet on distingue
le cas de DFA en niveau et le cas de DFA en première différence.
S’agissant du premier cas, de façon générale, si la série est différenciée d fois, elle est
intégrée d’ordre d et elle se note I(d). De ce fait, si d est égal 0, le résultat ou la décision
notée I(0) voudrait dire que le test de DFA en niveau est significatif donc, la série est
stationnaire.
Par contre s’agissant du second cas, si le test du DFA en niveau n’est pas significatif, la
série doit être convertie en utilisant le test de DFA en première différence. Si le test est
significatif, on dira que la série originale est intégrée d’ordre 1 et elle est notée I(1) à partir
d’un seuil de signification précis. Il faut reconnaître qu’au cas où la série n’est pas
stationnaire en première différence, elle sera différenciée d’ordre 2 et sera notée I(2), ainsi de
suite.
Au regard de tout ce qui précède, les hypothèses généralisées à partir de l’équation (3.1)
sont :
- hypothèse nulle (H0) : il y a racine unitaire ( p 1).
- hypothèse non nulle (H1) : il y a absence de racine unitaire ( p 1)
3 Le test de DFA ajoute des retards aux modèles testés afin de contrôler l’auto corrélation, contraire au test de DF
standard.
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
31
De la règle de décision, que ce soit DFA en niveau ou DFA en première différence, si la
valeur statistique calculée est supérieure à la valeur critique, on accepte l’hypothèse
alternative et on rejette l’hypothèse nulle. Dans le cas contraire on accepte l’hypothèse nulle
et on rejette l’hypothèse non nulle. Cette conclusion pourrait s’apprécier avec la statistique de
student ou la valeur de probabilité calculée. Cette valeur doit être nulle ou inférieure au seuil
de signification pour que l’hypothèse alternative soit acceptée.
3.1.2. TECHNIQUE D’ESTIMATION DU MODELE
Il est vrai que beaucoup de paramètres entrent dans le choix d’un modèle efficace,
c’est-à-dire celui qui permet d’avoir les estimateurs significatifs et efficaces. Mais dans le
cadre de notre étude, nous mettrons en évidence le critère d’information d’Akaie (CIA) et le
critère de Schwarz (CS). Ces critères stipulent que, à partir de deux modèles définis et
estimés, le modèle le plus efficace est celui qui possède le CIA et le CS le plus faible. Ces
critères permettent de comparer la performance prévisionnelle tant à l’intérieur qu’à
l’extérieur d’un modèle. Ces tests sont performants pour la détermination du nombre de
retard dans les modèles VAR. L’estimation du modèle VAR (vector autoregressive model)
sera faite à partir des moindres carrés ordinaires.
Les hypothèses suivantes doivent satisfaire l’application des MCO à savoir :
- et le terme d’erreur doit suivre une loi normale centrée réduite, soit e N t .
- la moyenne du terme d’erreur est nulle, soit ( ) 0 t E e .
- la variance du terme d’erreur est constante, soitVar e I
t et
2 ( ) .
- la covariance des erreurs doit être nulle, soit ( , ) 0 it jt Cov e e avec i j .
3.1.3. TEST DE NON-CAUSALITE DE GRANGER DE TODA-YAMAMOTO
Au niveau théorique, la mise en oeuvre de relations causales entre les variables
économiques permet une meilleure appréhension des phénomènes économiques, et fournit
des informations supplémentaires quant à l’antériorité des évènements entre eux et par là
même, permet la mise en place d’une politique économique optimisée. De nombreux auteurs
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
32
ont tenté d’améliorer la puissance du test de non-causalité de Granger par la construction de
procédures alternatives (Johansen et Juselius, 1990 ; Mosconi et Giannini, 1992 ; Phillips et
Toda, 1993). Mais ces procédures ne sont pas simples et commodes (Huang, 2005 ;
Rambaldi et Doran, 1996 ; Shan et Sun, 1998). La procédure de Toda et Yamamoto (1995)
cependant est plus simple et donne des résultats probants. Ce test est choisi pour sa simplicité
et pour le fait qu’il réponde bien aux données. La définition de la causalité est entièrement
fondée sur la prédictibilité de certaines séries, Xt par exemple. Si une série Yt contient dans
ses valeurs passées une information qui améliore la prédiction de Xt et si cette information
n’est contenue dans aucune autre série utilisée pour calculer le prédicteur, alors on dit que Yt
cause Xt [Granger 1969, p.430]4 La causalité au sens de Granger cherche à savoir si les
valeurs antérieures d’une variable améliorent l’explication de l’autre variable. Pour avoir une
causalité au sens de Granger, le test F d’une régression doit être significatif alors que le test
de l’autre régression ne doit pas l’être. Si les deux tests F sont significatifs, nous aurions une
relation symétrique et si les deux tests F ne sont pas significatifs, nous n’aurons pas de
causalité.
Dans cette causalité développée par Granger, la variable Y1t cause la variable Y2t si la
prévision de cette dernière est améliorée en incorporant à l’analyse des informations relatives
à Y1t et à son passé.
Soit le modèle VAR (p) pour lequel les variables Y1t et Y2t sont stationnaires :
t
t
Y
Y
2
1
=
0
0
b
a
+
2
1
1
1
2
1
1
1
b
b
a
a
2 1
1 1
t
t
Y
Y
+
2
2
1
2
2
2
1
2
b
b
a
a
2 2
1 2
t
t
Y
Y
+…+
2
1
2
1
k
k
k
k
b
b
a
a
t k
t k
Y
Y
2
1
+… +
2
1
2
1
p
p
p
p
b
b
a
a
t p
t p
Y
Y
2
1
+
t
t
2
1
Sous forme compacte, ce modèle s’écrit :
[Yi,t] = [A0] + [Ai
1Bi
1] [Yi,t-1] + [Ai
2Bi
2] [Yi,t-2] +…+ [Ai
kBi
k] [Yi,t-k] +… + [Ai
pBi
p]
[Yi,t- p]+[ i,t] (6)
4BOURBONNAIS, R 1993. Économétrie : cours et exercices corrigés, Dunod, 2ème éd ; Paris.
(5)
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
33
Avec [Yi,t] =
t
t
Y
Y
2
1
, A0 =
0
0
b
a
, [Ai
kBi
k] =
2
1
2
1
k
k
k
k
b
b
a
a
k = 1, 2,…p. [ i,t] =
t
t
2
1
Le test s’effectue ensuite en deux temps :
- On teste H0 : Y2t ne cause pas Y1t c’est-à-dire que les coefficients des blocs matriciels
B sont nuls.
- On teste H’0 : Y1t ne cause pas Y2t c’est-à-dire que les coefficients des blocs
matriciels A sont nuls.
Si on est amené à accepter les deux hypothèses alternatives H1 et H’1, on parle de boucle
rétroactive.
Dans ce test, on estime le modèle VAR à niveau en augmentant le nombre de retard (k)
d’une unité.
Ayant dans ce chapitre précisé les différents tests à pratiquer, il reste à procéder aux
estimations des paramètres du modèle et à en donner une interprétation. Ce sera l’objet du
chapitre suivant.
3.2. RELATION DE CAUSE A EFFET NON SIMULATANEES
3.2.1. REGRESSION LOGISTIQUE MULTINOMIALE
Dans une modélisation logistique à K modalités, la probabilité d`occurrence de la modalité j s`écrit :
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
34
Par convention, la modalité 0 est la modalité de base. Notons que :
=ln(1)=0
V X,J:B(j,j) =0
En regardant la significativité de nos coefficients, nous pouvons 0 partir du signe des coefficients de nos différentes variables déterminer la faible ou forte relative probabilité d’effet de nos variables explicatives sur la variable expliquée.
3.2.2. Régression logistique en données de Panel
Dans le cadre de cette étude nous disposons des variables de performance (dépendantes) qui sont qualitatives et des variables de gouvernance (indépendantes) qui sont également qualitatives. Dès lors, le modèle approprié pour étudier l’effet de plusieurs variables explicatives sur une variable à expliquer mesurée sur une échelle dichotomique ou booléenne est le modèle Logit ou Probit encore appelée régression logistique.
La régression logistique nous permettra de conforter, voire augmenter la fiabilité de nos résultats. C’est pour cela que le modèle logit de la régression logistique s’impose à nous. Le choix de ce modèle tient au fait que nous traitons les variables qualitatives. De plus cette méthode a un caractère scientifique beaucoup plus accru. L’intérêt de ce modèle réside dans la simplicité du passage de l’estimation d’un coefficient qui mesure la force de l’association entre la Performance (Y) et les variables explicatives (Xi). Dans le cas d’une variable explicative (équivalent à une régression simple) le modèle s’écrit :
P (Y
Xit) = f(x) = ————————
1+ exp (
Il s’agit de la probabilité de performance si la variable X est prise en compte et quand sa valeur est connue. Le coefficient
de la variable explicative dans le modèle logistique mesure
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
35
l’association entre la performance et la variable explicative. Ce qui permet d’interpréter facilement les résultats obtenus.
L’extension vers un modèle à plusieurs variable (régression multiple), qui cadre avec notre recherche est le suivant :
exp
}
P (Yit ∣
)= ————————----------------
1+ exp {(
Σ
)}
J : Représente le nombre de variables explicatives de notre étude, il varie de 1 à 15
i : Représente le nombre d’observations (entreprises) il varie de 1 à 37
t : Représente le temps, il varie de 1à 5
A chaque variable Xj est associé un coefficient
mesurant l’association entre Yit et Xj.
Pour estimer le modèle PROBIT, nous avons fait recours à la fonction du maximum de vraisemblance.
Elle consiste à trouver la valeur des paramètres qui maximisent la vraisemblance des données. Parce qu’elle est difficile à manipuler, on utilise généralement le logarithme de cette fonction. Après manipulation, la fonction log de la vraisemblance s’écrit comme suit:
Les estimateurs obtenus en maximisant la fonction du maximum de vraisemblance ou encore en maximisant le log de la fonction du maximum vraisemblance sont efficaces.
Siβj,i,t > 0 cela signifie que la probabilité de réalisation de l’évènement augmente avec la variable correspondante ;
101011101011(,)((,))[()(1()]() ()(1())1() ()(1exp())iinyyiiiniiiiiniiiiLLogLogxxxyLogLogxxyxLogx
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
36
Si βj,i,t< 0 cela signifie que la probabilité de réalisation de l’évènement diminue avec la variable concernée.
3.2.4. La technique des données de panel statique
L’estimation des deux modèles se fera à travers la technique des données de panel. Les données de panel offrent un avantage incontournable parce qu’elles prennent en compte au moins deux dimensions, individuelle et temporelle. Elles contiennent des données sur plusieurs individus observés sur plusieurs dates. L’utilité des données de panel est qu’elles permettent de contrôler trois types de facteurs : ceux qui varient entre les individus, mais ne varient pas au cours du temps, ceux qui pourraient causer un biais d’omission si l’on n’en tenait pas compte, ceux qui sont inobservables ou non disponibles et ne peuvent être inclus dans la régression. Ainsi, en fixant un individu observé qui peut être par exemple un pays si on considère un panel de pays, on obtient la série chronologique ou coupe longitudinale le concernant. Si c’est la période examinée qui est fixée, on obtient une coupe transversale ou instantanée pour l’ensemble des individus. Afin de mieux comprendre ce qui précède, considérons une équation économétrique de type Y= a + b X + c Z+ ε, où Y est la variable endogène, X et Z les variables explicatives, a, b et c les paramètres à estimer et ε le terme d’erreur ou aléa. Cette relation prend la forme Yit = a + b Xit + c Zit + εit pour l’observation it, c’est-à-dire l’individu i à la période t. La modélisation particulière porte uniquement sur la spécification des aléasεit. La forme de base s’écrit simplement : εit = ui + vt + wit, où ui désigne un terme constant au cours du temps, ne dépendant que de l’individu i ; vt un terme ne dépendant que de la période t et wit un terme aléatoire croisé. La suite qui résume les techniques d’estimation dépend des hypothèses retenues quant aux composantes ui, vt et wit et à leur relation.
Tout d’abord, une méthode simple peut être utilisée en appliquant directement les M.C.O. sur les données empilées (Pooled Least Squares), sans se préoccuper de leur nature ni de celle de l’aléa. Cette façon de procéder permet l’estimation du modèle à effet commun encore appelé « estimateur pooled ». Les individus du modèle sont alors tous traités de la même manière c'est-à-dire qu’on suppose que le panel de pays est homogène. On admet ainsi l’uniformité des comportements et l’homogénéité des observations.
Ensuite, les modèles à effets fixes (fixed effects) ou modèle de la covariance qui supposent que ui, et vt sont des effets constants non aléatoires, qui viennent donc simplement modifier la valeur de l’ordonnée (ou constante) de l’équation selon les valeurs de i et de t. L’hypothèse de base de ces
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
37
modèles est que l’hétérogénéité des comportements est modélisée par un effet individuel générique. Il s’agit donc d’un modèle avec variables muettes individuelles. Par conséquent, ce modèle ressort la variabilité intra-individuelle (estimateur within). Si on suppose que les perturbations aléatoires croisées wit satisfont aux hypothèses classiques des M.C.O. c’est-à-dire centrées, homoscédastiques, indépendantes, et normales, les estimations sont optimales.
Enfin, il peut être important d’estimer un modèle à effets aléatoires encore appelé modèle à erreurs composées, qui suppose les ui et vt aléatoires. Autrement dit, l’effet individuel n’est plus un paramètre fixe à estimer mais une variable aléatoire non observable. Dans ce modèle, l’hypothèse nulle est la non corrélation entre les termes d’erreur et les variables explicatives. On aboutit à une variabilité interindividuelle (estimateur between).
Les différents tests nécessaires
. Le test d’hétéroscedasticité
Ce test se fera à travers le test de Breusch-Pagan pour voir si notre modèle est homoscedastique ou non. Si c’est le cas nous utiliserons la méthode des MCO pour estimer notre modèle, mais dans le cas contraire on utilise la méthode des MCG. Dans ce cas, on supposera sous l’hypothèse nulle que notre modèle est homoscedastique (variance est constante et finie) et sous l’hypothèse alternative que le modèle est hétéroscedastique (variance n’est plus une constante). Pour un seuil de signification fixé à priori de 5%, si la probabilité du test est inférieure à ce seuil, on conclut au rejet de l’hypothèse nulle et à l’acceptation de l’hypothèse alternative.
. Le test d’autocorrélation de Wooldridge
Ce test permet de détecter la présence d’autocorrélation. Ainsi pour un seuil de signification de 5% fixé, si la probabilité du test trouvée est inférieure à ce seuil préalablement choisi et bien justifié, on accepte l’hypothèse alternative et on conclut que le modèle est auto corrélé. Ainsi, si le modèle est à la fois autocorrelé et hétéroscédastique alors nous estimerons notre modèle par la méthode des MCGF.
. Le test de spécification de Hausman
Le choix entre modèle à effets fixes et modèle à effets aléatoires dépend des considérations suivantes : la nature de l’effet individuel, le nombre d’unités statistiques, la nature de l’échantillon, le type d’induction qu’on veut faire. Toutefois, le test permettant de discriminer les effets fixes et aléatoires est le test de spécification de Hausman. Le test de Hausman permet de déterminer si les
IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE
38
coefficients des deux estimateurs (fixe et aléatoire) sont statistiquement différents. Ce test est fondé
sur l’hypothèse de non corrélation entre les termes d’erreur et les variables explicatives (hypothèse
du modèle à effets aléatoires). Cette hypothèse indique que les deux estimateurs sont non biaisés et
de ce fait, les coefficients estimés devraient peut différer. Le test est basé sur la comparaison de la
matrice de variance-covariance des estimateurs fixe f et aléatoire a :
f a f a f a H ' 1 var
Le résultat suit une loi de 2 avec k-1 degré de liberté. Si la p-value est supérieure au niveau de
signification, l’hypothèse nulle est acceptée et dans ce cas, on utilisera le modèle à effets aléatoires.
Il est important de noter que ce test ne sera utilisé que dans le cas où on trouve précédemment à
travers le test d’auto corrélation et d’hétéroscedasticité que le modèle est non auto corrélé et
homoscedastique. Sinon, nous utilisons la méthode des MCGF.
Aucun commentaire:
Enregistrer un commentaire