Nombre de vues

jeudi 22 février 2024

 IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

1

COURS D’ANALYSE DE DONNEES MASTER 2 PROFESSIONNELLE

CHAPITRE 1 : RAPPEL DES METHODES DIFFÉRENTES DONNÉES ET QUELQUES ANALYSES CORRESPONDANTES

TYPES DE VARIABLES

ANALYSES DESCRIPTIVES

ANALYSES EXPLICATIVES

DESCRIPTION GRAPHIQUE

DESCRIPTION NUMERIQUE

TESTS PARAMETRIQUES

TEST NON PARAMETRIQUES

Variable nominale univariée

Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur

mode

////////////////////

Test d’adéquation du Khi-deux

Variable ordinale univariée

Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur

Mode, médiane, quantiles

///////////////////////

Test d’ajustement du Khi-deux ou de Kolmogorov-Smirnov

Variable quantitative scalée

Diagramme à bâton, courbe en escalier

Mode, médiane, quantiles, moyenne écart-type, coefficient de variation

Test de signification de la moyenne

Test d’ajustement du Khi-deux ou de Kolmogorov-Smirnov

Variable quantitative discrete

Diagramme à bâton, courbe en escalier

Mode, médiane, quantiles, moyenne écart-type, coefficient de variation

Test de signification de la moyenne

Test d’ajustement du Khi-deux ou de Kolmogorov-Smirnov

Variable quantitative continue

Histogramme, courbe cumulative des effectifs ou des fréquences

Mode, médiane, quantiles, moyenne écart-type, coefficient de variation, coefficient d’asymétrie, coefficient d’aplatissement

Test de signification de la moyenne

Test d’adéquation à la loi normale, à la loi de poisson, à la loi binomiale

Couple de variables nominales

Droite de régression, Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur

Mode, fréquences

Test de comparaison de deux moyennes

Test d’indépendance du Khi-deux

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

2

Couple de variables ordinales

Droite de régression, Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur

Rangs, Mode, fréquences

Test du coefficient de corrélation de Spearman

Test d’adéquation du Khi-deux ou de Kolmogorov-Smirnov

Couple de variable nominale/variable ordinale

Droite de régression, Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur

Mode, médiane, quantiles, proportions

Test de Mann-Whitney

Test d’adéquation du Khi-deux ou de Kolmogorov-Smirnov

Couple de variables quantitatives

Selon les cas : Diagramme à bâton, courbe en escalier, Histogramme, courbe cumulative des effectifs ou des fréquences

Mode, médiane, quantiles, moyenne écart-type, coefficient de variation, proportions, coefficient de détermination

Test du coefficient de corrélation de Pearson

Test d’ajustement du Khi-deux ou de Kolmogorov-Smirnov

Couple de variable quantitative/variable qualitative

Selon les cas : Diagramme à bâton, courbe en escalier, Histogramme, courbe cumulative des effectifs ou des fréquences, Diagrammes à bande, à tuyaux d’orgue ou à barre, à secteur

Mode, médiane, quantiles, moyenne écart-type, coefficient de variation, proportions

Test de comparaison entre deux moyennes, analyse de la variance ou test de Fisher –Sinedecor, test H de Kruskal-Wallis

Test d’adéquation du Khi-deux ou de Kolmogorov-Smirnov

Tableau individus/ variables quantitatives

ACP avec nuage de points représentés dans le premier plan factoriel

ACP avec calculs de poids, coordonnées, matrice des corrélations, coordonnées factorielles, contributions absolues et contributions relatives, classification hiérarchique et

Test de signification des contributions

Test d’uniformité des variables

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

3

classification non hiérarchique

Tableau individus/ variables qualitatives

AFC avec nuage de points représentés dans le premier plan factoriel

Classification ascendante hiérarchique indicée, AFC avec calculs de poids, coordonnées, matrice des corrélations, coordonnées factorielles, contributions absolues et contributions relatives

Test de signification des contributions

Test d’uniformité des variables

Deux groupes de variables quantitatives mesurées sur les mêmes individus

ACP…

ACP…

Analyse des corrélations canoniques, test de régressions linéaires simple et multiples, analyse canonique des correspondances non linéaire

Test d’uniformité des variables

Un groupe de variables qualitatives représentant un caractère répartit en g classes mesurées sur les mêmes individus et un second groupe de variables quantitatives

Analyse des correspondances (AC)

Analyse des correspondances (AC)

Analyse canonique discriminante

Test d’uniformité

Deux groupes de variables qualitatives et un groupe de variables quantitatives

Analyse des correspondances canoniques

Analyse des correspondances canoniques

Régression logistique, régression

Test d’uniformité

Trois groupes ou plus de variables quantitatives mesurées sur les mêmes individus

ACP

ACP

Analyse canonique généralisée

Test d’uniformité

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

4

Deux groupes de variables qualitatives mesurées sur les mêmes individus

Analyse des correspondances canoniques ACC

Analyse des correspondances canoniques ACC

Corrélations poly chroniques

Test d’uniformité

Couple de variable quantitative/variable qualitative(s) et quantitative(s)

Analyse de la Covariance (ANCOVA)

CHAPITRE 2 : STATISTIQUES INFERENTIELLES ET TESTS D’HYPOTHESE

2.1- EXPLICATIONS DE QUELQUES NOTIONS DE BASE

Les Statistiques inférentielles : Ensemble des méthodes et des théories permettant de généraliser à une population de référence des conclusions obtenues à partir de l'étude d'un échantillon extrait de cette population. Elles visent à:

hypothèse: l'hypothèse est une relation hypothétique (provisoire, postulée par le chercheur) entre une variable indépendante et une variable dépendante.

On distingue deux formes d’hypothèse :

- Hypothèse nulle (H0), postulant l'absence de différences entre les caractéristiques de l'échantillon et celles de la population de référence.

- Hypothèse significative ou alternative (H1), postulant l'existence de différences entre les caractéristiques de l'échantillon et celles de la population de référence.

L'hypothèse alternative peut être de deux types: soit dirigés (postule l'existence de la différence et précise le sens qu'elle prendrait) soit non dirigée (postule la différence sans précision du sens). Le premier type est dit unilatéral et le second est bilatéral.

Population: l'ensemble des sujets ou des événements visés par l'étude (les enseignants du primaire, scores des étudiants, revenus des personnes, etc.) = population de référence. Elle peut aller d'un ensemble de nombre relativement réduit, et donc facile à rassembler, à un ensemble de nombre important, fini ou infini, qui

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

5

serait, en pratique difficile à rassembler dans son entièreté. Il en résulte que les chercheurs ont recours généralement à prélever de la population (de référence ou mère) un nombre déterminé de sujets ou d'observations = l'échantillon.

Echantillon: un ensemble de sujets ayant les mêmes caractéristiques de la population-mère, utilisé en vue d'inférer quelque chose à propos de cette population. Il y a plusieurs types d'échantillon dont l'échantillon aléatoire, l'échantillon stratifié, l'échantillon par quotas, etc.

test d’hypothèse

C'est une fonction des variables aléatoires représentant l’échantillon dont la valeur numérique obtenue pour l’échantillon considéré permet de distinguer entre H0 vraie et H0 fausse.

Autrement dit, c'est une démarche consistant à rejeter ou à ne pas rejeter une hypothèse statistique, appelée hypothèse nulle, en fonction d'un jeu de données (échantillon). Il s’agit d'émettre, à partir de calculs réalisés sur des données observées, des conclusions sur la population, en leur rattachant des risques de se tromper.

Définir les hypothèses de travail, constitue un élément essentiel des tests d'hypothèses de même que vérifier les conditions d'application de ces dernières (normalité de la variable, égalité des variances)

Types de test

On parle de tests paramétriques lorsque l’on stipule que les données sont issues d’une distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées à l’aide de paramètres estimés sur l’échantillon (moyenne, mode et médiane), la procédure de test subséquente ne porte alors que sur ces paramètres. L’hypothèse de normalité sous jacente des données est le plus souvent utilisée, la moyenne et la variance suffisent pour caractériser complètement la distribution. Concernant les tests d’homogénéité par exemple, pour éprouver l’égalité des distributions, il suffira de comparer les moyennes et/ou les variances.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

6

Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données. On les qualifie souvent de tests distribution free. L’étape préalable consistant à estimer les paramètres des distributions avant de procéder au test d’hypothèse proprement dit n’est plus nécessaire.

La distinction paramétrique et non paramétrique est essentielle. Elle est systématiquement mise en avant dans la littérature. Les tests non paramétriques, en ne faisant aucune hypothèse sur les distributions des données, élargissent le champ d’application des procédures statistiques. En contrepartie, ils sont moins puissants.

Puissance d'un test:

C'est une évaluation de sa sensibilité, de sa capacité à détecter les effets significatifs dans les données quand, en fait, ils sont présents ; lors de chaque test, nous acceptons une hypothèse et nous refusons l'autre

- On commet une erreur de type 1 quant on rejette H0, alors qu'elle est valable

- On commet une erreur de type 2 quand on accepte H0, alors qu'elle n'est pas valable

On dit qu'un test qui conduit à peu d'erreurs de type 2 est un test qui possède une haute puissance ou très sensible; à l'inverse, on dit qu'un test qui conduit à peu d'erreurs de type 1 et beaucoup d'erreurs de type 2 à une faible puissance. Il est souhaitable d'utiliser un test de haute puissance chaque fois que c'est possible ; la puissance d'un test augmente avec la taille de l'échantillon.

Seuil de signification

En statistique, il n'existe pas de règle rigide permettant de tirer une conclusion concernant les hypothèses; aucun test ne nous fournit une réponse en terme de oui ou non ou de catégorique, mais indique dans quelle mesure nous pouvons être certain de tirer des conclusions; cette mesure se nomme niveau ou seuil de signification, ou encore probabilité d'erreur. Au plus le seuil est petit, au moins il est

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

7

probable que nous nous trompions quand nous nous prononçons pour le rejet ou l'acceptation d'une hypothèse ; généralement, on travaille avec un seuil de 5%.

H0 vraie

H0 fausse

Accepter H0

OK

Erreur de 2nde espèce

Rejeter H0

Erreur de 1ière espèce

α

OK

Puissance 1- α

2.2. LES TESTS PARAMETRIQUES

2.2.1. Tests sur les moyennes

2.2.1.1. Comparaison d’une moyenne d’échantillon à une valeur de référence

quand la variance de la population

est connue.

La question de recherche est : une moyenne calculée sur un échantillon issu d’une population de variance

connue diffère-t-elle significativement d’une moyenne hypothétique

?

>Condition d’application

- La population a une variance

connue (cas très rare) et une moyenne

inconnue (posée par hypothèse égale à

).

- L’échantillon est aléatoire et contient n observations indépendantes.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

8

- La taille n de l’échantillon doit être supérieure à 5 sauf si la distribution de la moyenne dans la population suit une loi normale – auquel cas cette taille peut être quelconque.

On notera à cet égard que la condition d’une grande taille a pour principal but d’assurer que la moyenne de l’échantillon suive une distribution normale

 Hypothèses

L’hypothèse nulle à éprouver est :

.

L’hypothèse alternative est :

(pour un test bilatéral)

Ou

(pour un test unilatéral à gauche)

Ou

(pour un test unilatéral à droite)

Statistique calculée et interprétation du test

La statistique calculée est

. Sa distribution suit une loi normale centrée

réduite (moyenne = 0 et écart type = i). On l’appelle test z (« test » ou « z statistic »).

- Dans le cas d’un test bilatéral, on rejette

ou

- Dans le cas d’un test unilatéral à gauche, on rejette

- Dans le cas d’un test unilatéral à droite, on rejette Ho si Z > Zα

est le seuil de signification (ou erreur de première espèce) retenu,

des valeurs de la loi normale centrée réduite que l’on peut lire sur des tables appropriées.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

9

Exemple : Comparaison d’une moyenne à une valeur donnée (variance de la population connue)

Un échantillon de 16 observations est tiré d’une population d’écart type connu

= 40 et de moyenne inconnue

. On suppose que la moyenne de la population est

= 500. La moyenne trouvée sur l’échantillon est m = 493. Peut-on admettre que la population ait une moyenne

= 500, en adoptant un risque de première espèce

de 5% ? La taille de l’échantillon (n = 16, supérieure à 5) dispense de l’hypothèse de normalité.

Z =

, soit – 0,70.

Par ailleurs, on peut lire sur la table de la loi normale centrée réduite que

=

= 1,96 et que

=Z 0.05 = 1,64.

Test bilatéral : puisque -

(-1,96

- 0,70

1,96), on se situe dans la zone d’acceptation de

et on ne rejette pas l’hypothèse selon laquelle la moyenne de la population est égale à 500 (

= 5000). Test unilatéral à gauche : puisque Z

-

(-0,70

- 1,64), on se situe dans la zone d’acceptation de

et on ne rejette pas l’hypothèse selon laquelle la moyenne de la population est égale à 500 (

= 500).

Test unilatéral à droite : puisque Z <

(-0,70< 1,64), on se situe dans la zone de rejet de

et on rejette l’hypothèse selon laquelle la moyenne de la population est égale à 500 (

= 500).

2.2.1.2. Comparaison d’une moyenne d’échantillon m à une valeur de référence

quand la variation de la population

est inconnue

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

10

La question de recherche est : une moyenne m calculée sur un échantillon issu d’une population de variance

inconnue diffère-t-elle significativement d’une moyenne hypothétique

?

Condition d’application

- La population a une variance

inconnue qui doit être estimée sur l’échantillon et une moyenne

également inconnue (posée par hypothèse égale à

- L’échantillon est aléatoire et contient n observations indépendantes

- La taille n de l’échantillon est supérieure à 30 ou bien la moyenne suit dans la population une loi normale auquel cas la taille n est quelconque

a- Hypothèses

L’hypothèse nulle a éprouver est :

:

L’hypothèse alternative est

:

(pour un test bilatéral)

Ou

(pour un test unilatéral à gauche)

Ou

(pour un test unilatéral à droite).

Statistique calculée et interprétation du test

La variante inconnue de la population

est estimée sur l’échantillon, avec n -1 degrés de liberté, par s² =

La statistique calculée est T =

. Sa distribution suit une loi de student avec n – 1 degrés de liberté. On l’appelle « test » ou « test de student » (t test ou t statistic). Suit approximativement une loi normale centrée réduite. Autrement

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

11

dit, T =

. = Z =

. On peut donc prendre la décision (i.e rejet ou acceptation de Ho. Rappelons que les règles de décision de la loi normale centrée réduite sont :

- Dans le cas d’un test bilatéral, on rejette

si

ou

- Dans le cas d’un test unilatéral à gauche, on rejette

- Dans le cas d’un test unilatéral à droite, on rejette

est le seuil de signification (ou erreur de première espèce) retenu,

et

des valeurs de la loi normale centrée réduite que l’on peut lire sur des appropriées.

Mais lorsque n est petit, par exemple inférieur à 30, il faut absolument utiliser la loi du T de student à n – 1 degrés de liberté et non la loi normale Z. Les règles de décision sont alors les suivantes :

- Dans le cas alors d’un test bilatéral, on rejette

si T

ou

T

- Dans le cas d’un test unilatéral à gauche, on rejette

si T

- Dans le cas d’un test unilatéral à droite, on rejette

si T

Exemple : comparaison d’une moyenne à une valeur donnée (variance de la population inconnue)

On dispose à présent d’un échantillon beaucoup plus large constitué de 144 observations. La moyenne trouvée sur cet échantillon est à nouveau m = 493. L’écart type estimé sur l’échantillon est s = 46,891. Peut-on toujours admettre que

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

12

la moyenne de la population est

= 500, en adoptant un risque de première espèce

de 5% ?

La grande taille de l’échantillon (n = 144, supérieure à 30) dispense de l’hypothèse de normalité de la distribution de la moyenne dans la population. De même, elle justifie l’approximation de la statistique T par une loi normale centrée réduite. Par ailleurs,

2.2.1.3 COMPARAISON DE LA DIFFERENCE DE DEUX MOYENNES A UNE VALEUR DONNEE QUAND LES VARIANCES SONT CONNUES

La question de recherche est : La différence entre les moyennes de deux populations de variances connues

1 et

2 est-elle significativement différente d’une valeur donnée Do (par exemple zéro) ?

Condition d’application

-les variances

1 et

2 des deux populations sont connues les moyennes

1 et

2 sont inconnues

-Les deux échantillons sont tous deux aléatoires et contiennent respectivement n1 et n2 observations indépendantes

- la distribution de la moyenne dans chacune des deux populations suit une loi normale ou bien la taille de chaque échantillon est supérieure à 5,

Hypothèses

L’hypothèse nulle à éprouver est : H.O ;

1 -

2 =DO

L’hypothèse alternative est : H1 :

1 -

2 ≠DO (pour un test bilatéral)

Ou H1 ;

1 -

2 <DO (pour un test unilatéral à gauche)

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

13

Ou H1 : 1 - 2 >DO (pour un test unilatéral à droite)

Statistique calculée et interprétation du test

La statistique calculée est 1 2

O

d

z D

m m

 

 avec     2 2

1 2

1 2

2

n1 1 s n2 1 s d

n n

s 

 

  

z suit une loi normale centrée et les règle de décisions sont les suivantes ;

- Dans le cas d’un test bilatéral, on rejette HO si Z< -Zα/2 ou Z> Zα/2

- Dans le cas d’un test unilatéral à gauche, on rejette HO si Z< -Zα

- Dans le cas d’un test unilatéral à droite, on rejette HO si Z >Zα

2.2.1.4 COMPARAISON DE LA DIFFERENCE DE DEUX MOYENNES A UNE

VALEUR DONNEE QUAND LES VARIANCES SONT INCONNUES MAIS

INEGALES

La question de recherche est : La différence entre les moyennes ; 1 et 2 de

deux populations de même variances inconnues est-elle significativement

différente d’une valeur donnée Do (par exemple zéro) ?

Conditions d’application

-Les deux populations ont la même variance inconnue et des moyennes 1 et 2

inconnues

-Les deux échantillons sont tous deux aléatoires et contiennent respectivement n1 et

n2 observations indépendantes

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

14

-la distribution de la moyenne dans chacune des deux populations suit une loi

normale ou bien la taille de chaque échantillon est supérieure à 30

-Hypothèse d’égalité des variances est vérifiée

Hypothèses

L’hypothèse nulle à éprouver est : H.O ; 1 - 2 =DO

L’hypothèse alternative est : H1 : 1 - 2 ≠DO (pour un test bilatéral)

Ou H.1 ; 1 - 2 <DO (pour un test unilatéral à gauche)

Ou H1 : 1 - 2 >DO (pour un test unilatéral à droite)

Statistique calculée et interprétation du test

La statistique calculée est 1 2

O

d

z D

m m

s

 

2.2.1.5 COMPARAISON DE K MOYENNES K(analyse de la variance)

la question de recherche est : K moyennes m1, m2 m3...mk observées sur k échantillons

diffèrent-elles significativement les unes des autres ?

Condition d’application

-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/

Observations indépendantes

-la distribution des moyennes dans chacune des k populations suit approximativement

une loi normale de même variance inconnue

-le choix de la structure des k groupes ne doit pas déterminer les variables

concomitantes.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

15

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 : 1= 2= ….= K,

L’hypothèse alternative est : H1 : les valeurs des I (i=1, 2, …K)ne sont pas toutes

identiques, cela signifie qu’il suffit que la valeur d’un paramètre soit différente pour

que l’hypothèse nulle soit rejetée au profit de l’hypothèse alternative.

 Statistique calculée et interprétation du test

La statistique calculée est

var exp

var

iance liquée

F

iance residuelle

 . Cette statistique suit une loi

de Fisher avec k-1 et n-k-1 degrés de liberté où n est le nombre total d’observations.la

règle de décision est la suivante : on rejette Ho si F>Fα(k-1 ;n-k)

2.2.1.6 COMPARAISON DEUX SERIES DE MESURES (le test T2 de Hotteling)

la question de recherche est : les profils moyens de deux séries de k mesures ( m1,

m2 ;…mk) et( m1’, m2’ ;…mk’) observées sur deux échantillons diffèrent-ils

significativement l’un de l’autre?

le test de T2 de Hotteling permet de comparer deux matrices ou deux vecteurs

quelconques, notamment des matrices de d corrélations, de variances /covariances, des

moyennes, etc.

Condition d’application

-Les 2 échantillons sont aléatoires et contiennent respectivement n1, n2

Observations indépendantes

- les deux distributions sont indépendantes suivent une loi normale.

a- Hypothèse

L’hypothèse nulle a éprouver est : : les deux mesure pressentent le même

profil .

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

16

L’hypothèse alternative est : les deux mesures pressentent les profils

différents.

 Statistique calculée et interprétation du test

la statistique calculée est 1 2 2

1 2

1

( 2)

K

F

k

n n

T

n n

  

 

où T2 est le T2 de Hotelling ; k le nombre de variables. Cette statistique suit une loi de

Fisher avec k-1 et n1+n2-k-1 degrés de liberté où n est le nombre total d’observations.

la règle de décision est la suivante : on rejette Ho si F>Fα(k-1 ; n1+n2-k-1)

2.2.2. TESTS SUR LES PROPORTIONS

2.2.2.1 COMPARAISON D’UNE PROPORTION ou pourcentage p à une valeur

de référence πo

La question de recherche est : une proportion p calculée sur un échantillon

diffère-t-elle significativement d’une proportion hypothétique πo ? .

-Condition d’application

- L’échantillon est aléatoire et contient n observations indépendantes

- la distribution de la proportion suit dans la population une loi binomiale

- La taille n de l’échantillon est grand (supérieure ou égale à 30).

- Hypothèse

L’hypothèse nulle a éprouver est : : π= πo

L’hypothèse alternative est : π πo (pour un test bilatéral)

Ou : : π< πo (pour un test unilatéral à gauche)

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

17

Ou : : π> πo (pour un test unilatéral à droite).

b- Statistique calculée et interprétation du test

La statistique calculée est

o

p

p

T 

 Avec

 1 

o o

p n

 

Les règles de décision de la loi normale centrée réduite sont :

- Dans le cas d’un test bilatéral, on rejette si ou

- Dans le cas d’un test unilatéral à gauche, on rejette

- Dans le cas d’un test unilatéral à droite, on rejette

2.2.2.2 COMPARAISONS DE DEUX PROPORTIONS OU POURCENTAGES

P1 ET P2 (GRANDS ECHANTILLONS)

La question de recherche est : deux proportions p1 et p2 observées sur deux

échantillons diffèrent-t-elles significativement l’une de l’autre ? .

-Condition d’application

- Les deux échantillons sont aléatoires et contiennent respectivement n1 et

n2 observations indépendantes

- la distribution des proportions suit dans chaque population une loi

binomiale

- La taille des échantillons est grande (supérieure ou égale à 30).

- Hypothèse

L’hypothèse nulle a éprouver est : : π1= π2

L’hypothèse alternative est : π1 π2 (pour un test bilatéral)

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

18

Ou : : π1< π2 (pour un test unilatéral à gauche)

Ou : : π1> π2 (pour un test unilatéral à droite).

-Statistique calculée et interprétation du test

La statistique calculée est

 

1 2

0 0

2 2

1 1

1

Z

p p

p p

n n

 

     

 

Cette distribution suit une loi normale centrée

réduite

Les règles de décision de la loi normale centrée réduite sont :

- Dans le cas d’un test bilatéral, on rejette si ou

- Dans le cas d’un test unilatéral à gauche, on rejette

- Dans le cas d’un test unilatéral à droite, on rejette

Comparaison de k proportions ou pourcentages pk (grands échantillons)

La question de recherche est : K proportions p1, p2 p3….pk observées sur k

échantillons diffèrent-elles significativement les unes des autres ?

Condition d’application

-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/

Observations indépendantes

-la distribution des proportions dans chacune des k populations suit une loi binomiale

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

19

- la taille des échantillons est grande.

- ce test est meilleurs si les tailles des échantillons sont supérieures à 50 chacune et

que nkpk≥ 5 pour chaque échantillon.

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 :π1= π2= ….=πK,

L’hypothèse alternative est : H1 : les valeurs des πI (i=1, 2, …K) ne sont pas toutes

identiques, cela signifie qu’il suffit que la valeur d’un paramètre soit différente pour

que l’hypothèse nulle soit rejetée au profit de l’hypothèse alternative.

-Statistique calculée et interprétation du test

La statistique calculée est

 

 

2

1 1

k

j j

j j

p

p p

x n

n

 

Avec xj =effectif dans l’échantillon j correspondant à la proportion pj et 1

1

K

j

i

k

k

j

P

x

n

la distribution de χ suit un khi-deux à k-1 degrés de liberté.la règle de décision est la

suivante Ho si χ ≥ χ2

α(k-1).

2.2.3. TESTS SUR LES VARIANCES

2.2.3.1. COMPARAISON D’UNE VARIANCE σ2 A UNE VALEUR DE

REFERENCE σ0

2

La question de recherche est : une variance s2 calculée sur un échantillon diffère-t-elle

significativement d’une variance hypothétique σ0

2

>Condition d’application

- L’échantillon est aléatoire et contient n observations indépendantes.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

20

- la distribution de la variance dans la population suit une loi normale de

moyenne et de variance inconnues.

 Hypothèses

L’hypothèse nulle a éprouver est : : σ2= σ0

2

L’hypothèse alternative est : σ2 σ0

2 (pour un test bilatéral)

Ou : : σ2< σ0

2 (pour un test unilatéral à gauche)

Ou : : σ2> σ0

2 (pour un test unilatéral à droite).

 Statistique

La statistique à calculer est

 

 

2

2

1

2 2

0 0

1

n

i

i

m

n

s x 

 

  

Où m est la moyenne et s2 la variance de l’échantillon

. Cette distribution suit une loi de khi-deux avec n-1 degrés de liberté noté χ2 (n-1)

Les règles de décision sont alors les suivantes :

- Dans le cas alors d’un test bilatéral, on rejette si χ2

<

χ2

α/2 (n-1) ou

χ2 > χ2

α/2 (n-1)

-Dans le cas d’un test unilatéral à gauche, on rejette si χ2

<

χ2

1-α (n-1)

-Dans le cas d’un test unilatéral à droite, on rejette si χ2 > χ2

1-α (n-1)

2.2.3.2. COMPARAISON DE DEUX VARIANCES

La question de recherche est : les variances σ1

2 et σ2

2de deux populations sont –elles

significativement différentes l’une de l’autre.

>Condition d’application

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

21

- les deux échantillons sont aléatoires et contiennent respectivement n1et n2

observations indépendantes.

- la distribution des variances dans chaque population suit une loi normale

ou bien les échantillons sont de grande taille

 Hypothèses

L’hypothèse nulle a éprouver est : : σ1

2= σ2

2

L’hypothèse alternative est : σ1

2 σ2

2 (pour un test bilatéral)

Ou : : σ1

2< σ2

2 (pour un test unilatéral à gauche)

Ou : : σ1

2> σ2

2 (pour un test unilatéral à droite).

 Statistique

La statistique à calculée est 1

2

F s

s

 avec

  1 2

1 1

1

1

1

1

i

i

n

x x

s

n

et

  2 2

2 2

1

2

2

1

i

i

n

x x

s

n

.

Cette distribution suit une loi de Fisher –Snedecor Fα(n-1 ; n-1 )

Les règles de décision sont alors les suivantes :

- Dans le cas alors d’un test bilatéral, on rejette si F

<

Fα(n-1 ; n-1 )ou

F > Fα(n-1 ; n-1 )

-Dans le cas d’un test unilatéral à gauche, on rejette si F

<

Fα(n-1 ; n-1 )

-Dans le cas d’un test unilatéral à droite, on rejette si F > Fα(n-1 ; n-1 )

2.2.3.3. COMPARAISON DE K VARIANCES (TEST DE BARTLETT)

La question de recherche est : K variances σ1, σ 2 σ 3…. σ k observées sur k

échantillons diffèrent-elles significativement les unes des autres ?

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

22

Condition d’application

-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/

Observations indépendantes

-la distribution des variances dans chacune des k populations suit une loi normale ;

-Aucune des variances empiriques n’est nulle.

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 : σ 1= σ 2= ….= σ K,

L’hypothèse alternative est : H1 : les valeurs des σ i(i=1, 2, …K)ne sont pas toutes

identiques, cela signifie qu’il suffit que la valeur d’un paramètre soit différente pour

que l’hypothèse nulle soit rejetée au profit de l’hypothèse alternative.

 Statistique calculée et interprétation du test

La statistique calculée est 2 2

1

ln ln

k

i i

i

 v s v s

 

Avec vi = ni -1.

 

2

2 1

n

ij i

j

i

i

x x

s

v

; 2 2

1 1

1 k k

i i i

i i

v

v v s v s

 

   : xij est la valeur de

l’observation j dans la population i. xi= la moyenne de la variable x dans la

population i estimée sur la population de taille ni .si est la variance la variable x dans

la population i estimée sur la population de taille ni

Cette statistique suit une loi khi-deux à v degré de liberté.la règle de décision est

la suivante : on rejette Ho si χ>χα(k-1)

2.2.3.4 COMPARAISON DE K VARIANCES (TEST DE COCHRAN)

La question de recherche est : K variances σ1, σ 2 σ 3…. σ k observées sur k

échantillons diffèrent-elles significativement les unes des autres ?

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

23

plus précisément le test de Cochran si la plus grandes des k variances est

significativement différente des k-1 autres variances.

Condition d’application

-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/

Observations indépendantes

-la distribution des variances dans chacune des k populations suit une loi normale ;

ou tout au moins ; une loi unimodale.

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 : σ 1= σ 2= ….= σ K,

L’hypothèse alternative est : H1 : les valeurs des σ i(i=1, 2, …K)ne sont pas toutes

identiques, cela signifie qu’il suffit que la valeur d’un paramètre soit différente pour

que l’hypothèse nulle soit rejetée au profit de l’hypothèse alternative.

 Statistique calculée et interprétation du test

La statistique calculée est

2

max

2

1

k

i

i

C s

s

où s2

i sont les estimations des variances

calculées avec v=n-1 degré de liberté et s2

max la plus grande des k variances estimées.

on compare cette statistique c à des valeurs critiques cα disponibles dans une

table .la règle de décision est la suivante : on rejette H0 si c > cα

2.3. TEST NON PARAMETRIQUE

Les tests non paramétriques portent sur les statistiques (ie les fonctions) construites

à ions et qui ne dépendent pas de la distribution de la population correspondante. La

validité des tests non paramétriques dépend des conditions générales beaucoup moins

contraignantes que celles requises pour la mise en oeuvre des tests paramétriques.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

24

Les tests non paramétriques présentent plusieurs avantages ;

-Ils sont applicables aux petits échantillons.

-Ils sont applicables à divers types de données (nominales, ordinales, intervales, ratios)

-Ils sont applicables à des données incomplètes ou imprécises.

2.3.1. Les tests sur une variable dans plusieurs échantillons

2.3.1.1. Comparaison d’une distribution empirique à une distribution théorique

(test d’adéquation ou de qualité d’ajustement)

La question de recherche est : la distribution empirique De observée sur un

échantillon est-elle significativement différente d’une distribution de référence Dr?

Condition d’application

-L’échantillon est aléatoire et contient n Observations indépendantes reparties en k

classes

- une loi de distribution de référence Dr est choisie (loi normale, loi du khi-2, etc)

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 : De = Dr

L’hypothèse alternative est : H1 : De Dr

 Statistique calculée et interprétation du test

La statistique calculée est

 2

1

k

i i

i i

o T

T

 

Où oi et Ti désignent pour chacune des k classes ; les effectifs observés et les effectifs

théoriques calculer d’après la distribution de référence Dr

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

25

la distribution de χ suit une loi de khi-deux à k-1-r degré de liberté ; où r désigne le

nombre de paramètres de la loi de référence qui ont été estimés à l’aide des

observations/la règle de décision est la suivante : on rejette Ho si χ>χα(k-1-r)

2.3.1.2. COMPARAISON DES DISTRIBUTIONS D’UNE VARIABLE X DANS

DEUX POPULATIONS A ET B (TEST DE KOLMOGOROV-SMIRNOV)

La question de recherche est : une variable X est –elle identiquement distribuée dans

deux population A et B.

Conditions d’application

-les deux échantillons sont aléatoires et contiennent nA et nB observation

indépendantes issues respectivement des populations A et B.

-la variable X étudiée est une variable d’intervalle ou de ratio dont la loi de

distribution est quelconque.

-les limites des classes sont identiques dans les deux échantillons.

Hypothèses

L’hypothèse nulle à éprouver est H0 :la variable X est distribuée à l’identique dans la

population A et B.

L’hypothèse alternative est H1 : la variable X est distribuée differemment dans la

population A et B.

Statistique calculée et interprétation du test

La statistique à calculée est : D= Maximum     A B

F X F X OU FA(x) et FB(x)

désignent les fréquences cumulées des classes A et B .on compare aux valeurs

critiques do de la table de Kolmogorov-smirnov. la règle de décision est la suivante:

on rejette Ho si d>dO.

2.3.1-3-COMPARAISON DES DISTRIBUTIONS D’UNE VARIABLE X DANS

DEUX POPULATIONS A ET B (TEST DE U DE MANN ET WHITNEY)

la question de recherche est : une variable X est –elle identiquement distribuée dans

deux population A et B.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

26

Conditions d’application

-les deux échantillons sont aléatoires et contiennent nA et nB observations

indépendantes issues respectivement des populations A et B. supposons nA >nB pour

les formules qui vont suivent ; en cas de besoin on intervertit la notation des

échantillons A et B

-la variable X étudiée est au moins ordinale.

Hypothèses

L’hypothèse nulle à éprouver est H0 :la variable X est distribuée à l’identique dans la

population A et B.

L’hypothèse alternative est H1 : la variable X est distribuée différemment dans la

population A et B.

Statistique calculée et interprétation du test

Soit (A1 ;A2 …AnA) l’échantillon de taille nA issue de la population A et(B1 ;B2 …BnB)

l’échantillon de taille nB issue de la population B .on obtient N = nA + nB observation

que l’on classe par ordre croissant sans tenir compte de l’appartenance aux

échantillons.

la statistique calculée est U=minimum

 1  1

;

2 2

A A B B

A B A A B B

n n n n

n n R n n R

   

     

 

 

Où RA et RB désignent respectivement la somme des rangs des éléments de A et de B.

on compare la statistique U aux valeurs critiques Uα de la table de Mann et Whitney.la

règle de décision est la suivante : on rejette HO si U> Uα

lorsque nA et nB sont grands(supérieur chacun à 12)

 

' 2

1

12

A B

A B A B

U

U

n n

n n n n

 

Suit une loi centrée réduite. On peut donc utiliser

U’comparé à la valeur lue sur la table de la loi normale.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

27

2.3.2. Tests de normalité.

Pour calculer les intervalles de confiance prévisionnels et aussi pour effectuer les tests de

Student sur les paramètres, la vérification de la normalité des erreurs s’avère nécessaire. Le test de

Jarque et Bera (1984), basé sur la notion de Skewness (asymétrie) et de Kurtosis (aplatissement)

permet de vérifier la normalité d’une distribution statistique.

2.3.2.1. Skewness et Kurtosis des rendements boursiers.

Soit   

 

n

i

k

k i x x

n 1

1

 le moment centré d’ordre k.

Le coefficient de Skewness mesure le degré d'asymétrie de la distribution. Il est définit

comme suit :

3/ 2

2

3

S  en pratique on a :

 

2

3

2

3

( )

1

1





i

n

t

it

n

t

it i

R R

N

R R

N

Ski

Si Ski est égal à 0, la distribution est symétrique. Si S est inférieur à 0, la distribution est

asymétrique et étalée à gauche. Si S est supérieur 0, la distribution est asymétrique et étalée à droite.

En revanche Le coefficient de Kurtosis mesure le degré d'aplatissement de la distribution. Il

se définit classiquement comme suit:

2

2

4

K  en pratique on a :

 

2

2

4

( )

1

1





i

n

i

it

n

i

it i

R R

N

R R

N

Kui

On le compare ensuite à 3. En effet, Lorsque K> 3, cela indique que la distribution est

« leptokurtique » ou pointue. Si K= 3 alors la distribution est dite mésokurtique. Lorsque K<3, cela

indique que la distribution est relativement plus aplatie ou « platikurtique ».

Si la distribution est normale et le nombre d’observations grand (n›30) alors S=0 et K=3.

2.3.2.2. Le test de Jarque Bera(JB).

(4,4)

(4.5)

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

28

Il s’agit d’un test joint qui synthétise les résultats précédents, si S et K obéissent aux

caractéristiques d’une loi normale alors la statistique JB décrite par: )

4

( 3)

(

6

2

2 

 

K

S

n

JB suit un

Khi deux à deux degrés de liberté.

Donc si 2 2

1    JB  on rejette l’hypothèse nulle (H0) de normalité des résidus au seuil α.

Ces tests de normalité servent également à détecter la présence de l’hétéroscédasticité. En

effet, l’hétéroscédasticité se manifeste sur le graphe de la distribution par des queues de probabilités

plus épaisses (distribution leptokurtique) que celles de la loi normale.

2.3.3. Test de rang signé de Wilcoxon

Ce deuxième test non paramétrique est utilisé afin de lever les hypothèses non vérifiées par

le test de Student tel que l'hypothèse de normalité des rentabilités. C’est un test non paramétrique

dont le modèle ne précise pas les conditions que doivent remplir les paramètres de l’échantillon,

à la différence des tests paramétriques. Ce test prend en compte à la fois le signe et l’amplitude de la

variation anormale sur un jour donné de la fenêtre d’événement. Ce test non paramétrique noté

Zrang, est basé sur l'hypothèse d’une répartition symétrique des rendements anormaux.

Le principe du test de rang signé de Wilcoxon est le suivant : tout d’abord les

variations positives et négatives des rendements sont rangées par ordre croissant sans tenir

compte de leurs signes1. Ensuite, nous calculons la somme des rangs des variations positives comme

suit : 

  

n

i

i i T R d

1

-  T : somme des rangs de variations positives

- i R : rang de la variation

- i d =1 si la variation est positive

- i d =0 si la variation est négative

-n : taille de l’échantillon

Enfin, la statistique du test se calcule ainsi :

24

( 1)(2 1)

4

( 1)

 

n n n

n n

T

Zrang

1 Pour les variations négatives, on tient compte de la valeur absolue.

(4. 27)

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

29

Sous l’hypothèse nulle, H0 : absence des rendements anormaux moyens et n supérieur à 8,

la statistique de Wilcoxon suit une loi normale centrée réduite.

CHAPITRE 3 : MISE EN EVIDENCE DE QUELQUES RELATIONS DE

CAUSE A EFFET

3.1. RELATIONS DE CAUSE A EFFET SIMULTANEES

3.1.1. TEST PRELIMINAIRE : Test de stationnarité

Lorsqu’on utilise des données temporelles, il est primordial qu’elles conservent une

distribution constante dans le temps. Ce concept de stationnarité doit être vérifié pour

chacune des séries afin d’éviter des régressions factices pour lesquelles les résultats

pourraient être « significatifs », alors qu’ils ne le sont pas. L’étude de la stationnarité

constitue le préalable incontournable de toutes analyses des séries chronologiques. Par étude

de la stationnarité, il est entendu l’examen des caractéristiques stochastiques de la série

temporelle en question (espérance et variance). Une série temporelle est dite stationnaire2si

elle ne comporte ni tendance, ni saisonnalité, et plus généralement aucun facteur n’évoluant

avec le temps.

Si une série est non stationnaire, la différencier peut la convertir en série stationnaire.

Par ailleurs, notre préoccupation étant de montrer que les séries sont stationnaires, en

considérant le taux de croissance réel du PIB par habitant noté t y , il convient d’écrire

l’équation suivant la forme : t t t y  py  1 (3.1)

Où t 

représente le terme d’erreur stochastique c’est-à-dire qui satisfait les hypothèses

classiques à savoir la moyenne du terme de l’erreur qui est nulle, soit ( )  0 t E  et sa

variance constante, soit I

t t

2 var( )    .

2 Un processus stochastique xt est stationnaire si :- sa moyenne est constante et indépendante du temps ; sa covariance

est indépendante du temps. - sa variance est finie et indépendante du temps ;

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

30

L’équation (3.1) étant du premier ordre, elle consiste en la régression de la valeur de y

de la période t sur sa valeur de la période t-1.

Par ailleurs si le coefficient de t 1 y est égal à 1 ( p  1), on dit qu’il y a problème de

racine unitaire autrement dit la série en question n’est pas stationnaire. Dans ce cas il faut la

différencier pour la rendre stationnaire.

En économétrie, la série temporelle qui est considérée comme racine unitaire est

qualifiée de processus de marche au hasard c’est-à-dire une situation de série non

stationnaire.

Le test le plus simple pour ce faire est celui proposé par Engle et Granger à savoir le

test de Dickey-Fuller augmenté3 (DFA [1981]) qui admet la possibilité d’auto-corrélation

des résidus. Ce test est utilisé du fait de la généralisation des valeurs critiques par le logiciel

économétrique « Eviews » qui facilite l’interprétation de significativité. En effet on distingue

le cas de DFA en niveau et le cas de DFA en première différence.

S’agissant du premier cas, de façon générale, si la série est différenciée d fois, elle est

intégrée d’ordre d et elle se note I(d). De ce fait, si d est égal 0, le résultat ou la décision

notée I(0) voudrait dire que le test de DFA en niveau est significatif donc, la série est

stationnaire.

Par contre s’agissant du second cas, si le test du DFA en niveau n’est pas significatif, la

série doit être convertie en utilisant le test de DFA en première différence. Si le test est

significatif, on dira que la série originale est intégrée d’ordre 1 et elle est notée I(1) à partir

d’un seuil de signification précis. Il faut reconnaître qu’au cas où la série n’est pas

stationnaire en première différence, elle sera différenciée d’ordre 2 et sera notée I(2), ainsi de

suite.

Au regard de tout ce qui précède, les hypothèses généralisées à partir de l’équation (3.1)

sont :

- hypothèse nulle (H0) : il y a racine unitaire ( p  1).

- hypothèse non nulle (H1) : il y a absence de racine unitaire ( p  1)

3 Le test de DFA ajoute des retards aux modèles testés afin de contrôler l’auto corrélation, contraire au test de DF

standard.

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

31

De la règle de décision, que ce soit DFA en niveau ou DFA en première différence, si la

valeur statistique calculée est supérieure à la valeur critique, on accepte l’hypothèse

alternative et on rejette l’hypothèse nulle. Dans le cas contraire on accepte l’hypothèse nulle

et on rejette l’hypothèse non nulle. Cette conclusion pourrait s’apprécier avec la statistique de

student ou la valeur de probabilité calculée. Cette valeur doit être nulle ou inférieure au seuil

de signification pour que l’hypothèse alternative soit acceptée.

3.1.2. TECHNIQUE D’ESTIMATION DU MODELE

Il est vrai que beaucoup de paramètres entrent dans le choix d’un modèle efficace,

c’est-à-dire celui qui permet d’avoir les estimateurs significatifs et efficaces. Mais dans le

cadre de notre étude, nous mettrons en évidence le critère d’information d’Akaie (CIA) et le

critère de Schwarz (CS). Ces critères stipulent que, à partir de deux modèles définis et

estimés, le modèle le plus efficace est celui qui possède le CIA et le CS le plus faible. Ces

critères permettent de comparer la performance prévisionnelle tant à l’intérieur qu’à

l’extérieur d’un modèle. Ces tests sont performants pour la détermination du nombre de

retard dans les modèles VAR. L’estimation du modèle VAR (vector autoregressive model)

sera faite à partir des moindres carrés ordinaires.

Les hypothèses suivantes doivent satisfaire l’application des MCO à savoir :

- et le terme d’erreur doit suivre une loi normale centrée réduite, soit e N t  .

- la moyenne du terme d’erreur est nulle, soit ( )  0 t E e .

- la variance du terme d’erreur est constante, soitVar e I

t et

2 ( )  .

- la covariance des erreurs doit être nulle, soit ( , )  0 it jt Cov e e avec i  j .

3.1.3. TEST DE NON-CAUSALITE DE GRANGER DE TODA-YAMAMOTO

Au niveau théorique, la mise en oeuvre de relations causales entre les variables

économiques permet une meilleure appréhension des phénomènes économiques, et fournit

des informations supplémentaires quant à l’antériorité des évènements entre eux et par là

même, permet la mise en place d’une politique économique optimisée. De nombreux auteurs

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

32

ont tenté d’améliorer la puissance du test de non-causalité de Granger par la construction de

procédures alternatives (Johansen et Juselius, 1990 ; Mosconi et Giannini, 1992 ; Phillips et

Toda, 1993). Mais ces procédures ne sont pas simples et commodes (Huang, 2005 ;

Rambaldi et Doran, 1996 ; Shan et Sun, 1998). La procédure de Toda et Yamamoto (1995)

cependant est plus simple et donne des résultats probants. Ce test est choisi pour sa simplicité

et pour le fait qu’il réponde bien aux données. La définition de la causalité est entièrement

fondée sur la prédictibilité de certaines séries, Xt par exemple. Si une série Yt contient dans

ses valeurs passées une information qui améliore la prédiction de Xt et si cette information

n’est contenue dans aucune autre série utilisée pour calculer le prédicteur, alors on dit que Yt

cause Xt [Granger 1969, p.430]4 La causalité au sens de Granger cherche à savoir si les

valeurs antérieures d’une variable améliorent l’explication de l’autre variable. Pour avoir une

causalité au sens de Granger, le test F d’une régression doit être significatif alors que le test

de l’autre régression ne doit pas l’être. Si les deux tests F sont significatifs, nous aurions une

relation symétrique et si les deux tests F ne sont pas significatifs, nous n’aurons pas de

causalité.

Dans cette causalité développée par Granger, la variable Y1t cause la variable Y2t si la

prévision de cette dernière est améliorée en incorporant à l’analyse des informations relatives

à Y1t et à son passé.

Soit le modèle VAR (p) pour lequel les variables Y1t et Y2t sont stationnaires :





t

t

Y

Y

2

1

= 



0

0

b

a

+

 

 

2

1

1

1

2

1

1

1

b

b

a

a





2 1

1 1

t

t

Y

Y

+

 

 

2

2

1

2

2

2

1

2

b

b

a

a

 



2 2

1 2

t

t

Y

Y

+…+

 

 

2

1

2

1

k

k

k

k

b

b

a

a





t k

t k

Y

Y

2

1

+… +

2

1

2

1

p

p

p

p

b

b

a

a

 

 

t p

t p

Y

Y

2

1

+





t

t

2

1

Sous forme compacte, ce modèle s’écrit :

[Yi,t] = [A0] + [Ai

1Bi

1] [Yi,t-1] + [Ai

2Bi

2] [Yi,t-2] +…+ [Ai

kBi

k] [Yi,t-k] +… + [Ai

pBi

p]

[Yi,t- p]+[ i,t] (6)

4BOURBONNAIS, R 1993. Économétrie : cours et exercices corrigés, Dunod, 2ème éd ; Paris.

(5)

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

33

Avec [Yi,t] = 



t

t

Y

Y

2

1

, A0 = 



0

0

b

a

, [Ai

kBi

k] =

 

 

2

1

2

1

k

k

k

k

b

b

a

a

k = 1, 2,…p. [ i,t] = 



t

t

2

1

Le test s’effectue ensuite en deux temps :

- On teste H0 : Y2t ne cause pas Y1t c’est-à-dire que les coefficients des blocs matriciels

B sont nuls.

- On teste H’0 : Y1t ne cause pas Y2t c’est-à-dire que les coefficients des blocs

matriciels A sont nuls.

Si on est amené à accepter les deux hypothèses alternatives H1 et H’1, on parle de boucle

rétroactive.

Dans ce test, on estime le modèle VAR à niveau en augmentant le nombre de retard (k)

d’une unité.

Ayant dans ce chapitre précisé les différents tests à pratiquer, il reste à procéder aux

estimations des paramètres du modèle et à en donner une interprétation. Ce sera l’objet du

chapitre suivant.

3.2. RELATION DE CAUSE A EFFET NON SIMULATANEES

3.2.1. REGRESSION LOGISTIQUE MULTINOMIALE

Dans une modélisation logistique à K modalités, la probabilité d`occurrence de la modalité j s`écrit :

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

34

Par convention, la modalité 0 est la modalité de base. Notons que :

=ln(1)=0

V X,J:B(j,j) =0

En regardant la significativité de nos coefficients, nous pouvons 0 partir du signe des coefficients de nos différentes variables déterminer la faible ou forte relative probabilité d’effet de nos variables explicatives sur la variable expliquée.

3.2.2. Régression logistique en données de Panel

Dans le cadre de cette étude nous disposons des variables de performance (dépendantes) qui sont qualitatives et des variables de gouvernance (indépendantes) qui sont également qualitatives. Dès lors, le modèle approprié pour étudier l’effet de plusieurs variables explicatives sur une variable à expliquer mesurée sur une échelle dichotomique ou booléenne est le modèle Logit ou Probit encore appelée régression logistique.

La régression logistique nous permettra de conforter, voire augmenter la fiabilité de nos résultats. C’est pour cela que le modèle logit de la régression logistique s’impose à nous. Le choix de ce modèle tient au fait que nous traitons les variables qualitatives. De plus cette méthode a un caractère scientifique beaucoup plus accru. L’intérêt de ce modèle réside dans la simplicité du passage de l’estimation d’un coefficient qui mesure la force de l’association entre la Performance (Y) et les variables explicatives (Xi). Dans le cas d’une variable explicative (équivalent à une régression simple) le modèle s’écrit :

P (Y

Xit) = f(x) = ————————

1+ exp (

Il s’agit de la probabilité de performance si la variable X est prise en compte et quand sa valeur est connue. Le coefficient

de la variable explicative dans le modèle logistique mesure

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

35

l’association entre la performance et la variable explicative. Ce qui permet d’interpréter facilement les résultats obtenus.

L’extension vers un modèle à plusieurs variable (régression multiple), qui cadre avec notre recherche est le suivant :

exp

}

P (Yit ∣

)= ————————----------------

1+ exp {(

Σ

)}

J : Représente le nombre de variables explicatives de notre étude, il varie de 1 à 15

i : Représente le nombre d’observations (entreprises) il varie de 1 à 37

t : Représente le temps, il varie de 1à 5

A chaque variable Xj est associé un coefficient

mesurant l’association entre Yit et Xj.

Pour estimer le modèle PROBIT, nous avons fait recours à la fonction du maximum de vraisemblance.

Elle consiste à trouver la valeur des paramètres qui maximisent la vraisemblance des données. Parce qu’elle est difficile à manipuler, on utilise généralement le logarithme de cette fonction. Après manipulation, la fonction log de la vraisemblance s’écrit comme suit:

Les estimateurs obtenus en maximisant la fonction du maximum de vraisemblance ou encore en maximisant le log de la fonction du maximum vraisemblance sont efficaces.

Siβj,i,t > 0 cela signifie que la probabilité de réalisation de l’évènement augmente avec la variable correspondante ;

101011101011(,)((,))[()(1()]() ()(1())1() ()(1exp())iinyyiiiniiiiiniiiiLLogLogxxxyLogLogxxyxLogx

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

36

Si βj,i,t< 0 cela signifie que la probabilité de réalisation de l’évènement diminue avec la variable concernée.

3.2.4. La technique des données de panel statique

L’estimation des deux modèles se fera à travers la technique des données de panel. Les données de panel offrent un avantage incontournable parce qu’elles prennent en compte au moins deux dimensions, individuelle et temporelle. Elles contiennent des données sur plusieurs individus observés sur plusieurs dates. L’utilité des données de panel est qu’elles permettent de contrôler trois types de facteurs : ceux qui varient entre les individus, mais ne varient pas au cours du temps, ceux qui pourraient causer un biais d’omission si l’on n’en tenait pas compte, ceux qui sont inobservables ou non disponibles et ne peuvent être inclus dans la régression. Ainsi, en fixant un individu observé qui peut être par exemple un pays si on considère un panel de pays, on obtient la série chronologique ou coupe longitudinale le concernant. Si c’est la période examinée qui est fixée, on obtient une coupe transversale ou instantanée pour l’ensemble des individus. Afin de mieux comprendre ce qui précède, considérons une équation économétrique de type Y= a + b X + c Z+ ε, où Y est la variable endogène, X et Z les variables explicatives, a, b et c les paramètres à estimer et ε le terme d’erreur ou aléa. Cette relation prend la forme Yit = a + b Xit + c Zit + εit pour l’observation it, c’est-à-dire l’individu i à la période t. La modélisation particulière porte uniquement sur la spécification des aléasεit. La forme de base s’écrit simplement : εit = ui + vt + wit, où ui désigne un terme constant au cours du temps, ne dépendant que de l’individu i ; vt un terme ne dépendant que de la période t et wit un terme aléatoire croisé. La suite qui résume les techniques d’estimation dépend des hypothèses retenues quant aux composantes ui, vt et wit et à leur relation.

Tout d’abord, une méthode simple peut être utilisée en appliquant directement les M.C.O. sur les données empilées (Pooled Least Squares), sans se préoccuper de leur nature ni de celle de l’aléa. Cette façon de procéder permet l’estimation du modèle à effet commun encore appelé « estimateur pooled ». Les individus du modèle sont alors tous traités de la même manière c'est-à-dire qu’on suppose que le panel de pays est homogène. On admet ainsi l’uniformité des comportements et l’homogénéité des observations.

Ensuite, les modèles à effets fixes (fixed effects) ou modèle de la covariance qui supposent que ui, et vt sont des effets constants non aléatoires, qui viennent donc simplement modifier la valeur de l’ordonnée (ou constante) de l’équation selon les valeurs de i et de t. L’hypothèse de base de ces

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

37

modèles est que l’hétérogénéité des comportements est modélisée par un effet individuel générique. Il s’agit donc d’un modèle avec variables muettes individuelles. Par conséquent, ce modèle ressort la variabilité intra-individuelle (estimateur within). Si on suppose que les perturbations aléatoires croisées wit satisfont aux hypothèses classiques des M.C.O. c’est-à-dire centrées, homoscédastiques, indépendantes, et normales, les estimations sont optimales.

Enfin, il peut être important d’estimer un modèle à effets aléatoires encore appelé modèle à erreurs composées, qui suppose les ui et vt aléatoires. Autrement dit, l’effet individuel n’est plus un paramètre fixe à estimer mais une variable aléatoire non observable. Dans ce modèle, l’hypothèse nulle est la non corrélation entre les termes d’erreur et les variables explicatives. On aboutit à une variabilité interindividuelle (estimateur between).

Les différents tests nécessaires

. Le test d’hétéroscedasticité

Ce test se fera à travers le test de Breusch-Pagan pour voir si notre modèle est homoscedastique ou non. Si c’est le cas nous utiliserons la méthode des MCO pour estimer notre modèle, mais dans le cas contraire on utilise la méthode des MCG. Dans ce cas, on supposera sous l’hypothèse nulle que notre modèle est homoscedastique (variance est constante et finie) et sous l’hypothèse alternative que le modèle est hétéroscedastique (variance n’est plus une constante). Pour un seuil de signification fixé à priori de 5%, si la probabilité du test est inférieure à ce seuil, on conclut au rejet de l’hypothèse nulle et à l’acceptation de l’hypothèse alternative.

. Le test d’autocorrélation de Wooldridge

Ce test permet de détecter la présence d’autocorrélation. Ainsi pour un seuil de signification de 5% fixé, si la probabilité du test trouvée est inférieure à ce seuil préalablement choisi et bien justifié, on accepte l’hypothèse alternative et on conclut que le modèle est auto corrélé. Ainsi, si le modèle est à la fois autocorrelé et hétéroscédastique alors nous estimerons notre modèle par la méthode des MCGF.

. Le test de spécification de Hausman

Le choix entre modèle à effets fixes et modèle à effets aléatoires dépend des considérations suivantes : la nature de l’effet individuel, le nombre d’unités statistiques, la nature de l’échantillon, le type d’induction qu’on veut faire. Toutefois, le test permettant de discriminer les effets fixes et aléatoires est le test de spécification de Hausman. Le test de Hausman permet de déterminer si les

IME, ANNEE ACADEMIQUE 2017/2018, PAR DR MBA FOKWA ARSENE

38

coefficients des deux estimateurs (fixe et aléatoire) sont statistiquement différents. Ce test est fondé

sur l’hypothèse de non corrélation entre les termes d’erreur et les variables explicatives (hypothèse

du modèle à effets aléatoires). Cette hypothèse indique que les deux estimateurs sont non biaisés et

de ce fait, les coefficients estimés devraient peut différer. Le test est basé sur la comparaison de la

matrice de variance-covariance des estimateurs fixe   f  et aléatoire   a  :

 f a   f a   f a  H        ' 1 var

Le résultat suit une loi de 2  avec k-1 degré de liberté. Si la p-value est supérieure au niveau de

signification, l’hypothèse nulle est acceptée et dans ce cas, on utilisera le modèle à effets aléatoires.

Il est important de noter que ce test ne sera utilisé que dans le cas où on trouve précédemment à

travers le test d’auto corrélation et d’hétéroscedasticité que le modèle est non auto corrélé et

homoscedastique. Sinon, nous utilisons la méthode des MCGF.

Aucun commentaire:

Enregistrer un commentaire

  Stade Morivana : Stade d'entrainement de Leopard de Douala