Ce chapitre se consacre à la présentation de la démarche méthodologique adopté pour obtenir les résultats qui vont suivre. Il présente en premier la base de données suivie de la démarche de décomposition des inégalités proposées par Oaxaca (1973) et Blinder (1973), puis l’équation de salaire aménagé et des variables du modèle et enfin le choix de la méthode d’estimation subdivisée en endogénéité et biais de sélection.
2.1. Présentation de la base des données
Cette étude s’appuie sur les données secondaires de l’enquête 1-2-3. Il s’agit d’une enquête unique en elle-même des informations collectées en trois phases. La première phase contient des données sur l’emploi, le chômage et les conditions d’activité (phase 1 : enquête emploi). La deuxième quant a elle contient des informations collectées auprès des chefs des unités de production informelles (UPI) et relatives à leurs conditions d’activité, leurs performances économiques, le mode d’insertion dans le tissu productif et leurs perspectives (phase 2 : enquête sur le secteur informel). Enfin, la troisième phase porte sur la consommation des ménages des différentes personnes enquêtées dans les deux premières phases. Elle vise à estimer le niveau de vie des ménages, à mesurer le poids des secteurs formel et informel dans leurs consommations, et à analyser les déterminants du choix des différents lieux d’achat (phase 3 : consommation des ménages).
Les enquêtes de type 1-2-3 ont été initiées par DIAL[1]. Dans le cas de la RDC, la première enquête de ce genre a été réalisée entre 2004 et 2005 sur toute l’étendue du pays. La même enquête a été reproduite en 2012 sans forcément cibler les mêmes individus.
Le recours à ces deux bases est dicté par le fait que, compte tenu du temps qui sépare 2005 et 2012 et des changements que la RDC a connu comme la démocratisation, l’amélioration du cadre macroéconomique, la stabilité de la monnaie en particulier et enfin elles sont les seules bases qui abordent les questions relatives au marché du travail en RDC
En effet, entre ces deux périodes beaucoup d’événements de la vie du pays se sont réalisés : c’est le cas du changement du régime politique, des élections... C’est en 2006 que la RDC a organisé ses élections démocratiques marquant le début du processus de démocratisation, la fin du gouvernement 1+4, la fin de la période d’instabilité politique. Ainsi elle donne l’information concernant le pays avant la tenue des élections. La même expérience d’organisation des élections démocratiques a été répliquée en 2011. Et depuis cette période, le pays a eu des performances économiques beaucoup meilleures que la décennie précédente. Entre ces périodes, il y a une amélioration du cadre macroéconomique, de taux de croissance avoisinant deux chiffres. Cette période sous étude correspond également à la période pendant laquelle il y a eu une relative stabilité de la monnaie nationale depuis 1986 où il y avait de taux d’inflation extrêmes.
Telles sont en les raisons qui ont fait qu’on choisisse ces bases des données. La base de sondage est présentée ci-dessous.
Les ménages des unités tirées ont été dénombrés et sélectionnés en grappes de taille fixe (20-25 en milieu rural ; 12-15 en milieu urbain). Le tirage en milieu urbain a été donc indépendant du tirage en milieu rural vu que les fichiers de recensement administratifs ont été stratifiés selon la taille (grande ville, petites villes, secteurs).
Pour Kinshasa, le tirage a été effectué comme suit :
Au premier degré, on a procédé à un tirage de 54 quartiers à partir d’un fichier issu de l’harmonisation des différents fichiers des quartiers disponibles à l’INS (enquêtes123, enquête EDS, cartographie RGPH, recensement administratif). La base de sondage composé de différents quartiers de la ville de Kinshasa ont été classés dans 18 strates issues du croisement de 6 modalités pour le type de quartier (Quartiers résidentiels, cités, Quartiers planifiés, Extensions, Villages, Quartiers excentriques) et de 3 modalités pour la taille en population des quartiers (au plus égal à 10 000 habitants, entre 10 001 et 20 000 habitants, plus de 20 000 habitants). Un dénombrement exhaustif des ménages a été effectué dans l’ensemble des 54 quartiers tirés au premier degré ayant donné ainsi une base de sondage pour le tirage des ménages au second degré. Au second degré, un échantillon de 2 160 ménages a été constitué par un tirage systématique de 40 ménages par quartier échantillonné à partir de la base de sondage évoquée ci dessus. Ces 2160 ménages ont été enquêtés aussi bien en phase 1 qu’en phase 3.
En milieu urbain des provinces (villes et cités), hors Kinshasa et Lubumbashi, au premier degré, il a été tiré dans chaque province toutes les villes statutaires et deux cités, à probabilités proportionnelles à la taille de la population des cités. Douze quartiers de chacune de ces villes et Cinq quartiers de ces cités ont été tirés au second degré à probabilités proportionnelles à la taille en population des quartiers. Au troisième degré, un tirage systématique de 16 ménages à probabilités égales a été effectué dans chaque quartier échantillon en ville après avoir dénombré tous ses ménages et tirage systématique de 16 ménages dans chaque quartier de cité échantillonnée. En milieu rural des provinces, on a tiré, au premier degré, cinq secteurs par district (ensemble de territoires ruraux) à probabilités proportionnelles à la taille en population des secteurs. Au deuxième degré, dans les secteurs échantillons, on a procédé au tirage de quatre villages à probabilités proportionnelles à la taille en population. Ensuite, les ménages ont été dénombrés dans chaque village échantillon. Au troisième degré, il a été procédé au tirage systématique de 20 ménages à probabilités égales dans chaque village ainsi tiré et dénombré.
L’opération de dénombrement des ménages a pu se dérouler dans toutes les équipes d’enquête en moyenne en 4 jours par équipe, exécutée par l’équipe chargée de la collecte de la phase 1, (INS, 2014).
Pour cette étude, deux phases sont utilisées : la phase I et la phase II. L’enquête de 2005 a porté sur un total de 72685 individus alors que celle de 2012 apporte sur 111679.
Pour analyser la dynamique des inégalités de gains et faire une comparaison temporelle, les valeurs monétaires de l’année 2012 sont ramenées à celles de l’année 2005, considérée comme année de référence. Pour ce faire la valeur de CDF de 2012 en termes de celui de 2005 se fait en divisant les valeurs monétaires de 2012 par un coefficient correspondant au rapport entre l’IPC 2012 et celui de 2005, soit : 1CDFxIPC2012/IPC2005. IPC2005 traduisant l’indice des prix à la consommation de 2005 et IPC2012, celui de 2012. Les IPC moyens pour 2005 et 2012 sont respectivement 58.57 et 126.53[2]. Le coefficient d’ajustement utilisé est calculé comme suit :
Ainsi, 1CDF de 2005 vaut 2.16CDF de 2012. Pour asseoir la comparaison, les valeurs monétaires de 2012 ont été divisées par 2.16.
2.2. Présentation de la décomposition d’Oaxaca-Blinder
La littérature offre plusieurs outils pour étudier les inégalités en général et celles des gains, en particulier le coefficient de Gini, l’indice de Theil, le coefficient de variation, le ratio 90è quantile/10è quantile, etc.
Cette étude choisit d’utiliser la décomposition d’Oaxaca-Blinder qui va donner les origines de l’écart. Celle-ci va donner la part de l’écart qui revient aux dotations et la part non expliquée. Cidessous, deux outils couramment utilisés sont présentés avec leurs limites avant de présenter la méthodologie retenue pour cette étude.
Le coefficient de Gini[3]
Le coefficient de Gini, ou indice de Gini, est une mesure statistique permettant de mesurer le niveau d'inégalité de la répartition d'une variable (salaire, revenus, patrimoine) dans la population. Il varie de 0 (égalité parfaite) à 1 (inégalité parfaite). Il se calcule à partir de la courbe de Lorenz. Il est largement utilisé pour rendre compte des inégalités économiques. Cet indicateur a l'avantage d'être facile à comprendre et de ne pas supposer d'hypothèses préalablement définies.
Ci
Où est ieme composante de la distribution du revenu dans le revenu total, Ci est le coefficient de concentration du ieme composant du revenu.
Cependant, le coefficient de Gini connait certaines limites :
En effet, il ne donne pas d'indication quant au niveau des revenus. Ainsi, il est possible que deux pays aient un coefficient de Gini identique alors que leur niveau de richesse est différent.
En outre, à un même coefficient de Gini peut correspondre différentes distributions de revenu. Par exemple, si les 50 % des personnes les plus modestes n'ont pas de revenu et que les 50 % les plus aisés se répartissent égalitairement les revenus restants, alors le coefficient de Gini est égal à 0,5. Il atteint également 0,5 lorsque les 75 % les plus modestes se répartissent 25 % des revenus et que les 25 % les plus aisés ont 75 % des revenus.
Enfin, le coefficient de Gini ne dit rien sur ce qui fait évoluer les inégalités. En effet, si le coefficient augmente, il n'est pas possible de savoir si cela vient du bas ou du haut de la distribution. Il est obtenu par cette formule :
17
L’indicateur de Theil
L’indice de Theil (1967) mesure l’écart entre le poids d’un individu (ou d’un groupe) dans la population et le poids de son revenu dans le revenu total. Sa valeur varie entre 0, la situation d’égalité et log N, dans le cas où tous les revenus sont nuls, sauf un. Cet indice accorde un peu plus d’importance à l’inégalité dans le bas de la distribution qu’à l’inégalité parmi les riches. Son principal intérêt est de pouvoir se décomposer à l’infini en partitionnant la population puis en ré décomposant chacun des groupes en différents sous-groupes, cela afin d’analyser l’évolution des inégalités dans et entre différentes sous-populations. Cependant son expression mathématique, qui utilise la forme logarithmique, limite son usage à des valeurs non nulles. Il est donné par:
T
L’indicateur T est séparable en la somme des indicateurs intragroupes pondérés (Tw) et la somme des indicateurs intergroupes pondérés (Tb). La contribution des inégalités intergroupes à l’inégalité totale est donnée par :
T
Les inégalités intragroupes à l’inégalité totale est formulée de la manière suivante :
17 http://theses.univ-lyon2.fr/documents/getpart.php?id=lyon2.2006.paulo_c&part=119232, consulté le 25/8/2017
T
L’indicateur de Theil est, au même titre que l’indicateur d’entropie généralisé, seulement séparable en deux éléments. L’équation fondamentale de la décomposition de l’indice de Theil est donc : T = Tw + Tb
Si T prend la valeur de 0, cela indique qu’il y a une distribution égale pour le Log naturel, dans le cas contraire avec une valeur supérieur donc il y a une distribution inégale. Le coefficient de variation
Où CV est le coefficient de variation, S l’écart type et la moyenne.
Le ratio 90è quantile/10è quantile
Il est donné comme son nom l’indique par le rapport du 90 quantile de gain sur le 10 quantile de gain, plus le rapport est élevé plus les inégalités sont fortes.
La décomposition d’Oaxaca-Blinder
Cette décomposition conduit essentiellement à déterminer une part expliquée (décomposition) et inexpliquée (de structure) de la différence de gain. La part inexpliquée est assimilée à une part discriminatoire et est considérée en tant que telle comme une mesure de la discrimination. La décomposition d’Oaxaca-Blinder (OB) postule que les salaires Y (en logarithmes) dépendent linéairement des caractéristiques individuelles de l’individu et d’un terme d’erreur. Cette équation de régression peut être estimée pour le groupe d’observations au gain élevé (no 1) et groupe au gain faible (no 2).
Cette différence peut être décomposée de plusieurs façons. Cette décomposition d’Oaxaca-
Blinder a l’avantage de décomposr la différence en part expliquée et inexpliquée (Laurent, 2013) Comme dit ci-haut elle procède par l’estimation de deux équations : une pour les personnes ayant un niveau de gain élevé et l’autre pour les personnes avec un niveau de gain faible. Cette différence est subdivisée en 3 sous écarts : proportion des différences attribuée dans les dotations, proportion des différences attribuée aux différences dans les coefficients, proportion des différences inexpliquées. Les deux dernières étant considérées comme proportion des différences attribuée à la discrimination.
Ospino, Vasquez et Narvaez (2009), montre que Blinder (1973) propose pour le calcul de la décomposition de l’inégalité de gain d’estimer d’abord deux équations : une pour le groupe avec un gain élevé et l’autre pour le groupe ayant un gain faible. Les deux modèles sont de la forme :
. (2)
Où H indique le groupe de gain le plus élevé et L le plus bas, i étant des paramètres pouvant être estimé par la MCO[4] ; i est le logarithme naturel su gain mensuel. X1i, … n les n caractéristiques observées utilisées pour expliquer i.
Pour arriver à calculer la différence de gain entre les 2 groupes après estimation, Blinder(1973) soustrait de l’équation du groupe avec gain élevé est celle du groupe avec faible, ce qui donne :
, on a:
Où le premier terme représente l’écart de gain qui peut être expliqué par les différences dans les caractéristiques observées des individus ; et le 2ème reflète la partie de l’écart non expliquée et en conséquence interprétée comme l’effet de discrimination.
En synthèse les mesures proposées par Blinder(1973) sont les suivantes:
R=écart brut= ( )=E+C+U (4)
Cet écart est décomposé en 3 sous écarts :
E== proportion des différences attribuée dans les dotations, (5)
C==proportion des différences attribuée aux différences dans les coefficients,
(6)
D=C+U, proportion des différences attribuée à la discrimination. (7)
2.3. Présentation de l’équation de gain aménagé et des variables
Tenant compte des variables disponibles dans les bases 1-2-3 qui peuvent expliquer l’inégalité de gain, cidessous sont présentées les variables qui seront utilisées.
2.3.1. Variable dépendante
La variable dépendante pour cette étude est i le logarithme naturel du gain de l’individu i, il est capturé par la rétribution que reçoit l’individu qui est nette de toutes les retenues légales a la source comme l’IPR et des cotisations sociales. Cette rétribution dépend de plusieurs facteurs qui vont être présentés dans la section suivante.
2.3.2. Variables indépendantes
Plusieurs facteurs peuvent influencer la détermination du salaire, néanmoins parmi les variables qui sont retenues figurent :
La variable éducation (EDUCATION). Le gain d’un travailleur dépend du niveau d’éducation qu’il a atteint et qui est un élément du capital humain. Celle-ci affecte positivement le salaire. Cela a été vu dans la littérature qui montre comment cette variable revient a mainte reprise pour expliquer l’inégalité des salaires en faveur de ce qui sont plus instruits. Dans la littérature les auteurs semblent être unanimes quant à ceux. Plus on a un niveau d’instruction élevé, plus on a la chance d’échapper a l’inégalité des salaires. Le niveau d’instruction est positivement lie au salaire. Plus on a un faible niveau d’’instruction plus on est expose a l’inégalité des salaires.
Cette variable est mesurée par le nombre d’année passe au banc de l’école et réussi avec succès.
Les auteurs sont unanimes quant a la contribution de cette variable a l’explication du salaire.
Rosella (1996) montre que l’écart salarial est moins grand entre les jeunes célibataires des deux sexes ayant un niveau élevé d’éducation. L’écart salarial le plus grand est celui entre les hommes mariés et les femmes mariées, surtout chez ceux et celles qui n’ont pas complété leurs études secondaires.
Les femmes ont un niveau faible d’éducation formelle comparativement à celui des hommes. L’écart de gain est attenué par un accroissement du niveau de leur éducation (Antoczyc, Fitzenberger et Sommerfeld, 2010).
Eu égard a ce qui précède, on comprend que l’éducation joue un grand rôle dans la détermination du gain.
La variable expérience(EXPERIENCE), celle-ci donne une compétence au travailleur. Les partisans de la théorie du capital humain défendent la théorie selon laquelle un individu est fortement caractérisé par une incitation à s’investir dans son travail la période qui suit sa sortie de l’école. Il acquiert ainsi une plus forte compétence. Cette incitation cependant, a tendance à décroitre avec son âge (Gravot, 1993). (EXPERIENCE2), l’expérience au carré fait voir qu’il y a un niveau à partir duquel, l’augmentation d’une unité supplémentaire de l’expérience contribue significativement à la baisse du gain.
Plus on avance en âge, sa contribution devient négative. C’est aussi un élément du capital humain. Cette variable est mesurée par le nombre d’années que le travailleur a déjà passé dans l’entreprise. L’on comprend que celle-ci joue un rôle primordial dans la détermination du salaire, plus on est expérimenté plus le salaire augmente.
La variable âge (AGE) agit également positivement sur le salaire. Plus on avance en âge moins la difficulté de comprendre le système dans lequel se trouve le travailleur se pose, cela parce qu’il acquiert l’expérience, comprend le monde dans lequel il se trouve. (AGE2) quant à lui fait remarquer qu’au delà d’un certain âge tout accroissement de l’âge contribue négativement au gain.
La variable genre (GENRE) joue également dans la détermination du salaire et contribue aux inégalités des salaires. L’homme perçoit toujours un salaire supérieur à celui de la femme, même si le niveau de capital humain est le même. C’est du moins ce que rapporte la littérature qui a été exploitée.
L’inégalité économique des femmes est un problème mondial. Bien que dans plusieurs pays, les femmes ont fait des gains dans les domaines de l’éducation et de la santé, elles sont toujours loin en arrière des hommes en matière de pouvoir économique et politique. Les femmes représentent 70% des personnes qui vivent dans la pauvreté dans le monde, elles occupent 10% des sièges dans les assemblées législatives et représentent seulement 6% des conseils exécutifs des gouvernements nationaux (Rosella, 1996).
De ce qui précède, on voit que le genre influence négativement le gain. Il prend 2 modalités. Il prend 1 quand c’est le sexe masculin et 2 si non.
La variable état civil (ETATCIV) celle-ci est un autre facteur qui joue également dans la détermination du salaire, l’on remarque que quand on est marie on peut recevoir certains avantages par rapport au célibataire et qui modifient sensiblement la détermination du salaire.
Les femmes qui ne se sont jamais mariées (célibataires mais pas nécessairement sans enfants) gagnent 92% du salaire des hommes qui ne se sont jamais mariés: les salaires sont faibles pour les deux sexes. Les hommes jamais mariés, les femmes jamais mariées et les femmes mariées gagnent presque le même salaire, c’est-à-dire beaucoup moins que les hommes mariés. L’écart salarial le plus grand est celui entre les hommes mariés et les femmes mariées. Les gains moyens des hommes mariés sont beaucoup plus élevés que ceux des hommes célibataires et que ceux des femmes dans toutes les catégories (Rosella, 1996).
Eu égard a ce qui précède, on peut dire que le statut matrimonial ou état civil joue un rôle significatif dans la détermination de la rémunération. Dans l’enquête 123, cette variable a 6 modalités, mais vu la prépondérance des maries et célibataires, nous avons retenus les 2. Elle prend 1 si on est marie et 2 si on est célibataire.
La variable milieu de résidence ou région (MILIEU_RES), celle-ci influence la détermination du salaire, certains reçoivent certains avantages lies à l’endroit ou ils sont établis. Il existerait certaines régions où les travailleurs perçoivent plus que les autres et cela indépendamment des différentes variables du capital humain. Ainsi, ceux qui sont en milieu rural perçoivent moins que ceux se trouvant en milieu urbain. Cette variable prend 1 lorsque c’est le milieu urbain et 0 si milieu rural.
La variable (PROVINCE). Celle-ci tout comme la variable milieu de résidence joue beaucoup sur la détermination du salaire. Ainsi, ceux qui sont par exemple dans la capitale recevront des avantages que d’autres n’ont pas. Les entreprise qui se trouvent dans les provinces qui ont une ouverture stratégique auront la facilite de faire les recettes que d’autres ne peuvent pas realiser ; ces recettes vont jouer sur la couverture des charges dont fait partie la masse salariale. Cette variable a 11 modalités (11 provinces du pays).
Gustafsson, Li(2000) ont trouve dans leur étude sur les inégalités de salaires en chine urbaine que les régions de l’EST avait des salaires plus élevés que d’autres régions. La localisation est un élément significatif dans la détermination du salaire.
La variable (SECTEURACT) secteur d’activité influence l’inégalité des salaires, certains secteurs reçoivent des subventions de la part du gouvernement, rémunèrent mieux que d’autres en octroyant des avantages aux travailleurs et cela amplifie les inégalités des salaires.
Les travailleurs les moins rémunérés gagnent plus dans le secteur public que dans les autres secteurs. Les travailleurs les mieux rémunérés dans le secteur prive gagnent beaucoup p plus que les précédents dans le secteur public qui en retour sont bien rémunérés que leurs collègues du secteur collectif/associatif. L’inégalité des salaires est alors élevée dans le secteur prive et faible dans le secteur de l’Etat (Gustafsson et Li, 200).
De ce qui précède, on comprend que le secteur influence le salaire.
En 2005 cette variable prend 3 modalités : 1 si on est dans l’administration, 2 si on est dans le secteur entreprise et 3 si secteur ménage.
En 2012, elle prend 6 modalités : 1 administration, 3 ménages, 4 entreprises associatives, 5 entreprises informelles, entreprises privées et 7 entreprises publiques.
La variable catégorie socioprofessionnelle (CSP) indique la position hiérarchique qu’occupe un travailleur dans l’entreprise. Plus on occupe une position supérieure sur la ligne hiérarchique plus on obtient des salaires élevés, mais ce n’est pas le cas en comparant les types d’entreprises et le secteur d’activité.
Cette variable a 9 modalités et toutes ont étés retenues dans cette étude : 1 agent de maitrise, 2 aide familial, 3 apprenti, 4 cadre de collaboration, cadre de direction, 6 employé/ouvrier, 7 manœuvre, 8 patron, 9 travailleur pour compte propre.
Les variables (GAINELVFAIBL) et (SAL_ENTR) vont permettre de faire la décomposition d’Oaxaca-Blinder ; respectivement quand on va voir l’inégalité entre ceux qui ont un gain élevé et ceux qui ont un faible et ensuite quand on va voir l’inégalité entre salarié et autre entrepreneurs. Pour construire (GAINELVFAIBL) on a calculé le gain moyen, puis on a donné 1 lorsque le gain de l’enquêté était supérieur ou égal à la moyenne et 2 lorsqu’il était inferieur au gain moyen. (SAL_ENTR) a été construite à partir des catégories socioprofessionnelles. Ainsi, sont considérés pour le cadre de ce travail entrepreneurs, les catégories 2, 3,8 et 9. Les autres sont salariées.
La variable (HEURES). Cette variable intéresse en ce sens qu’elle permet de savoir le nombre le nombre d’heures qu’on a preste dans l’entreprise. Cela pourra jouer sur la détermination du salaire.
La variable (PONDERATION), celle-ci constitue le poids de sondage dans la base de données.
27
Noms des Variables |
Description |
Nature |
Modalités et signe |
ap13a_mt Gain Ln gain |
Logarithme naturel du gain mensuel. Il est construit à partir de la variable revenu (ap13a_mt gain) dans la base 1-2-3. On l’a utilisé pour générer à partir de stata le logarithme naturel du gain. |
Quantitative |
- |
m3_sexe Genre |
Le sexe de l’individu |
Qualitative |
Variable valant 1 si masculin et 2 si féminin (-) |
m4_age Age |
C’est le nombre d’années révolues de l’enquêté |
Quantitative |
(+) |
Age2 |
C’est l’âge au carré. Il est trouvé en élevant l’âge au carré |
Quantitative |
(-) |
m6_situa etat_civil |
L’état matrimonial de l’enquêté. Elle avait 6 modalités on les a regroupé en 2 |
qualitative |
Variable valant 1 si marié et 2 si célibataire (-) |
m7_natio Nationalité |
Renseigne sur la nationalité de l’enquêté. Elle avait 3 modalités, on les a ramenés à 2. |
qualitative |
1 si congolaise et 2 si étrangère (-) |
m14_cla |
Education : Nombre d’année d’étude de l’individu |
quantitative |
(+) |
ap3_cat CSP |
C’est la catégorie socioprofessionnelle de l’individu |
qualitative |
(-) |
Secteuract |
|||
ap6_rc FORIN |
Renseigne sur la formalité de l’individu. Elle a été construite sur base de la possession ou non du registre de commerce. |
qualitative |
1 si formel 2 si non (-) |
ap8a2_en Expérience |
Nombre d’années dans l’entreprise |
quantitative |
(+) |
Experience2 |
C’est l’expérience au carré |
quantitative |
(-) |
ap11_hh Heures |
Heures prestées par semaine |
quantitative |
(+) |
Educpere |
Education du père. C’est le niveau d’instruction du père |
quantitative |
|
prov province |
Renseigne sur la province de l’individu. Elle a 11 modalités que sont les provinces du pays |
qualitative |
11 modalités (-) |
gainelvfaibl |
Elle prend 1 si le travailleur a un salaire élevé et 2 si non |
qualitative |
2 |
Sal_entr |
C’est la variable qui permet de distinguer les salariés des autres. Elle prend 1 si salarié et 2 si non |
qualitative |
2 |
ponder3b |
pondération .C’est le poids de sondage. Renseigne sur l’importance de chaque observation dans la BDD. |
quantitative |
|
milieu_res |
C’est la région dans laquelle reste l’individu |
qualitative |
1 si urbain et 2 si rural (-) |
2.4. Choix de la méthode d’estimation
Pour estimer l’équation de gain, plusieurs études ont utilisées le MCO. S’appuyant sur ces études, la même approche est adoptée ici.
Quand on estime cette équation, les problèmes de l’endogéneité de la variable éducation se pose. Généralement, on dit qu’une variable X est endogène lorsque celle-ci est corrélée avec le terme d’erreur; ce qui a pour corolaire d’induire un biais dans la régression par les moindres MCO[5].
Kpodar (2007) donne les principales sources d’endogénéité : les erreurs de mesures sur les variables explicatives, la double causalité (c’est à dire lorsque la variable explicative agit sur la variable dépendante et inversement) et enfin le biais des variables omises lorsqu’une variable non incluse dans le modèle est corrélé avec au moins une des variables explicatives.
2.4.1. Endogénéité de la variable éducation
La variable éducation constitue la principale variable explicative, mais on pense que celle-ci est liée a d’autres facteurs non observables comme l’intelligence et qui peuvent avoir impact sur le gain tiré du marché du travail. Card (1999), cite par (Mponjo, 2016), indique qu’il est vrai qu’en termes de choix scolaires, la diversité des caractéristiques influe énormément. De ce fait, en l’absence d’évidence expérimentale, il est très difficile de savoir quel est le sens causal entre gain sur le marché du travail et éducation. Ce problème peut se traduire à travers la question suivante : des gains observés très élevés pour des travailleurs mieux éduqués sont ils le résultat de leur diplôme élevé ou est-ce leurs capacités plus élevées qui leur ont permis d’acquérir plus d’éducation et donc des rémunérations élevées ?
D’un point de vue statistique le biais se présente de la sorte :
(8)
Pour avoir les estimateurs sans biais et consistants, il faut résoudre le problème d’endogéneité.
Une des méthodes pour y arriver, c’est celle des variables instrumentales (Estelle, Isabelle, & Simon ,2005). Elle repose sur les hypothèses que voici : le terme d’erreur ne doit pas être corrélé avec la variable instrumentale, la variable dont on suppose souffrir d’endogénéité doit être fortement corrélée avec la variable instrumentale, mais pas corrélée avec le terme d’erreur, La variable instrumentale doit être différente de la variable qui souffre d’endogénéité.
La variable éducation peut être instrumentée par une diversité des variables traduisant les caractéristiques socioéconomiques ou familiales des unités étudiées. Ainsi, l’éducation du père l’un de ces instruments sera utilisé. Comment arriver à choisir entre le MCO et le DMC?
2.4.2. Test d’endogénéité
Pour choisir entre le MCO et la méthode des variables instrumentales (DMC), on fait le test d’Hosman ou celui de Nakamura Nakamura pour confirmer si la variable soupçonnée être endogène l’est statistiquement. Les estimateurs de la méthode de la variable instrumentale sont moins efficaces que ceux de MCO si toutes les variables explicatives sont exogènes (Kpodar, 2007).
Ce test permet de détecter une corrélation entre une ou des variables explicatives Xik et le terme de l’erreur.
Soit les hypothèses :
Opposée à l’hypothèse d’endogénéité (9)
Sous l’hypothèse H0, les estimateurs de MCO sont sans biais et convergents, néanmoins pour l’hypothèse H1, la covariance est non nulle et les estimateurs de MCO sont biaises et non convergents. Pour faire ce test on cherche la différence entre les estimateurs de la méthode des variables instrumentale et des MCO. Cette différence est synthétisée dans la statistique H qui est distribue selon un khi-2 de k degré de liberté. Ainsi, si H <χ2 (k) pour un seuil α% fixé à l’avance, on conclut que le biais d’endogéneité n’était pas détecté, et dans ce cas les estimateurs de MCO sont sans biais et on opte pour le MCO comme méthode d’estimation (Bourbonnais ,2005). Dans le cas contraire, la méthode des variables instrumentales sera usilisée.
La statistique H est donnée par:
, (10)
Où est le vecteur des estimateurs avec la méthode des variables instrumentales et MCO: le vecteur des estimateurs par la méthode de MCO (Estelle, Isabelle, & Simon, 2005).
Pour le test de Nakamura Nakamura, celui qui sera utilisé pour cette étude, on procède en ces deux étapes :
Dans le but de lever le biais d’endogénéité, la littérature suggère de régresser simultanément les « n » équations économétriques (deux pour cette étude). Pour cela, il faut recourir à l’approche dite Double Moindre carrée DMC (2-SLS) ou le triple Moindre carrée (3-SLS) en vue d’estimer les équations structurelles.
Le modèle définitif pour cette étude est donné par :
i=+AGE++EXPERIENCE+GENRE+ETAT_CIVIL+MILIEU_RES+
PROVINCE + HEURES_ MENSUELLES+ SECTEURACT+ CSP- AGE2 -
EXPERIENCE2 + NATIONALITE+ FORIN+ (11)
En définitive le logiciel Stata 12 sera utilisé pour la génération des résultats.
[1] Développement, Institutions et Analyses de Long terme
[2] http://www.perspective.usherbooke.ca/blian/sevelet/BMtendance stat pays? Code theme=2&code stat =FP .CPI.TOTL & code pays=COD&code theme2=2 code stat2=x&code pays2=COG&langue =fr.
[3] http://www.bsi-economics.org/288-%E2%98%86-le-coefficient-de-gini, consulté le 25/8/2017
[4] Moindres carrés ordinaires
[5] Moindres carrés ordinaires