Le présent chapitre présente la démarche poursuivie dans la récolte des données avant la spécification du modèle économétrique relatif à la détermination des causes de l’abandon précoce de l’école et les variables retenues. Dans ce travail, nous utilisons des données secondaires. Ces données sont de deux ordres : la première catégorie nous vient de la Division provinciale de l’EPSP. La seconde catégorie des données est issue de l’enquête 1-2-3 menée par le Gouvernement de la République Démocratique du Congo entre 2005 et 2006. Les données de cette enquête fournissent des informations sur les caractéristiques individuelles et les activités des membres d’un ménage. Ceci nous permet de mener une analyse à deux niveaux à savoir le niveau individuel de l’élève et le niveau familial. Il est donc question de présenter les principales étapes ayant conduit à la mise en place du modèle économétrique; du choix des variables explicatives et de la variable expliquée pour l’analyse du phénomène de décrochage scolaire au Sud-Kivu et à l’interprétation des résultats.
L’enquête 1-2-3 est en fait une série d’enquêtes emboîtées, à savoir, une enquête sur l’emploi, le chômage et les conditions d’activité et de vie de la population (Phase I), une autre sur le secteur informel (Phase II) et une troisième sur la consommation des ménages (Phase III) (Rapport de l’enquête 1-2-3, 2008).
II.1. Echantillonnage
Les données qui proviennent de la division provinciale de l’enseignement primaire, secondaire et professionnel (EPSP) dans la province du Sud-Kivu ont été récoltées entre juin (du 4 au 18) et juillet (du 13 au 27) 2012. A cause de l’absence des données compilées sur la scolarité au Sud-Kivu et la contrainte temps nous étions obligé de retenir une cohorte de cinq années soit de 2005 à 2009. Ces données ont été tirées, pour la majorité, des annuaires statistiques de la division provinciale de l’EPSP à Bukavu. Les données ont été saisies sur une maquette développée sous Excel. Pour comprendre le phénomène étudié à partir des données collectées, une analyse exploratoire des données récoltées est présentée à l’aide des tableaux de synthèses et des graphiques.
Pour ce qui est de l’enquête 1-2-3, le sondage utilisé est celui à plusieurs degrés, stratifié a priori au niveau des unités primaires, et a été adopté comme méthode d'échantillonnage. L'ensemble du territoire national a été découpé en deux strates : la strate urbaine et la strate rurale. La strate urbaine est subdivisée en deux sous-strates : le milieu urbain (villes statutaires) et le milieu semi-urbain (ou cités). Aucune stratification explicite n'a été faite au niveau des provinces, dans la mesure où la répartition géographique du pays par province
constitue en elle-même une stratification implicite. Le quartier, la collectivité (ou secteur) et le village/localité retenus respectivement comme unité primaire et unité secondaire sont des entités administratives clairement définies par l'ordonnance – loi n° 82 - 006 du 25/02/1982.
Le plan d’échantillonnage ci-dessus a permis d’obtenir un échantillon représentatif pour chacune des provinces avec un minimum de 1.000 ménages pour chacune d’elles. Tenant compte de la charge de travail d’une équipe d’enquêteurs, on a obtenu un échantillon de 13
688 ménages pour l’ensemble du pays pour la phase I et 12 098 ménages pour la phase II et
III. (Rapport de l’enquête 1-2-3, 2008).
Cette enquête fournit des indicateurs aussi bien au niveau national qu'au niveau provincial. Sur le total de 260 variables qui étaient dans la base des données, nous n’avons retenu que quelques unes d’entre elles. Les variables que nous avons retenues sont celles qui nous fournissent des informations sur la scolarité. Sur un total de plus de 1000 ménages enquêtés au Sud-Kivu, nous n’avons éliminé que quelques uns (près de 200 observations) qui avaient, pour une bonne partie des données incomplètes. Ceci nous a permis de rester avec 811 ménages comme taille de notre échantillon. Pour sélectionner la variable dépendante
« abandon scolaire », nous nous sommes basés sur les réponses aux questions : « avez-vous au moins été à l’école primaire », « avez-vous arrêté l’école avant la fin du cycle». Le fait que la variable dépendante était codée autrement (1 pour « oui » et 2 pour « non »), nous avons dû modifier le codage (0 pour « non » et 1 pour « oui ») dans le but d’avoir une variable dichotomique pouvant faciliter la régression et l’interprétation. Cette gymnastique c’est aussi appliquée à certaines variables explicatives. Aussi faut-il signaler que les noms de certaines variables retenues dans cette étude ont été modifiés pour cette même fin.
II.2. Spécification du modèle
Le niveau d’éducation constitue selon la théorie du capital humain l’une des clés essentielles du positionnement dans la vie socioprofessionnelle. Néanmoins, les caractéristiques individuelles, la situation familiale, et même environnementales sont susceptibles d’aider à limiter et/ou d’influencer un élève dans le processus de décrochage ou de non décrochage scolaire (Sabates et al., 2010). Les informations contenues dans la base des données de l’enquête 1-2-3 nous permettent d’estimer directement l’effet de différentes variables sur la probabilité d’abandonner l’école.
Pour évaluer les facteurs à la base du décrochage scolaire, la plupart des auteurs [(Rumberger
(1995) Belzil (2004) ; Coulidiati-Kiélem (2009), et Boulila et Jaleleddine (2010)] se sont
appuyés sur un modèle d’analyse multi-niveaux. En effet, dans le cas d’une variable binaire à expliquer, une simple régression linéaire de moindres carrés n’est plus satisfaisante pour l’estimation.
Tout de même, le principe méthodologique d’analyse multi-niveaux est le même mais repose sur une synthèse de trois approches complémentaires : l’analyse statistique de probabilités, analyse de la variance et l’analyse de régression. Il s’agit d’une régression dont la partie indéterminée du modèle est décomposée en variables latentes conformément aux hypothèses sur l’hétérogénéité inobservée (Coulidiati-Kiélem, 2009) de variables situées à plusieurs niveaux d’analyse. A l’aide d’un modèle probit nous identifions et testons un certain nombre de caractéristiques associées aux élèves et à leur environnement familial qui contribuent à la probabilité d’abandonner les études précocement.
Afin d’identifier l’effet des variables explicatives sur la probabilité de décrochage scolaire, les variables sont divisées en deux catégories suivantes : le niveau individuel et le niveau familial. Un modèle probit univarié est estimé séparément pour chacun de deux niveaux et à la fin un modèle complet permet de comparer les influences de chaque niveau dans la probabilité de décrochage.
Chaque modèle probit univarié peut être exprimé de la manière suivante (Rumberger, 1995 et
Boutin, 2010)11 :
|
|
( )
-
|
). )
) + /
(1)
∗ ∗
01 désigne la variable latente non observée représentant le fait d’abandonner les études. 012 est
|
considéré comme une variable binaire, égale à 1 si 0∗ > 0 et à 0 sinon. Les 31 représentent les
termes d’erreurs, supposés indépendants et normalement distribués. Les variables
explicatives de l’équation précédente sont rassemblées en deux groupes : les caractéristiques propres à l’élève et les caractéristiques du ménage de ce dernier.
D’autres variables, non testées dans cette étude peuvent également influencer la probabilité d’abandonner précocement l’école (telles la distance séparant le ménage et l’école, le nombre d’enfants en âge scolaire dans un ménage, les problèmes de santé, le comportement ou
relation de l’élève avec ses éducateurs, la capacité de l’élève au début de ses études,...). Fort
11 Le modèle probit univarié mesurant de la probabilité qu’un événement se réalise. Les deux auteurs ont aussi utilisé dans leurs travaux ce modèle. Pour plus de détail, ce modèle est développé dans le cours d’économétrie approfondie de Beine (2009).
malheureusement, les données dont nous disposons ne nous permettent pas d’intégrer ces genres des variables dans l’analyse.
La fonction cumulative normale de la distribution est donnée :
|
= Pr (( ) =1) = Pr4/ < −(+ + ∑- +)
) ): (2)
D’où
|
= 1-F−(+ + ∑- +)
)
) (3)
Où ;1 désigne la probabilité de décrochage scolaire.
L’hypothèse de normalité des termes d’erreurs (Bourbonnais, 2009), nous permet d’affirmer
que 1- F (-X) = F(X), la distribution des termes d’erreurs étant symétrique. La fonction cumulative de la distribution est donc réécrite:
|
= F(+ + ∑- +)
)
) (4)
Chaque <1 est supposé résulter d’un processus binomial de probabilité;1, donné par l’équation
précédente.
Selon Burton et coll (2002) cité par Chaix et Chauvin (2006), d’autres modèles multi-niveaux peuvent également être développés pour les variables dépendantes binaires, à modalités multiples12, ou suivant une loi de Poisson. Pour ces variables discrètes, il existe une relation entre la moyenne et la variance de la distribution qui conduit, en termes de modélisation multi-niveau, à une relation entre les paramètres de la partie fixe du modèle et ceux de la partie aléatoire. Les modèles multi-niveaux linéaires généralisés tiennent compte de la distribution spécifique des résidus au niveau individuel tout en maintenant l’hypothèse de normalité pour les résidus (Durand, 2006).
Lorsque les données présentent une structure hiérarchique (ce qui n’est pas le cas dans cette étude), on peut suspecter des problèmes de corrélation des résidus au sein des groupes.
Ne pas en tenir compte peut entraîner une estimation incorrecte des paramètres et de leurs écart-types, notamment pour les variables contextuelles ; et pour le résoudre, l’utilisation des
12 Nous pouvons trouver une explication approfondie dans le livre d’économétrie de Régis Bourbonnais (2009).
équations simultanées est de mise [(Train, 2003 ; Chitagunta et al., 2002, Layton, 2000) cité par (Durand, 2006)].
Les modèles à coefficients aléatoires (modèle multi-niveaux), sont largement utilisés en démographie, en sociologie et en sciences de l’éducation ou en épidémiologie (modèle mixte généralisé), mais, en dehors des études sur données de panels, ils sont plus rarement utilisés en économie hormis les recherches récentes en marketing ou sur l’environnement où il importe de prendre en compte l’hétérogénéité des goûts et des comportements individuels (Chaix et Chauvin, 2006). La littérature montre que rares sont les travaux en économie dans le domaine de l’éducation qui ont eu recours à ce type de modèle. La raison principale tient essentiellement aux hypothèses du modèle qui stipule l’indépendance entre les différents niveaux hiérarchiques, une situation acceptable en sciences de l’éducation mais rarement rencontrée en économie.
Les méthodes d’analyse multi-niveaux ont été développées, en particulier, par Goldstein (Londres) et Hox (Amsterdam) (Chaix et Chauvin, 2006), dans les sciences de l’éducation et appliquées plus généralement par la suite, notamment en démographie et dans le domaine sanitaire. Elles sont en particulier utilisées pour rechercher des corrélations entre, d’une part, des indicateurs individuels et, d’autre part, des variables socio-économiques prises en compte simultanément à plusieurs niveaux : individu, région, etc.
II.3. Présentation des variables
Les variables retenues dans ce modèle concernent les caractéristiques qui sont liées à l’élève lui-même et les caractéristiques liées à sa famille13. Pour comparer les effets de différentes variables, nous avons été contraints de retenir une variable explicative identique pour les deux
|
niveaux « l’abandon scolaire » représentée par 0∗.
II.3.1. Les variables liées aux caractéristiques individuelles
Plusieurs élèves abandonnent précocement l’école par le fait d’eux-mêmes. Les variables relatives à l’élève que nous avons retenues sont les suivantes :
homme ou femme. Dans plusieurs pays africains, comme celle de Coulidiati-Kiélem
13 La plupart de variables sont inspirées de l’étude de Boutin (2010).
(2009), montrent que la discrimination fille-garçon est une tradition incontestable dans l’inscription et la fréquentation scolaire.
2010 ; Sabates et al., 2010).
II.3.2. Les variables liées à la famille
Les déterminants familiaux qui ont été considérés sont de nature démographique, socio- économique ainsi que le niveau d’étude du chef de ménage. La considération familiale nous a permis de retenir les variables suivantes :
l’éducation des enfants. Cette variable est mesurée par la part allouée à l’éducation par un ménage dans les dépenses totales de l’année.
Aujourd’hui, le programme scolaire national prévoit que : de la première année primaire à la sixième année secondaire, la langue française véhicule l’enseignement et discipline ou branche enseignée.
Tableau 7 : Signes attendus des variables
Variables |
Nature de variables |
Signe attendu |
Abandon scolaire |
Variable dépendante et binaire |
|
Sexe |
Qualitative |
Positif |
Age |
Quantitative |
Positif |
Echec scolaire |
Qualitative |
Positif |
Age de début de l’école |
Qualitative |
Positif |
Taille du ménage |
Quantitative |
Positif |
Milieu de résidence |
Qualitative |
Difficile à prédire |
Niveau de dépenses en éducation |
Quantitative |
Difficile à prédire |
Situation économique du ménage |
Qualitative |
Difficile à prédire |
Education des parents |
Qualitative |
Négatif |
Profession des parents |
Qualitative |
Difficile à prédire |
Langue parlée en famille |
Qualitative |
Difficile à prédire |