Arrow Table de matières
3036305

Chapitre II. APPROCHE METHODOLOGIQUE

La méthodologie de ce travail  porte deux étapes. D'abord, une approche  non paramétrique pour mesurer des inégalités d’accès aux soins de santé en s’intéressant  aux visites prénatales  (VP) et  accouchement assisté (AS) selon les  11 anciennes provinces de la RDC et selon les caractéristiques socioéconomiques. Enfin, une approche  paramétrique pour formuler le modèle économétrique afin d’estimer les relations entre la variable latente et  les caractéristiques socioéconomiques. 

Ce chapitre présente quatre sections. La présentation des données et variables (1),   la spécification du modèle (2), les indices de mesure des inégalités sociale de santé (2) et enfin le choix de modèle de régression (4). 

  1. 1. Présentation des données et des variables
  2. 1. 1. Les données

Les données utilisées dans le cadre de cette recherche proviennent de l’EDS-RDC (2007 et 2013-2014) et MICS_RDC  (2001)  menée par l’INS sur toute l’étendue de la RDC. 

L’intérêt  de ces bases des données pour cette étude est  qu’elles produisent des indicateurs fiables et à jour pour l’élaboration, le suivi et l’évaluation de la mise en œuvre des programmes et politiques sectoriels du pays d’une part ;  mais aussi  par  le fait qu’elles  se réalisent dans une séquence de temps différente, avec comme intervalle de temps  de 4 ans en  moyenne et elles sont portées sur la même population, c’est-à-dire les femmes  congolaises qui ont données naissance dans les cinq dernières années suivant l’enquête et s’orientent au même domaine de la santé d’autre part.  Elles permettront  alors de savoir la distribution des services de la santé de la reproduction entre les années 2001 jusqu’en 2014.  

Les enquêtes (EDS et MICS) intègrent  dans leur questionnaire, les aspects de la santé  propres aux ménages, aux hommes et à la femme selon les caractéristiques socioéconomiques et démographiques.

Pour le cas de ce travail, la partie relative aux aspects de la femme a été utilisée car elle fournit des informations sur la santé de reproduction  ainsi que sur l’accès aux soins de santé prénataux (l’objet de l’étude). 

L’EDS-RDC menée en 2007  et celle de 2013-2014, ont été basées sur un sondage aléatoire  stratifié  similaire à celui de MICS, et tiré à deux degrés dans la  ville de Kinshasa  et à trois degrés dans  les milieux ruraux et urbains des autres provinces. Pour ce faire, le territoire  national a été découpé en onze domaines d’étude correspondant aux onze provinces que comptait la RDC et, dans chaque domaine d’étude, hormis la ville province de Kinshasa, trois strates ont été créés : la strate des villes statutaires, la strate des cités et la strate du milieu rural. Le tirage de l’échantillon a été fait strate par strate. Il est évident de constater que les deux bases des données présentent  d’une manière générale des similarités en ce qui concerne leur conception, l’étendue d’enquête, la base de sondage, … malgré quelques différences liées surtout à la labélisation ou codification des variables. 

Pour faciliter l’intégration de ces deux bases des données, il fallait homogénéiser en modifiant  certaines labélisations en référence de la base EDS-2013-2014 étant récente. 

Au total,  la combinaison de ces deux bases des données présente 40117 femmes qui ont répondu au questionnaire. Après traitement un total de 18635 observations est retenu. Le tableau ci-dessous présente le nombre d’observations contenus dans chaque base de données brute ainsi que le nombre retenu après épuration réalisé en stata. 

Tableau 1 : Taille de la population 

Bases 

Base brute 

Base purifiée 

MICS_2001 

12409  

1934 

EDS_2007 

8992 

5438 

EDS_2014-2013 

18716 

11263 

Total 

40117 

18635 

 Source : Les analyses des bases données sous stata. 

  1. 1. 2. Les variables
  2. Variables dépendantes

Les variables dépendantes de cette étude sont « les visites prénatales » et « l’accouchement assisté ». Elle reste encore une problématique en ce qui concerne leur conception. Deux types de mesures d’accès et d’utilisation de soins de santé  prénataux sont généralement utilisés. En ce qui concerne les visites prénatales, non seulement la femme doit totaliser quatre visites au minimum, mais aussi les visites doivent être livrées par un professionnel de santé. Et pour l’assistance à l’accouchement, la femme doit accoucher dans une structure médicale légitime, mais également à l’aide d’un personnel  qualifié tel que  la sage-femme, médecin ou l’infirmier (Hazarika 2010 ;  Mohammad et Al. 2014). 

Dans le cadre de cette étude,  la variable « visites prénatales » sera  capturée en considérant trois modalités des bases des données et lesquelles visites effectuées  soit auprès d’un médecin, d’un infirmier ou d’une sage-femme. Comme modalités on a «  0  visite » lors que la femme ne répond pas à un des critères, « 1 Insuffisante » lors que la femme répond à un  critère et mais a réalisé moins de trois visites et «  2 Suffisante » lors que la femme répond à tous les critères et a totalisé 3 ou plus de  visites. En ce qui concerne la variable « accouchement assisté », elle sera  capturée en considérant deux modalités à savoir : « 1 ou Oui » si la femme  a donné naissance dans une structure médicales par l’entremise  soit d’un médecin, un infirmier ou sagefemme et « 0 ou Non » dans le cas contraire.  

  1. Variables indépendantes

Les variables indépendantes sont constituées par les caractéristiques socioéconomiques et démographiques choisies non seulement  à l’inspiration du modèle d’Andersen mais aussi et  également en fonction d’informations disponibles dans toutes les bases des données. Ainsi  comme variables indépendantes on a : Age de la femme, la tranche d’âge des femmes, milieu de résidence, province de résidence, quantile de bien être socioéconomique, statut matrimonial, sexe du chef de ménage, taille de ménage, … 

  1. 2. Spécification du modèle

L’estimation économétrique des inégalités d’accès et d’utilisation de soins de santé prénataux  s’appuie sur le modèle théorique d’Andersen (1995),  qui est une approche par les besoins. Outre des caractéristiques individuelles, ce modèle inclut des caractéristiques contextuelles (quartier, niveau de vie, statut socioéconomique, expérience en santé, …) pour expliquer l’utilisation des services de santé. Adapté pour le cas de la RDC, le modèle peut être spécifié pour la  variable dépendante  « Visites prénatales » comme suit : 

Visites prénatales=β0+β1Milieu+β2Age+β3Tranche d’âge+β4Educationr+β5Quantiles de bienêtre+β6Nombre de naissance +β7Statutmatrimonial+ β8taille du manage+ β9sexe chef du menage+εi 

Et pour la variable dépendante « accouchement assisté » par le modèle suivant : 

Accouchement assisté=β01Milieu+β2Age+β3Tranche d’âge+β4Educationr+β5Quantiles de bien-être+β6Nombre de naissance +β7Statutmatrimonial+ β8taille du manage+ β9sexe chef du menage+εi 

  • La variable expliquée « accès aux soins » 

Le travail considère deux modèles. Le premier  avec la variable « visites prénatales » et le second avec la variable « accouchement assisté ». La variable « visites prénatales » (Yi)   est multinomial avec trois modalité. Et La variable « assistance à l’accouchement » (Yi)  est binaire ou dichotomique. 

  • Variables explicatives
    • Age de la mère : la plupart des études analysent l’effet de l’âge sur l’accès aux soins prénataux. Son influence sur l’accès et l’utilisation de soins de santé prénataux a été notamment mise en évidence dans les travaux de Beninguisse (2003) et  (Hazarika, 2010)

En effet,  pour Hazarika, il a constaté qu’en Inde, la propabilité pour les femmes enceintes de réaliser les visites prénatales récommandées par l’OMS diminue avec l’âge. Ces idées sont  complétées et enrichies par les travaux de G. Beninguisse, qui montre que les femmes de la tranche d’âge de moins de 20 ans et celles situées dans la tranche de plus de 34 ans, présente une propension faible à recours aux soins de santé obstétricaux. Cette idée est associée, aux analyses de l’EDS_RDC, qui estiment que l’influence d’âge est différente selon la situation  considérée. Avant 18 ans, les femmes ont en général des grossesses hors mariage, condamnées par la société et après 34 ans, se pose le problème de rivalité entre coépouse mais aussi la honte  pour une femme de continuer à mettre au monde. 

  • Niveau d’éducation de la mère » : le niveau d’instruction de la femme enceinte et de son mari est souvent considéré  comme ayant un lien positif entre les recours aux soins prénataux de la femme. Les études de  (Raghupathy, 1996)  et celle de (Becker, Peters, Gray,

& Black, 1993) démontrent une relation positive d’accès aux soins de santé prénataux et  l’éducation de deux parents. D’autres travaux comme ceux de  (Mccaw-Binns, La Grenade, & Ashley, 1995) et  ceux de (Wong, Popkin, Guilkey, & Akin, 1987) indiquent que le niveau d’instruction de la femme à lui-même fait ressortir un effet positif  sur les recours aux soins de santé prénataux. Pour ces auteurs, plus le niveau d’instruction est élevé chez la femme,  plus elles recourent aux soins prénataux, car cela améliore ses connaissances sur les soins de santé modernes. L'instruction est l'une des variables considérées importantes dans la détermination des comportements des femmes. Elle implique des changements dans les comportements, les attitudes et la manière de penser, se traduisant par une meilleure utilisation des services de santé.  - Quantile de  bien-être : les travaux de Lavy & Quigley ( 1993) démontrent que  le revenu est le principal déterminant de l’utilisation des services de santé prénataux.  Gnanderman (2011) appuies l’idée en indiquant que les individus vivant dans les ménages à revenus relativement élevés ont une probabilité plus élevée de se faire soigner que ceux des ménages pauvres. La femme adopte un comportement de rationalité économique : toute action, engagée par celle-ci pour préserver sa santé, est dictée par les moyens disponibles. De plus, l'amélioration du niveau de vie se traduit par un recours plus intense à la prise en charge médicale de la grossesse et de l'accouchement. De même, la détérioration du niveau de vie se traduit par un abandon du système sanitaire moderne au profit du système traditionnel. (Berthélemy & Seban, 2009) dans une étude portant  sur six région du monde à savoir l’Afrique, l’Asie du Sud, l’Asie Pacifique, l’Afrique du Nord et le Moyen Orient, l’Europe et l’Asie Centrale  et l’Amérique Latine, trouvent que l’accès à un accouchement assisté et aux méthodes contraceptives pour les femmes est plus de 3 fois et plus de 7 fois plus fréquent dans le quintile le plus riche que dans le quintile le plus pauvre, ce qui révèle une concentration sensiblement plus forte.  

  • Statut matrimonial : dans cette étude, le statut matrimonial se réfère à la situation de la femme  pendant l’enquête vis-à-vis du mariage. On considère trois modalités à savoir : « oui » c’est-à-dire que la femme est mariée et reste avec son mari, « non divorcée, séparée » et « jamais mariée ». La situation matrimoniale de la femme enceinte peut avoir un impact sur le recours et l’utilisation des soins de santé prénataux. Les femmes célibataires, « sans mari » disposent rarement les ressources nécessaires pour accéder  aux  soins modernes, car elles ont tendance à avoir un suivi prénatal moins adéquat  que les autres femmes à cause du caractère non désiré de la grossesse (Eloundou & Waïbaï, 2017). 
  • Nombre de naissances : le recours aux soins de santé prénataux est aussi bien influencé par les nombres de naissances qu’a une femme (parité). En effet, les femmes ayant peu d'expériences en matière de procréation peuvent être en général plus disposées à rechercher une assistance médicale. L’EDS_2014 montre, 12, 8% de femmes ayant plus de 6 enfants n’ont pas réalisé des visites prénatales, contre 10% pour celles ayant entre 4-5, 9, 4% pour celles ayant entre 2-3 et enfin 6, 2% pour les femmes qui sont à la première expérience. (Hazarika, 2010), trouve aussi qu’en Inde que la probabilité de réaliser les visites prénatales est moins inférieure qu’aux femmes ayant une parité (nombre de naissances) élevée.
  • Taille du ménage : (Mburano & Tchamgoue-Nguemaleu, 2011), présentent une théorie selon laquelle l’appartenance dans une famille ayant une taille élevée procurent à la femme la chance de bénéficier un soutien morale  important  mais aussi d’être mieux informer  dans le domaine  de la santé.  Ce qui lui permettra de mieux utiliser les services modernes de soins de santé prénataux pendant la grossesse et à l’accouchement. Cependant, les résultats de leur enquête ont trouvé le contraire, en montrant que l’appartenance à un ménage de très grande taille  est un facteur  limitant  l’accès et l’utilisation de soins de santé prénataux. Cette étude est soutenue par celle de (Eloundou & Waïbaï, 2017)  qui montre que l’accès aux soins  de santé diminue avec l'augmentation de la taille du ménage. Car la répartition équitable  du revenu  du ménage entre les membres désavantagent le ménage à forte taille.        
  • Milieu de résidence de la mère : Le fait de résider dans le milieu rural agit négativement sur le recours aux soins. Ce constat est lié au manque de médecins et d’équipements médicaux  (les matériels de radiologie, inexistence de laboratoire d’analyse…) (Aouise & Ibnou Malik). Ce qui maintient même les conclusions de Danièle Duchesne (1998), qui a relevé que la prévalence du recours à une action quelconque est très élevée parmi les malades du milieu urbain comparé à ceux du milieu rural. L’étude de ( Bumba Moaso Djongi,

2009) utilisant une régression logistique pour établir une relation entre l’utilisation des services de santé de  l’HGR Masa/Bas-Congo, (variable dépendante) et quelques variables indépendantes comme : la région, la qualité de soins, l’accueil, le niveau de vie, le niveau d’éducation de chef de ménage, les dépenses en santé, catégories socioéconomiques, …. sur base d’une enquête réalisée auprès de 400 ménages a abouti aux résultats selon lesquels  la région a une influence positive et significative sur l’utilisation de soins de santé. Une autre étude  réalisée au Haut Atlas de Marrakech montre la même réalité et a constaté  une faible couverture en consultation prénatale, soit 52% pour les femmes enceintes de 7 mois et plus, soit inférieur au niveau de l’échelle nationale (67, 8%), supérieur à celui enregistré dans le milieu rural (47,9). (Cherkaoui & Al., 2010).  

Le tableau ci-dessous reprend en synthèse les variables utilisées dans les modèles, leurs modalités ainsi que les signes espérés de chacune des variables.

      

Tableau 2 : synthèses des variables retenues et les signes espérés

Noms de variables 

Sources  

Types 

Description     de             la

variable 

Signe 

EDS 

MICS 

Visites prénatales 

m2a-m2c

mn2a-mn2c

Qualitative 

-

-

-

-

Nombre           de             visites

prénatales

v027

mn2

Quantitative 

Accouchement assisté 

m3a-m3c

mn3a-mn3c

Qualitative 

-

-

-

-

Milieu de résidence 

v025

Doiy

Qualitative 

1

Urbain 

+/-

2

Rural 

Age de la femme 

v012

wi3b

Quantitative 

-

-

-

Statut matrimoniale 

v502

cu1

Qualitative 

1

Oui

+

2

Non     divorcée,

séparée

3

Non     jamais

mariée

Tranche d’âge 

v013

Wage

Qualitative 

1

15-19

2

20-24

3

25-29

4

30-34

5

35-39

6

40-44

7

45-49

Niveau d’éducation 

v106

Melevel

Qualitative 

1

Sans éducation 

+

2

Primaire 

3

Secondaire 

4

Universitaire 

Sexe chef du ménage 

v151

hl33

Qualitative 

1

Masculin 

+/-

2

Féminin 

Quantiles de bien-être 

v190

wlthind5

Qualitative 

1

Très pauvre 

+/-

2

Pauvre 

3

Moyen 

4

Riche

5

Très riche 

Nombre de naissance 

v201

cm9

Quantitative 

-

Taille de ménage 

v136

Himem

Quantitative 

-

Source : Construit à partir de données 

Les trois premières variables ont permis de générer les variables dépendantes « visites prénatales » et « accouchement assistés » par leur combinaison. 

  1. 3. Indices de mesure des inégalités sociales de santé

L’objectif de cette section est  d’arriver  à trouver les outils capables de mesurer le  niveau des inégalités d’accès et d’utilisation de soins de santé prénataux  selon les caractéristiques socioéconomiques et démographiques  de la femme. Le choix des outils tels que les indices de Theil, de GINI, indices relatif et absolu des inégalités ont été choisi étant donné plusieurs études empiriques ont déjà utilisées ces indices et aboutissent ainsi aux objectifs de mesure des inégalités. Ainsi la section présente l’indice de Theil, indices relatif et absolu des inégalités et enfin l’indice de concentration de GINI. 

  1. 3. 1. Indice de Theil

En présence de plusieurs milieux, il est préférable d’utiliser l’indice de Theil (Mohammad, Nazmul, & Arijit, 2014). En effet, l’indice de Theil est particulièrement retenu par la présente étude parce qu’elle est une mesure décomposable par groupe. Ainsi, il sera utilisé  pour mesurer les inégalités  à travers les provinces de résidence. 

Bien que moins couramment utilisé que l’indice de GINI, l’indice de Theil présente néanmoins des atouts pratiques incontestables. Son principal intérêt est de pouvoir se décomposer à l’infini en partitionnant la population puis en redécomposant chacun des groupes en différents sousgroupes, cela afin d’analyser l’évolution des inégalités dans et entre différentes souspopulations. Cependant son expression mathématique, qui utilise  la forme logarithmique, limite son usage à des valeurs non nulles.   

 L’indice de Theil est dans sa forme définie par : 

                                                                        (1)

Avec N comme la taille de l’échantillon, Y𝑖 les nombre des femmes ayant accédé aux soins dans le groupe i et  la moyenne d’accès aux soins pour l’ensemble de la population. 

L’indicateur T est séparable en la somme des indicateurs intragroupes pondérés (Tw) et la somme des indicateurs intergroupes pondérés (Tb). La contribution des inégalités intergroupes à l’inégalité totale est donnée par :

                                                                                      (2)

Où 𝑛𝑗 est le nombre de la population du groupe j, n la population total  et  𝜇𝑗 la moyenne d’accès aux soins pour le groupe j. 

Les  inégalités intragroupes à l’inégalité totale est formulée de la manière suivante :

                                                                    (3)

L’indicateur de Theil est, au même titre que l’indicateur d’entropie généralisée, seulement séparable en deux éléments. L’équation fondamentale de la décomposition de l’indice de Theil

est donc : T = 2+3                                                                                                            (4) 

 Si T prend la valeur  0, cela indique qu’il y a une distribution égale pour le Log naturel, c’està-dire entre les provinces les femmes accèdent dans la même proportion aux soins de santé prénataux. Dans le cas contraire avec une valeur supérieure, il y a une distribution inégale. 

  1. 3. 2. Indices relatif et absolu d’inégalités de santé

Les deux indices présentent des avantages suivants : 

  • Synthétique, d’interprétation facile pour les décideurs ;
  • Reflète les expériences de toute la population, non seulement de ceux dans les catégories extrêmes de l’échelle socioéconomique ;
  • Comparabilité de la mesure entre populations, temporellement et géographiquement.

Ces indices sont calculés à partir d’une analyse de régression linéaire des taux d’accès ou d’utilisation de chaque groupe socioéconomique. 

L’IIR est définie par le ratio entre l’utilisation estimée de soins entre  les statuts socioéconomiques. (Ex le quantile de moyen et niveau d’éducation). Ainsi donc, la population dans chaque catégorie socioéconomique est assigné par range fractionnel (Ri), basé sur le rang central dans la distribution cumulative pour toute la population

Le RII prend la valeur de 0 si l’utilisation de soins maternels  est égale pour tous les niveaux d’éducation. La valeur négative (positive)  de la RII indique les inégalités socioéconomiques  dans le haut (bas) niveau d’éducation. L’IIR est défini sur la pente de la ligne de régression de l’indicateur de santé  de groupe et son rang relatif, R.

Le SII est définie par la différence absolue de  taux d’utilisation  des soins maternels entre le haut statut socioéconomique  et le bas. Le SII peut être dérivé dans le RII par 

SII = 2 X M X (RII-1)/RII+1                                                                                          (5)

Où  M est la moyenne d’accès aux soins de santé. La valeur 0 de SII explique l’égalité et la valeur supérieure à 0 indique la présence des inégalités. 

Le SII est interprété comme différence absolue entre le groupe plus avantagé et le moins avantagé; il est significatif si l’intervalle de confiance  de 95% n'inclut pas zéro. Si le SII est négatif, alors les résultats de santé seraient plus grands dans le groupe moins avantagé. 

  1. 3. 3. Indice de concentration

L'indice de concentration de Gini est un coefficient qui évalue la dispersion d'une série statistique. Il se définit en général à partir de la courbe de fréquence cumulative d'une variable aléatoire positive X (par exemple, une mesure de l’état de santé) définie sur une population (cette courbe est dite de Lorenz).  Cet indice présente l’avantage  de fournir une vision un peu claire des inégalités dans la population, en informant par  le signe de son résultat où sont plus concentrés les services de santé 

Figure 4 : Illustration courbe de Lorenz 

Dans le cas particulier de la santé, la courbe de concentration de maladie trace la proportion de vie cumulative de la population  rangée par le statut socio-économique (SES). On  peut aussi ranger les observations selon le statut socioéconomique en commençant par ceux présentant un statut bas vers le plus haut (Kakwani, Wagstaff, & Van Doorslaeff, 1997). 

Ce raisonnement peut s’appliquer aux  inégalités d’accès aux soins de santé, en considérant les observations selon le statut social, mais aussi le nombre d’accès par chaque groupe social comme indicateur à se partager. Si la courbe se trouve au-dessus de diagonal, les individus de statut social élevé accèdent moins aux soins par rapport à d’autres. Si elle correspond à la  diagonale, il y a égalité parfaite d’accès et d’utilisation de service de santé prénatal. Si elle s’éloigne  de la diagonale vers le bas,  c’est-à-dire  il y a concentration  d’accès et d’utilisation de services de santé prénataux dans le groupe ayant le statut social élevé.  

      

Calcul de l'indice de concentration de santé  

Il existe plusieurs formules de calcul de l’indice de Gini. L’une des plus utilisées, dite « formule de Brown » procède par considérer   n catégories socioéconomiques   et se présente comme suit

C =                                                                              (6)

Où 𝑝𝑖 la part cumulée  de la population,  et 𝑞𝑖  la part cumulée des femmes ayant accédé aux soins. Pour tester  si les valeurs de l’indice sont significativement différents de 0, on calcul les erreurs types pour les indices de concentration. La variance de l’indice de concentration peut être donnée par : 

. Avec       (7)

Avec X𝑖 le nombre de femmes ayant accès aux soins dans la catégorie i,  la moyenne  de niveau d’accès aux soins,  R𝑖 le rang relatif de la catégorie i,   indice de concentration et 𝑞𝑖 =

                                                                                                                   (8)

L’indice de Gini appartient à l’intervalle [−1, 1]  avec – 1 et 1 signifiant une accessibilité inégale, et 0 pour une parfaite égalité.  

  1. 4. Choix du modèle de régression

Les variables dépendantes  de ce travail  étant qualitatives, le choix du modèle doit s’effectuer entre le logit et le profit. Comme le nom l’indique, le logit est basé sur la fonction logistique tandis que le probit porte sur les variables à distribution normale. Il convient de faire un test de normalité  des variables pour afin choisir. 

  1. 4. 1. Test de normalité

Tableau 3 : Résultat test de normalité 

Variable Pr(Skewness) chi2(2)

Accouchement   0.0000             59854.63**

Visites prénatales  0.0000          1186.67**

* p<0.05; ** p<0.01

Source : Résultats générés à partir des données EDS (2007, 2013-2014) et MICS (2001). 

Les résultats confirment que la distribution des variables   ne suit pas une loi normale. Les PValue du Skewness sont  de 0 pour les deux modèles et  inférieurs au seuil de signification fixé (5%). Par conséquent, le modèle Logit  sera utilisé au lieu de probit. 

Les visites prénatales présentent trois modalités  « Aucune visite »,  « Visites insuffisantes » et  

« visites suffisantes ». La variable assistance à l’accouchement quant à elle est subdivisée en deux modalités : « Oui  et « Non». Ainsi que, il a été question de recourir au modèle logit multinomial pour la variable « visites prénatales » et le modèle logit pour la variable « assistance à l’accouchement ».   

  1. 4. 2. La régression logit pour la variable « accouchement assisté » 

La variable dépendante « accouchement assisté » étant qualitative, n’admettant pas d’échelle de mesure naturelle  décrite par les probabilités des différents attributs qu’elle peut prendre (« oui » ou « non »), il  est logique, d’introduire un codage quantitatif permettant de représenter les différents  attributs  comme par exemple  « 1 » si l’attribut «a été assisté » et « 0 » sinon. 

Ainsi, les observations yi sont des réalisations indépendantes de variables aléatoires binaires  Yi, qui, une fois codées, peuvent être considérées comme des variables de Bernoulli ayant  pour espérance pi. 

Il est d’usage de modéliser l’influence des variables explicatives 𝑥𝑖 sur l’espérance de Y𝑖, c'està-dire de considérer un modèle du type :

E(Y𝑖 = 1|𝑥) = 1 × ðœ‹ð‘–(𝑥) + 0 × (1 − 𝜋𝑖(𝑥)) = P(Y𝑖 = 1|𝑥)                                          (9)

Avec  

Une transformation centrale dans l’analyse de régression logistique est la transformation «logit » 𝑔(𝑥), qui permet d’établir une relation entre la probabilité de la variable d’intérêt  et le prédicteur linéaire 𝛼 + 𝛽𝑥 : 

                                          (10)

  • : représentant l’ordonnée à l’origine ; 
  • 𝛽 : représentant la pente de la droite et correspondant au changement de logit 𝑔(𝑥) pour chaque unité de changement dans x : 𝛽 = 𝑔(𝑥 + 1) − 𝑔(𝑥) (11)

La fonction possède des caractéristiques mathématiques expliquant son emploi dans ce type d’analyse : elle varie de 0 à 1 comme la probabilité de survenance d’un événement ; enfin, elle permet le calcul aisé des odd-ratios (ou rapports de cotes en français).  

  1. 4. 3. Régression logistique multinomial de la « visites prénatales »

La variable dépendante « visites prénatales »  est aussi qualitative mais multinomiale avec 0 « Aucune visite prénatale », 1 « Visites insuffisantes » 2 « Visites suffisantes ». On a donc Y = 0, 1, 2 modalités possibles. 

Le modèle logistique multinomial s’écrit :  

Avec Y = 0, 1 …. K-1 (variables nominales à k modalités)

Cela revient en fait à prendre la catégorie Y = 0 comme référence et à faire k-1 régressions logistiques dichotomiques. Comme ∑ P(Y=j) = 1 le modèle peut s’écrire : 

                          (13) 

 avec 𝛼0 = 𝛽0𝑖 = 0 et j= 0, … K-1                                             (14)

Le modèle logistique multinomial est utilisable dans des enquêtes de type cas-témoins.

Soit fj la fraction de sondage de la catégorie Y = j.

On a : ,  avec 𝛼0 = 𝛽0𝑖 = 0.                                               (15)

D’où                                                          (16)

Et bien donc                         (17)

  1. 4. 4. Estimation du modèle

Les modèles de régression logistique seront estimés par la méthode du maximum de vraisemblance, en considérant la vraisemblance de l’échantillon. Lorsque les observations individuelles 𝑌𝑖, i=1,…, n, sont supposées indépendantes, cette vraisemblance s’écrit comme le produit des probabilités :

                                                          (18) Ensuite, on maximise cette vraisemblance par rapport aux paramètres α et βi au moyen d’un algorithme itératif numérique. Eh bien, les estimations du maximum de vraisemblance de  et 𝛽  sont les valeurs de 𝛼̂ et 𝛽̂  qui rendent V maximum. Il y a pas de solution explicites  pour 𝛼̂  et 𝛽̂ que dans le cas d’un seul coefficient 𝛽.  Sinon (quand il y a plusieurs variables X), il  faut procéder par itérations, et les valeurs obtenues sont des approximations numériques.

  1. 4. 4. Tests d’adéquation des modèles

La qualité des modèles sera justifiée par deux  tests pour les cas de logit multinomial à savoir : le R2 ainsi que le Log  Ratio. Et pour le cas de logit binaire,  mis à part ces deux derniers, il aura encore l’analyse de ROC. 

  • Log Ratio (LR), c’est l’équivalent du test de Fisher du modèle linéaire, il essaie d’évaluer si les variables indépendantes apportent une quantité suffisante d’informations pour expliquer la variabilité de la variable dépendante. La valeur la plus importante de Chi2 associé au Log Ratio au seuil déterminé signifiera que le modèle est globalement significatif.   
  • La Courbe ROC, dans une visualisation graphique, on met en rapport le complément à 1 de la spécificité en abscisse et la sensibilité en ordonnée. Ici le pouvoir prédictif réel correspond à la surface séparant la courbe ROC (Received Operating Characteristic) et la diagonale principale. La surface sous cette courbe ROC nous permet d’évaluer la précision du modèle pour discriminer les « modalités » positifs y = 1 des «les modalités » négatifs y = 0.  

On retiendra comme règle, celle du pouce : Si aire ROC = 0,5, il n’y a pas de discrimination

; Si aire 0,7 ≤ ROC < 0,8, la discrimination est acceptable et l’ajustement est adéquat ; Si aire ROC ≥ 0,8, la discrimination est excellente et l’ajustement est excellent. Si aire ROC ≥

0,8, la discrimination est excellente et l’ajustement est excellent.

Partager ce travail sur :