23 octobre 2015

Angus Deaton et "randomista"

Les contributions d'Angus Deaton ont déjà été largement résumées, je vais donc simplement compléter notre précédent post d’un éclairage sur la position d’Angus Deaton sur les méthodes d'évaluation des politiques de développement qui pourra être utile aux non-initiés. 

 

Learning about development ?

Quelle est la meilleure méthode d’évaluation des projets de développements ? C’est bien là toute la question qui fait débat.  L’aide internationale permet-elle de réduire la pauvreté ? Quelle est la meilleure politique pour reculer l’âge de la première grossesse ? L’électrification des zones rurales permet-elle une amélioration du bien-être des pauvres ?  Le succès des transferts monétaires conditionnels au Mexique (le fameux Progresa, aujourd’hui Opportunidades) est-il généralisable ? 
La liste est longue. Les projets de développement se sont multipliés, sous l’impulsion des institutions internationales et des fameux objectifs du millénaire dont l’ambition est d’éradiquer la pauvreté dans le monde, à travers toutes les dimensions qu’elle revêt.  Les échecs aussi, se sont multipliés. L’efficacité de l’aide humanitaire est loin de faire consensus, encore aujourd’hui, (voir le récent billet de voxeu.org). Les politiques de réduction de fécondité montrent des résultats très contrastés. Et même un programme qui semble mettre tout le monde d’accord, y compris les différents partis politiques au pouvoir, le programme PROGRESA au Mexique, donnent des résultats beaucoup plus mitigés dans les pays où le projet a été étendu. 

L’enjeu est de taille. Les moyens humains et financiers sont considérables. Comment optimiser les programmes de développement ? Selon Angus Deaton, une seule réponse : en cherchant à comprendre, non pas quels sont les programmes qui fonctionnent mais pourquoi ils fonctionnent.  Si vous retenez cela, vous avez presque tout saisi…J’ai dit presque.

On rentre un peu dans le détail?

Le début des années 2000 marque un tournant dans la discipline. Banerjee, Duflo, Kremer parmi d’autres sont partis du constat que les grands projets de développement dont l’ambition était d’éradiquer la pauvreté étaient totalement décourageants  au regard de l’ampleur de la pauvreté dans le monde et des résultats  quasi-imperceptibles. A l’inverse, des initiatives locales à petite échelle donnent la satisfaction aux monteurs des projets, de montrer des résultats observables et mesurables.  Une manière de repenser la pauvreté. C’est le message essentiel de Banerjee et Duflo que tout le monde connait.  Un message optimiste qui était le bienvenu  à vrai dire. Retenons simplement que l’échelle d’action et donc d’évaluation est centrale dans le positionnement de ces pionniers de la randomisation. 

Randomisation, quasi-randomisation et variables instrumentales, doubles-différences…Tout un ensemble de techniques avec un unique objectif : l’inférence causale ou comment détecter un lien de causalité entre un programme de développement et les résultats observés.  Rien de nouveau, on est dans la veine du modèle causal de Rubin. Inspiré par des expériences aléatoires effectuées en médecine, on définit un groupe traitement (assujetti à une pol de développement) et un groupe témoin (non-assujetti).  Exemple : une politique d’amélioration des taux de scolarisation, via des transferts monétaires.  Dans l’idéal, les deux groupes doivent être parfaitement identiques afin de contrôler l’ensemble des facteurs pouvant interagir à la fois sur les taux de scolarisation, les revenus, le coût d’opportunité d’une année d’école… Une solution miracle : la sélection aléatoire qui garantit que la probabilité de recevoir ou non une incitation financière soit identique et qui prémunit le chercheur du biais de sélection dans la constitution des groupes.

« Creating a culture in which rigorous randomized evaluations are promoted, encouraged and financed has the potential to revolutionize social policy during the 21th century, just as randomized trials revolutionized medecine during the 20th ». E. Duflo, 2004.  
Une solution miracle ? En tout cas, une solution qui se dédouane de toute analyse théorique et d’une analyse microéconométrique complexe.

Avant de rentrer dans la phase critique, rappelons que l’expérimentation purement aléatoire n’est pas toujours applicable, notamment parce qu’elle implique une très bonne anticipation dans le design du projet de développement, des moyens humains considérables et surtout parce qu’elle pose de nombreuses questions éthiques qui remettent en question la faisabilité politique de la sélection aléatoire. Du coup, d’autres techniques d’inférence causale ont été de plus en plus utilisées dans le cadre des évaluations de projet de développement, dont l’usage des variables instrumentales. 

Qu’en dit Deaton ?

« Under ideal circumstances, randomized evaluations are useful for obtaining a convincing estimate of the average effect of a program- but should be guided by theory. »
 
Ok, donc premièrement Deaton reconnait une certaine rigueur scientifique à la démarche et un pouvoir démonstratif quant à l’efficacité d’un programme de développement.  Fondamentalement, il reproche une absence d’éclairage théorique qui nous empêche de comprendre pourquoi le programme fonctionne (ou pas). Il reproche également une surinterprétation des résultats donnant lieu à des extrapolations abusives.

Erreur N°1: l’extrapolation de résultats (validité externe)
La randomisation (comme les autres méthodes d’éval expérimentale) permettent d’estimer un effet moyen du projet de développement sur un résultat observe, c’est le fameux LATE « Local average treatment effect ».  Attention, en aucun cas Deaton ne critique le caractère local de l’estimation qui peut se défendre (#repenserlapauvreté). Il condamne seulement l’utilisation de ces résultats estimés pour généraliser un projet de développement. On est clairement dans une remise en question de la validité externe de la méthode d’évaluation.  Pourquoi ne peut-on pas généraliser les résultats ? Tout simplement parce que l’analyse néglige totalement les effets du traitement en équilibre général. Le programme PROGRESA a été étendu dans plus de 30 pays fort des résultats d’évaluation au Mexique. L’objectif : améliorer les taux de scolarisation et l’accès au soin des enfants grâce à des transferts conditionnels.  Les coûts d’opportunité (et surtout leurs déterminants) d’une année d’école sont très différents d’un pays à l’autre. Les politiques sociales initiales  et surtout les infrastructures (notamment l’accès aux hôpitaux) sont totalement différentes et ne justifiaient pas une application identique du programme.

Erreur N°2 : le traitement de l’hétérogénéité  et la validité interne
A travers la randomisation ou quasi-randomisation, on estime l’effet moyen d’un traitement. Deux problèmes se posent :
- On ne traite en aucun cas l’hétérogénéité de l’échantillon malgré tous les efforts fournis pour composer des groupes traitement/témoin identiques.  L’usage d’un instrument pose encore plus de difficultés ici. On choisit un instrument corrélé au projet de développement évalué mais non corrélé avec l’erreur, en supposant l’absence d’hétérogénéité.  L’effet de l’instrument est par définition un effet moyen et ne permettra en cas de traiter l’hétérogénéité de l’échantillon.  Deaton est très clair sur ce point: « heterogeneity is not a technical problem calling for an econometric solution but a reflection of the fact that we have not started on own proper business, which is trying to understand what is going on. » Il déplore donc l’absence d’analyse théorique qui permettrait un meilleur traitement économétrique de l’hétérogénéité des individus. C’est sa contribution majeure en microéconométrie du développement.

- On détermine une moyenne mais on n’identifie pas les autres caractéristiques de la distribution. Or, une information fondamentale qui devrait ressortir des évaluations de politique de développement c’est quelle est la fraction de la population qui bénéficierait d’un effet traitement positif ? Cette analyse permettrait d’éviter certains effets désastreux, dont les exemples sont nombreux. Pensez aux politiques d’infrastructures menées qui ont très souvent généré des inégalités de traitement considérables.  Deaton défend donc l’analyse marginaliste en économie du développement et déplore son absence (ou sa marginalisation) dans la littérature aujourd’hui.

Deaton souligne les nombreuses confusions dans la littérature quant à la signification de l’exogeneité et son traitement. 

Erreur N°3 : Le traitement de l’endogéneité  ou l’illusion des variables instrumentales
Pour sa démonstration, Deaton utilise un modèle macroéconomique de consommation ultra light et démontre qu’avec une analyse théorique, la forme réduite estimée est totalement spécifiée et donc l’usage d’une variable instrumentale est tout à fait approprié. Autrement dit, le choix de la variable instrumentale doit provenir d’un raisonnement théorique préalable pour garantir le traitement de l’endogéneité. Or, dans les évaluations quasi-expérimentales, le choix des variables instrumentales n’est pas guidé par un modèle spécifié mais uniquement par la recherche d’un instrument orthogonal, impliquant qu’il soit exogène ET non corrélé au terme d’erreur de l’équation principale.  L’exogénéité en économie signifie que la variable est causée par des facteurs externes au système étudié. Mais la cohérence d’un instrument implique cette restriction supplémentaire de ne pas être corrélé au terme d’erreur.  Et c’est bien là toute la difficulté.  Aucun test économétrique n’est en fait capable de nous garantir que cette condition d’exclusion est respectée : les tests de suridentification communément utilisés ne peuvent pas valider notre instrument et l’identification valide du système estimé.  

Deaton regrette finalement que ce tournant de l’économie du développement s’exonère totalement de la théorie pour définir une stratégie d’évaluation. L’absence de modèle implique plusieurs limites : 
  • le choix de l’instrument est erroné et ne garantit pas que les estimations soient non biaisées dans le cadre d’une quasi-randomisation. Exogénéité non traitée
  • le traitement de l’hétérogénéité des individus est défaillant.
  • on ne comprend pas ce qui détermine les résultats du traitement.
“Randomized controlled trials (RCT) do not occupy any special place in some hierarchy of evidence”.
 
“As with IV methods, RCT-based evaluation of projects, without guidance from an understanding of underlying mechanisms, is unlikely to lead to scientific progress in the understanding of economic development.”

Réactions? 
Evidemment ces critiques ont très bien été intégrées par les grands spécialistes de la randomisation. Il est aujourd’hui rare que Duflo et ses co-auteurs se passent d’un éclairage théorique pour comprendre les résultats estimés. Dans le dernier AER de Duflo (co-écrit avec Dupas et Kremer), les auteurs évaluent deux programmes de développement au Kenya : des aides à la scolarisation pour lutter contre la déscolarisation des filles et les grossesses précoces ; et un programme de prévention du VIH. L’expérimentation estime les effets de chaque politique de façon isolée puis combinée. Les résultats ne sont pas du tout linéaires. Une politique d’aide à la scolarisation permet de réduire considérablement les grossesses des jeunes filles, plus que lorsque cette politique s’accompagne d’un programme de prévention du VIH.  A l’inverse, une politique de prévention du VIH seule n’a aucun effet significatif alors que combinée à des aides scolaires, les taux de contamination baissent significativement.  Partant de ces incohérences, les auteurs expliquent leurs résultats à travers un éclairage théorique : un modèle à un seul facteur dans lequel le rapport non protégé détermine à la fois la grossesse et la contamination au VIH est inapproprié pour comprendre ses résultats.  Par contre un modèle théorique plus riche où le choix individuel des jeunes filles ne porte pas uniquement sur le rapport protégé, mais aussi sur le choix d’une relation engagée ou occasionnelle va permettre d’éclairer ses résultats non linéaires.  De plus le fait d’intégrer dans l’analyse l’incompatibilité entre grossesse et scolarité permet de mieux considérer le cout d’opportunité d’une grossesse et de mieux comprendre le choix des jeunes filles de s’engager ou non dans une relation. Enfin parce que les filles perçoivent un risque plus grand d’être contaminées dans le cadre d’une relation occasionnelle, elles s’engageront plus facilement dans une relation maritale et auront donc plus de rapports non protégés, ce qui augmentera le risque de grossesse.  Une analyse théorique approfondie permet finalement un bien meilleur design de la politique, ce que ne permettait pas une randomisation isolée.

Conclusion : la dérive athéorique de l’économie du développement n’est pas sans conséquence. Les randomisations et techniques dérivées ne sont pas des « gold standards » de l’analyse empirique. Les effets estimés sont locaux, autrement dit on peut douter de la validité externe de ces évaluations et de fait de la généralisation des programmes. Ce sont des effets moyens qui ne permettent pas de contrôler l’hétérogénéité des individus, et surtout qui ne donnent aucune information sur la distribution des effets du traitement.  Ces limites ne sont pas sans conséquence sur la conception des politiques de développement et l’optimisation des moyens alloués.  Néanmoins, ces évaluations ont le mérite de démontrer qu’une politique de développement implique des effets locaux, moyens significatifs, justifiant l’approfondissement d’un programme en travaillant précisément sur les mécanismes de transmission. C’est ainsi que des politiques ont été abandonnées (planning familiaux en Indonésie), d’autres ont été poursuivis malgré des alternances politiques (Progresa)  et surtout d’autres programmes ont été améliorés par des politiques d’accompagnement (combinaison de deux programmes).

Elisa Dienesch

0 commentaires:

Enregistrer un commentaire