Les contributions d'Angus Deaton ont déjà été largement résumées, je vais donc simplement compléter notre précédent post d’un éclairage sur la position d’Angus Deaton sur les méthodes d'évaluation des politiques de développement qui pourra être utile aux non-initiés.
Learning about development ?
Quelle est la meilleure méthode d’évaluation des projets de
développements ? C’est bien là toute la question qui fait débat. L’aide internationale permet-elle de réduire
la pauvreté ? Quelle est la meilleure politique
pour reculer l’âge de la première grossesse ? L’électrification des zones
rurales permet-elle une amélioration du bien-être des pauvres ? Le succès des transferts monétaires
conditionnels au Mexique (le fameux Progresa, aujourd’hui Opportunidades)
est-il généralisable ?
La liste est longue. Les projets de développement se sont
multipliés, sous l’impulsion des institutions internationales et des fameux
objectifs du millénaire dont l’ambition est d’éradiquer la pauvreté dans
le monde, à travers toutes les dimensions qu’elle revêt. Les échecs aussi, se sont multipliés. L’efficacité
de l’aide humanitaire est loin de faire consensus, encore aujourd’hui, (voir le
récent billet de voxeu.org). Les politiques de réduction de fécondité montrent
des résultats très contrastés. Et même un programme qui semble mettre tout le
monde d’accord, y compris les différents partis politiques au pouvoir, le
programme PROGRESA au Mexique, donnent des résultats beaucoup plus mitigés dans
les pays où le projet a été étendu.
L’enjeu est de taille. Les moyens humains et financiers sont
considérables. Comment optimiser les programmes de développement ? Selon
Angus Deaton, une seule réponse : en cherchant à comprendre, non pas quels
sont les programmes qui fonctionnent mais pourquoi ils fonctionnent. Si vous retenez cela, vous avez presque tout
saisi…J’ai dit presque.
On rentre un peu dans le détail?
Le début des années 2000 marque un tournant dans la
discipline. Banerjee, Duflo, Kremer parmi d’autres sont partis du constat que
les grands projets de développement dont l’ambition était d’éradiquer la
pauvreté étaient totalement décourageants
au regard de l’ampleur de la pauvreté dans le monde et des
résultats quasi-imperceptibles. A l’inverse,
des initiatives locales à petite échelle donnent la satisfaction aux monteurs
des projets, de montrer des résultats observables et mesurables. Une manière de repenser la pauvreté. C’est le
message essentiel de Banerjee et Duflo que tout le monde connait. Un message optimiste qui était le
bienvenu à vrai dire. Retenons simplement que l’échelle d’action et donc d’évaluation
est centrale dans le positionnement de ces pionniers de la randomisation.
Randomisation, quasi-randomisation et variables
instrumentales, doubles-différences…Tout un ensemble de techniques avec un
unique objectif : l’inférence causale ou comment détecter un lien de
causalité entre un programme de développement et les résultats observés. Rien de nouveau, on est dans la veine du modèle
causal de Rubin. Inspiré par des expériences aléatoires effectuées en médecine,
on définit un groupe traitement (assujetti à une pol de développement) et un
groupe témoin (non-assujetti). Exemple :
une politique d’amélioration des taux de scolarisation, via des transferts
monétaires. Dans l’idéal, les deux
groupes doivent être parfaitement identiques afin de contrôler l’ensemble des
facteurs pouvant interagir à la fois sur les taux de scolarisation, les
revenus, le coût d’opportunité d’une année d’école… Une solution miracle :
la sélection aléatoire qui garantit que la probabilité de recevoir ou non une
incitation financière soit identique et qui prémunit le chercheur du biais de
sélection dans la constitution des groupes.
« Creating
a culture in which rigorous randomized evaluations are promoted, encouraged and
financed has the potential to revolutionize social policy during the 21th
century, just as randomized trials revolutionized medecine during the 20th ».
E. Duflo, 2004.
Une solution miracle ? En tout cas, une solution qui se
dédouane de toute analyse théorique et d’une analyse microéconométrique
complexe.
Avant de rentrer dans la phase critique, rappelons que l’expérimentation
purement aléatoire n’est pas toujours applicable, notamment parce qu’elle
implique une très bonne anticipation dans le design du projet de développement,
des moyens humains considérables et surtout parce qu’elle pose de nombreuses questions
éthiques qui remettent en question la faisabilité politique de la sélection aléatoire.
Du coup, d’autres techniques d’inférence causale ont été de plus en plus
utilisées dans le cadre des évaluations de projet de développement, dont l’usage
des variables instrumentales.
Qu’en dit Deaton ?
« Under
ideal circumstances, randomized evaluations are useful for obtaining a
convincing estimate of the average effect of a program- but should be guided by
theory. »
Ok, donc premièrement Deaton reconnait une certaine rigueur
scientifique à la démarche et un pouvoir démonstratif quant à l’efficacité d’un
programme de développement. Fondamentalement,
il reproche une absence d’éclairage théorique qui nous empêche de comprendre
pourquoi le programme fonctionne (ou pas). Il reproche également une surinterprétation
des résultats donnant lieu à des extrapolations abusives.
Erreur N°1: l’extrapolation de résultats (validité externe)
La randomisation (comme les autres méthodes d’éval expérimentale)
permettent d’estimer un effet moyen du projet de développement sur un résultat
observe, c’est le fameux LATE « Local average treatment effect ». Attention, en aucun cas Deaton ne critique le caractère
local de l’estimation qui peut se défendre (#repenserlapauvreté). Il condamne
seulement l’utilisation de ces résultats estimés pour généraliser un projet de
développement. On est clairement dans une remise en question de la validité
externe de la méthode d’évaluation. Pourquoi ne peut-on pas généraliser les
résultats ? Tout simplement parce que l’analyse néglige totalement les
effets du traitement en équilibre général. Le programme PROGRESA a été étendu
dans plus de 30 pays fort des résultats d’évaluation au Mexique. L’objectif :
améliorer les taux de scolarisation et l’accès au soin des enfants grâce à des
transferts conditionnels. Les coûts d’opportunité
(et surtout leurs déterminants) d’une année d’école sont très différents d’un
pays à l’autre. Les politiques sociales initiales et surtout les infrastructures (notamment l’accès
aux hôpitaux) sont totalement différentes et ne justifiaient pas une application
identique du programme.
Erreur N°2 : le traitement de l’hétérogénéité et la validité interne
A travers la randomisation ou quasi-randomisation, on estime
l’effet moyen d’un traitement. Deux problèmes se posent :
- On ne traite en aucun cas l’hétérogénéité de l’échantillon
malgré tous les efforts fournis pour composer des groupes traitement/témoin
identiques. L’usage d’un instrument pose encore plus de difficultés ici. On choisit un instrument corrélé au projet de
développement évalué mais non corrélé avec l’erreur, en supposant l’absence d’hétérogénéité.
L’effet de l’instrument est par définition
un effet moyen et ne permettra en cas de traiter l’hétérogénéité de l’échantillon.
Deaton est très clair sur ce point: « heterogeneity is not a
technical problem calling for an econometric solution but a reflection of the
fact that we have not started on own proper business, which is trying to
understand what is going on. » Il déplore donc l’absence d’analyse
théorique qui permettrait un meilleur traitement économétrique de l’hétérogénéité
des individus. C’est sa contribution majeure en microéconométrie du
développement.
- On détermine une moyenne mais on n’identifie pas
les autres caractéristiques de la distribution. Or, une information
fondamentale qui devrait ressortir des évaluations de politique de
développement c’est quelle est la fraction de la population qui bénéficierait d’un
effet traitement positif ? Cette analyse permettrait d’éviter certains
effets désastreux, dont les exemples sont nombreux. Pensez aux politiques d’infrastructures
menées qui ont très souvent généré des inégalités de traitement considérables. Deaton défend donc l’analyse marginaliste en
économie du développement et déplore son absence (ou sa marginalisation) dans
la littérature aujourd’hui.
Deaton souligne les nombreuses confusions dans la
littérature quant à la signification de l’exogeneité et son traitement.
Erreur N°3 : Le traitement de l’endogéneité ou l’illusion des variables instrumentales
Pour sa démonstration, Deaton utilise un modèle
macroéconomique de consommation ultra light et démontre qu’avec une analyse
théorique, la forme réduite estimée est totalement spécifiée et donc l’usage d’une
variable instrumentale est tout à fait approprié. Autrement dit, le choix de la
variable instrumentale doit provenir d’un raisonnement théorique préalable pour
garantir le traitement de l’endogéneité. Or, dans les évaluations
quasi-expérimentales, le choix des variables instrumentales n’est pas guidé par
un modèle spécifié mais uniquement par la recherche d’un instrument orthogonal,
impliquant qu’il soit exogène ET non corrélé au terme d’erreur de l’équation
principale. L’exogénéité en économie
signifie que la variable est causée par des facteurs externes au système
étudié. Mais la cohérence d’un instrument implique cette restriction
supplémentaire de ne pas être corrélé au terme d’erreur. Et c’est bien là toute la difficulté. Aucun test économétrique n’est en fait capable
de nous garantir que cette condition d’exclusion est respectée : les tests
de suridentification communément utilisés ne peuvent pas valider notre
instrument et l’identification valide du système estimé.
Deaton regrette finalement que ce tournant de l’économie du
développement s’exonère totalement de la théorie pour définir une stratégie d’évaluation.
L’absence de modèle implique plusieurs limites :
- le choix de l’instrument est erroné et ne garantit pas que les estimations soient non biaisées dans le cadre d’une quasi-randomisation. Exogénéité non traitée
- le traitement de l’hétérogénéité des individus est défaillant.
- on ne comprend pas ce qui détermine les résultats du traitement.
“Randomized controlled trials
(RCT) do not occupy any special place in some hierarchy of evidence”.
“As with IV
methods, RCT-based evaluation of projects, without guidance from an
understanding of underlying mechanisms, is unlikely to lead to scientific
progress in the understanding of economic development.”
Réactions?
Evidemment ces critiques ont très bien été intégrées par les
grands spécialistes de la randomisation. Il est aujourd’hui rare que Duflo et
ses co-auteurs se passent d’un éclairage théorique pour comprendre les
résultats estimés. Dans le dernier AER de Duflo (co-écrit avec Dupas et
Kremer), les auteurs évaluent deux programmes de développement au Kenya :
des aides à la scolarisation pour lutter contre la déscolarisation des filles
et les grossesses précoces ; et un programme de prévention du VIH. L’expérimentation
estime les effets de chaque politique de façon isolée puis combinée. Les résultats
ne sont pas du tout linéaires. Une politique d’aide à la scolarisation permet
de réduire considérablement les grossesses des jeunes filles, plus que lorsque
cette politique s’accompagne d’un programme de prévention du VIH. A l’inverse, une politique de prévention du
VIH seule n’a aucun effet significatif alors que combinée à des aides scolaires,
les taux de contamination baissent significativement. Partant de ces incohérences, les auteurs
expliquent leurs résultats à travers un éclairage théorique : un modèle à
un seul facteur dans lequel le rapport non protégé détermine à la fois la
grossesse et la contamination au VIH est inapproprié pour comprendre ses
résultats. Par contre un modèle
théorique plus riche où le choix individuel des jeunes filles ne porte pas
uniquement sur le rapport protégé, mais aussi sur le choix d’une relation
engagée ou occasionnelle va permettre d’éclairer ses résultats non linéaires. De plus le fait d’intégrer dans l’analyse l’incompatibilité
entre grossesse et scolarité permet de mieux considérer le cout d’opportunité d’une
grossesse et de mieux comprendre le choix des jeunes filles de s’engager ou non
dans une relation. Enfin parce que les filles perçoivent un risque plus grand d’être
contaminées dans le cadre d’une relation occasionnelle, elles s’engageront plus
facilement dans une relation maritale et auront donc plus de rapports non
protégés, ce qui augmentera le risque de grossesse. Une analyse théorique approfondie permet
finalement un bien meilleur design de la politique, ce que ne permettait pas
une randomisation isolée.
Conclusion : la
dérive athéorique de l’économie du développement n’est pas sans conséquence.
Les randomisations et techniques dérivées ne sont pas des « gold standards »
de l’analyse empirique. Les effets estimés sont locaux, autrement dit on peut
douter de la validité externe de ces évaluations et de fait de la
généralisation des programmes. Ce sont des effets moyens qui ne permettent pas
de contrôler l’hétérogénéité des individus, et surtout qui ne donnent aucune
information sur la distribution des effets du traitement. Ces limites ne sont pas sans conséquence sur
la conception des politiques de développement et l’optimisation des moyens
alloués. Néanmoins, ces évaluations ont
le mérite de démontrer qu’une politique de développement implique des effets
locaux, moyens significatifs, justifiant l’approfondissement d’un programme en
travaillant précisément sur les mécanismes de transmission. C’est ainsi que des
politiques ont été abandonnées (planning familiaux en Indonésie), d’autres ont
été poursuivis malgré des alternances politiques (Progresa) et surtout d’autres programmes ont été
améliorés par des politiques d’accompagnement (combinaison de deux programmes).
Elisa Dienesch
Elisa Dienesch
0 commentaires:
Enregistrer un commentaire