Blogo Economicus

Accueil » Petits exercices économétriques » Corrélation, causalité, météo et réussite au bac

Corrélation, causalité, météo et réussite au bac

Rédigé par Simon

     Abordons un sujet léger dans ce billet. Tout vient d’un récent tweet d’Antoine qui se demandait s’il y avait une corrélation (positive) entre le beau temps au mois de juin et les résultats au bac général. Je me suis dit que c’était un sujet d’économétrie vraiment génial et je me suis penché dessus. Mais avant que vous ne vous emballiez vous aussi (!!), je dois dire que je n’ai rien trouvé. Mais, je me suis dit que c’était une bonne occasion de faire un billet sur corrélation et causalité.
     On parle de corrélation lorsque deux variables A et B sont liées statistiquement. En revanche, savoir qu’il existe une corrélation entre ces deux variables ne nous apprend rien (en général) sur une quelconque relation de causalité. Si A et B sont corrélées, il se peut que A cause B, ou que B cause A ou encore que A et B sont liées à une troisième variable C (par exemple, A cause C et C cause B). Le but de l’économétrie est de mettre en évidence des corrélations, et surtout, quand c’est possible, de voir où est la relation causale dans tout ça. Ce n’est pas une mince affaire, car il faut d’une part la technique appropriée, et d’autre part suffisamment de données (ou disons, les bonnes données).
     Dans le cas de la météo et de la réussite au bac, Antoine supposait implicitement dans son tweet que plus le temps est beau, moins on révise (on regarde Roland Garros et on va dehors profiter du soleil) et plus on est distrait lors des épreuves. Tout cela débouche sur de moins bons résultats. Cela dit, on peut aussi dire que les révisions de dernière minute ne servent à rien, et que s’aérer est une bonne chose qui améliore la performance des élèves le jour J. Qu’observe-t-on dans la réalité et comment procéder ?
     D’abord, les données. Impossible d’obtenir les moyennes au bac par département, et pas sur que les moyennes soient la bonne mesure de la réussite (les critères de corrections peuvent changer chaque année). Je me suis donc rabattu sur le pourcentage de réussite au bac général (soumis aux mêmes limites), que j’ai collecté pour chaque département entre 2009 et 2012. Ensuite, le beau temps : là je me suis rendu sur Météo France, et j’ai collecté, pour chaque station, les précipitations totales au mois de juin. C’est un proxy pour le beau temps qui me semblait raisonnable. En fait, c’est assez imparfait : il peut pleuvoir beaucoup à cause d’orages, qui surviennent généralement quand il fait très chaud. Mais de toutes façons, difficile de trouver mieux.
     Ensuite, il s’agissait de jeter un oeil à la corrélation entre ces deux variables. Coup de bol, c’est positif. Plus il pleut, plus le pourcentage de réussite au bac général est élevé. Les graphiques qui suivent montrent cette corrélation.
 Graph - meteobac - precp
     C’est la partie marrante de l’économétrie. Maintenant, on ne peut strictement rien dire sur une relation causale. Il se peut que ce soit un coup de chance. Il se peut aussi que la variable A (les précipitations) soit corrélée avec une variable C (comme la structure économique du département, et donc le niveau d’éducation de la population active) qui détermine B (la réussite au bac).
     Face à ces problèmes, on peut changer de méthode. Par exemple, on peut regarder l’évolution des précipitations d’une année sur l’autre et l’évolution du taux de réussite entre ces deux mêmes années (« first differencing »). Ainsi, on gomme un certain nombre de déterminants qui ne change pas d’une année sur l’autre dans chaque département (par exemple, même si les précipitations varient beaucoup d’une année sur l’autre, le niveau moyen d’éducation de la population active, lui, ne varie pas ou peu). Les fixed effect, dont j’avais parlé dans ce billet, sont basés sur cette idée très simple.
      J’ai tenté d’estimer ces modèles plus complexes, en les appliquant aux peu de données que j’avais à ma disposition. Je n’ai trouvé aucune relation significative entre le taux de réussite et les précipitations au mois de juin. La seule relation significative que j’ai trouvée est une relation négative entre le taux de réussite au bac général et les températures minimales moyennes (c’est un début, mais c’est assez maigre). Le graphique illustre en partie ce résultat (en partie seulement, car ce n’est qu’une représentation graphique entre deux variables, qui ne prend pas en compte d’autres contrôles présents dans les régressions comme un effet année par exemple).
 Graph - meteobac - temp
     Cette distinction entre corrélation et causalité est très importante, elle évite beaucoup d’erreur d’interprétation. De nombreux économistes s’amusent d’ailleurs à trouver les corrélations les plus farfelues, sans qu’il y est de relations causales dessous (par exemple, entre consommation de chocolat et criminalité). Au final donc, je n’ai rien trouvé qui mérite d’écrire un article, si ce n’est que cela m’a permis de discuter de deux notions importantes.
     Si certains trouvent le sujet intéressant, qu’ils n’hésitent pas à suggérer de nouvelles pistes de recherche ou de nouvelles données à collecter qui pourraient améliorer l’ensemble. A bientôt !
Publicités

5 commentaires

  1. Abellard Monique dit :

    Merci pour votre article qui fera le bonheur national des professeurs de sciences économiques et sociales et de leurs élèves…

  2. Economiam dit :

    La météo me semble etre l’exemple typique de la variable exogene? Donc la causalité va dans un seul sens dans ce cas precis… On pourrait aussi regresser le PIB par tete contre la temperature. De plus, vous ne semblez pas tenir compte de la qualité de votre regression (quid du R2?)…

    Pour des exemples dans la litterature economique, celui le plus marquant je pense est a trouver dans Freakonomics, qui lie le cas Roe vs Wade (qui legalise l’avortement aux US dans les annees 70) avec la chute de la criminalité dans les annees 90-2000

    • Simon dit :

      Bonjour,
      Oui la météo est exogène, mais pas dans le sens économétrique du terme dans cette régression. On peut imaginer que la météo est corrélée avec certaines caractéristiques des départements, caractéristiques qui elles peuvent expliquer (en partie) la réussite au bac.
      Je n’ai plus le R2 en tête, mais il est faible. L’un des problèmes ici c’est que le nombre de variables explicatives inclus dans la régression est assez limité, on ne peut donc pas s’attendre à des miracles. J’utilise les fixed effects pour palier à ce manque, mais comme je l’ai dit ça reste très partiel.
      Dans Freakonomics, Levitt explique en effet qu’il a trouvé un lien de causalité entre la légalisation de l’avortement et la chute de la criminalité. D’ailleurs, nous en avions parlé ici https://blogoeconomicus.wordpress.com/2013/01/23/armes-et-criminalite-aux-etats-unis/
      Merci pour votre réaction !

      • Economiam dit :

        Hmm, il me semble pourtant bien que la meteo est exogene (pour expliquer les resultats du bac) d’apres la definition de la regression lineaire.

        Par ailleurs, j’imagine que quand vous dites que la meteo est correlee avec certaines caracteristiques du departement vous voulez dire qqch comme « il fait beau dans le Sud, donc les gens font plus de sports, donc ils ont de meilleures notes au bac de sport ». Il y a implicitement une causalité dans cet exemple, et je ne suis donc pas sur de vous suivre: le beau temps cause bel et bien les meilleures notes en sport (a supposer que cette correlation existe), parce que clairement, les notes en sport n’influencent pas le temps qu’il fait!

        Par contre je suis d’accord que pour demeler l’impact du departement (ou laissant de cote la mete), il faut des outils plus sophistiqués.

        Enfin, j’ai l’impression que puisque la meteo est exogene (bel et bien au sens de la regression), s’il manque des variables explicatives dans votre modele cela donnera juste un R2 faible, sans indication sur la causalité.

        Merci pour le lien sur Freakonomics, et bon courage pour le blog, c’est pas facile a tenir (comme je le moi meme!)

      • Simon dit :

        Merci pour vos encouragements, votre blog a d’ailleurs rejoint la liste de nos liens !
        La météo n’est à mon sens pas exogène. Elle est corrélée avec des facteurs qui n’apparaissent pas dans la régression (vous en donnez vous même un exemple). Du point de vue économétrique donc, elle n’est pas exogène. Au sens économique, elle est exogène (elle n’est pas déterminée dans le contexte du modèle). Au sens économétrique, c’est endogène, car corrélé avec des variables qui ont été omises de la régression.
        Pour le R2 vous avez parfaitement raison. D’ailleurs, cette exercice économétrique est assez peu creusé, bien que ce fut fastidieux de recueillir les quelques données utilisées. Finalement ce n’est qu’un prétexte pour discuter de l’exogénéité d’une variable !

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :