Affichage des articles dont le libellé est régression. Afficher tous les articles
Affichage des articles dont le libellé est régression. Afficher tous les articles

dimanche 20 septembre 2020

La "corrélation" : méfions-nous un peu !

science/études/cuisine/politique/Alsace/gratitude/émerveillement

 

 

1. Dans les débats publics, dans la presse, on entend souvent le mot "corrélation"... mais sait-on bien de quoi il s'agit ? Et, surtout, en sait-on les limites ?  

2. Ici, je veux signaler l'existence d'un excellent article, certes un peu ancien, mais dont les justes conclusions sont quasi intemporelles. Et ceux qui utilisent le mot "corrélation" devraient bien le lire, pour éviter de dire des âneries.
 

3. D'abord les références de ce texte : Anscombe FJ. 1973. Graphs in statistical analysis, The American Stastitician, vol. 27, N°1, pp 17-21.
L'article discute d'abord de l'importance des graphes... à une époque il n'était pas aussi facile d'en faire qu'aujourd'hui, raison pour laquelle son texte est un peu apologétique, de ce point de vue.
 

4. Mais, rapidement, notre homme discute la question des "régressions", ces analyses que des étudiants qui débutent dans les sciences et les technologies apprennent rapidement à faire, notamment avec ce mauvais logiciel qu'est Excel. 

5. De quoi s'agit-il ? D'analyser une série de données : pensons, par exemple, à la quantité de sucres dans un bouillon de carottes, en fonction du temps de cuisson. On obtient une telle série de données en faisant des bouillons de carotte, et en dosant les sucres à des temps de cuisson différents, et en analysant ces échantillons, afin de savoir combien ils renferment de sucre.
 

6. Ayant fait les analyses, on "contemple" les résultats, qui s'affichent d'abord sous la forme d'un tableau de nombres tel que :



7. C'est immangeable ! La première chose à faire, pour se parler à soi-même et parler aux autres, du résultat obtenu, consiste à représenter ces couples de données, sur un graphe. Les temps de mesure sont sur l'horizontale du bas, et les mesures des quantités de sucres sont sur la verticale de gauche ; à l'intersection de la verticale qui part du temps 5 (en bas), par exemple, et de l'horizontale qui part de la quantité 5,5 (à gauche), on met un point qui correspond à la mesure (temps =5, quantité = 5,5).
Et l'on fait ainsi pour tous les points. De sorte que l'on obtient un graphe fait des onze points de mesure.
 

8. Mais on voit bien, sur ce graphe, que plus le temps de cuisson augmente, et plus la quantité semble augmenter aussi. Et c'est là que les étudiants apprennent à tracer une "droite de régression", qui est la droite qui passe "le mieux" par les différents de mesure. Je passe sur le calcul simple qui permet de faire cette droite, pour me limiter à dire que beaucoup de ceux qui en font se contentent d'indiquer la "qualité de la régression" (de combien la droite passe bien ou mal par les points) à l'aide nombre qui est désigné par R2. Pour R2 égal à 1, les points sont parfaitement alignés sur la droite. Sur la figure 2, je montre une droite de régression et onze points, avec un R2 qui est égal à 0,667. 


 

9. Là où il faut faire attention, c'est que pour la figure 3, le R2 est encore égal à 0,667 ! 

 


10. Tout comme la figure 4. 

 


11. Tout comme pour la figure 5 !

 


 

12. On le voit, le R2 qui tous les débutants apprennent est bien insuffisant. Bien sûr, il faut commencer un jour, mais ne nous contentons pas de ce début. Avançons 


mardi 25 août 2020

A propos de régression

 Rubrique :  science/politique/études/cuisine

Je vais prendre du temps plus tard, mais quand même : vite, vous donner la référence :

Graphs in Statistical Analysis
F. J. Anscombe
The American Statistician, Vol. 27, No. 1. (Feb., 1973), pp. 17-21.

A lire sans modération.

vendredi 27 novembre 2015

Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y  a lieu de s'interroger sur l'enseignement que  nous donnons.

Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.


La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y  a lieu de s'interroger sur l'enseignement que  nous donnons.

Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.


La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html