Bulletin Vert n°499
septembre 1995
Régression avec R
par Pierre-André Cornillon et Éric Matzner-Lober
Springer, sept 2010
242 p. en 15,5 × 23,5, prix : 22 €, ISBN : 978-2-8178-0183-4
Cet ouvrage reprend et améliore une première version parue en 2007 sous le titre : Régression : Théorie et applications en l’enrichissant d’exercices. Il associe théorie et applications avec le logiciel libre R, langage de programmation développé depuis une dizaine d’années pour le traitement de données et l’analyse statistique.
L’ouvrage présente dans l’ordre les raffinements successifs de la régression :
- La régression linéaire simple
modélisation mathématique, moindres carrés, interprétations géométriques. - La régression linéaire multiple
Modélisation, estimation, géométrie des moindres carrés. - Inférence dans le modèle gaussien
Maximum de vraisemblance, régions de confiance, tests. - Validation du modèle
Analyse des résidus, de la matrice de projection, effet d’une variable explicative. - Régression sur variables qualitatives
Analyse de la covariance, de la variance à 1 et 2 facteurs. - Choix des variables
Critères classiques et procédure de sélection. - Moindres carrés généralisés.
- Ridge et Lasso.
- Régression sur composantes : PCR et PLS.
- Régression spline et régression à noyau.
L’ouvrage s’achève par des rappels d’algèbre et de probabilités, deux pages de bibliographie et sept d’index, deux de notations.
Chaque chapitre comporte de trois à onze exercices : questions de cours sous forme de quiz à choix multiple, problèmes comportant une longue liste de calculs, écriture de la démonstration d’une grande partie des propositions du cours. Les corrections des exercices, ainsi que tous les fichiers de codes sont proposés sur la page consacrée à cet ouvrage sur le site de l’éditeur : www.springer.com
Ces corrections qui occupent une quarantaine de pages sont très soignées et détaillées, et accompagnées de commentaires sur la pertinence du résultat établi pour l’utilisateur.
Cet ouvrage s’appuie sur de nombreux exemples concrets : s’il est facile aujourd’hui de se procurer des données pour les analyser, il est beaucoup plus difficile de les proposer comme exemples pour une diffusion ; il devient impensable de traiter des données issues du monde industriel ou du marketing.
Il faut donc se féliciter que trois organismes aient donné les autorisations nécessaires, ce qui assure une variété d’utilisations tout au long du livre et permet de suivre les traitements appliqués à un même jeu de données.
Les commandes permettant le traitement des exemples sous le logiciel R figurent dans le corps du texte.
Clairement écrit, utilisant une typographie soignée et enrichi de nombreux graphiques, ce livre sera un bon outil de travail de volume raisonnable sur la régression et tous ses développements actuels pour les étudiants de master et les élèves ingénieurs et une référence pour les praticiens de l’analyse des données, de la gestion des risques, aussi bien que pour les chercheurs utilisant la statistique en médecine, économie, finances,…
Il permettra à tous les enseignants .des classes où la régression est au programme de voir comment elle est utilisée aujourd’hui.