Bulletin Vert no 461
novembre — décembre 2005

Modèles statistiques pour données qualitatives

par Jean-Jacques Droesbeke, Michel Lejeune, Gilbert Saporta,

Éditions TECHNIP, Paris, mai 2005, 291 p.

ISBN 2-7108-0855-2.

 

Il s’agit des actes des neuvièmes journées d’étude en statistique organisées en 2000 par la Société Française de Statistique qui regroupe à la fois des praticiens de la statistique du public ou du privé et des enseignants, en majorité universitaires ou d’écoles d’ingénieurs.

Le premier chapitre, rédigé par J.-J. Droesbeke, M. Lejeune, G. Saporta, reprend l’histoire du traitement des données qualitatives depuis deux siècles : les tables de contingence et leur utilisation dans un exemple de Quételet sur la répartition des élèves, garçons et filles par province et type d’école en Belgique ; les apports de F. Galton, K. Pearson et G.U. Yule sur la corrélation, moyennant des débats houleux entre eux, puis le test du khi-deux.

Cette approche historique se poursuit dans le second chapitre où C. Croux traite des divers coefficients d’association et tests d’indépendance pour variables qualitatives. Dans le troisième, il présente le modèle log-linéaire et traite en détail l’exemple d’un échantillon de 1 000 automobilistes auxquels on a demandé les raisons de leurs trajets en voiture, leur respect de la vitesse maximale autorisée, leur sexe et l’âge de leur voiture. Il présente ensuite les modèles graphiques d’association, sur cet exemple et dans un autre relatif à l’utilisation de congélateurs au Danemark puis établit leur lien avec l’analyse des correspondances multiples.

Dans le chapitre 4, G. Saporta présente les classes latentes, un modèle introduit en sciences humaines dès le début du XXe siècle par C. Spearman, qui postulait l’existence de variables inobservables directement telles l’intelligence. L’exemple traité concerne une enquête de 1991 sur les attitudes sociales britanniques.

Dans le chapitre 5, P.L. Gonzalez présente les modèles linéaires généralisés qui comportent à la fois une composante aléatoire, une composante déterministe et un lien entre les deux et détaille la construction pratique d’un tel outil ; puis, dans le chapitre suivant, décrit les modèles à réponse dichotomique, la régression logistique simple puis multiple et traite l’exemple de la prévision de faillites d’entreprises à partir de leur situation financière deux ans plus tôt ; dans le suivant, il compare les méthodes de discrimination (géométrique, probabiliste, de segmentation) sur l’exemple de l’audience d’une revue masculine.

Au chapitre 8, C. Croux et G. Haesbroeck abordent la question de la robustesse de la régression logistique et traitent un exemple de constriction des vaisseaux sanguins dans la peau des doigts.

Dans le 9, C. Gourieroux présente les modèles de comptage et leur application aux assurances (schéma de bonus-malus) pour lesquels il précise les facteurs de risque et les effets de la profession, du sexe, de l’âge du conducteur et de l’année ; dans le suivant il étudie les mesures répétées et les modèles autorégressifs et donne un exemple : l’activation des crédits permanents pour 15 637 porteurs de cartes.

Dans le 11, M. Tenenhaus, Y. Le Roux, C. Guimart, P.L. Gonzalez et D.J.M. Malvy appliquent le modèle à réponse multinomiale à une étude des niveaux de goitres dans quatre villages du Mali.

Dans le dernier, M. Tenenhaus présente la régression logistique PLS sur un exemple de suivi des vins de Bordeaux et des conditions météo de 1924 à 1957.

L’ouvrage est complété par une abondante (12 p.) bibliographie mêlant références historiques (Bessel, Fisher, Galton, K. Pearson, Spearman, Yule, …) et travaux récents, et par un index.

Le livre résulte du travail d’une équipe qui a pris grand souci de la cohérence de l’ensemble, qui n’est pas facile à assurer dans les actes d’une journée d’étude. Les auteurs sont des pédagogues chevronnés et la lecture nécessite peu de connaissances mathématiques préalables, le jargon statistique étant introduit avec perspicacité.

J’ai insisté sur la variété des exemples traités qui montrent la problématique du statisticien contemporain dans divers domaines des sciences humaines ; l’ouvrage pourra donc servir de point de départ à un travail pluridisciplinaire dans les classes de lycée.

 

Les Journées Nationales
L’APMEP

Publications
Ressources

Actualités et Informations
Base de ressources bibliographiques

 

Les Régionales de l’APMEP