Bulletin Vert n°511
novembre — décembre 2014

Exploration de données et méthodes statistiques Data analysis & Data mining avec le logiciel R

par Lise Bellanger et Richard Tomassone

Ellipses, février 2014
480 pages en 19 × 24, prix : 45,00 €, ISBN 978-2-7298-84864

 

Constituer des bases de données est une préoccupation des états qui remonte à l’antiquité en Chine, en Égypte ou dans l’empire romain, mais le développement de la capacité et de la rapidité des moyens de communication est si prodigieux que certains voient les données d’aujourd’hui jouer le rôle économique et social du carburant d’hier tout en risquant de fragiliser la confidentialité de notre vie privée.

Ce monumental traité se propose de faire le point des techniques les plus récentes d’exploration de données ( data mining aussi traduit par Fouille de données ). Il est divisé en cinq parties :

  • 1) Préalables à un traitement statistique
    Une démarche scientifique. Les outils de représentation d’un échantillon. Pratiques utiles avant traitement.
  • 2) Étude d’un échantillon
    Représentation d’un échantillon par des cartes : ACP, AFC et AFCM ; analyse Factorielle ; représentation d’un échantillon par des classes.
  • 3) Étude de deux groupes de variables
    Régression : les bases et les limites ; la colinéarité : du diagnostic aux remèdes ; relations entre deux groupes de variables.
  • 4) Étude de plusieurs échantillons
    Discrimination et classement : décrire la séparation de classes, affecter des observations à des classes.
  • 5) Autres méthodes
    Arbres binaires. Conclusions et perspectives.

Les fichiers de données sont empruntés aux domaines les plus divers : familles de puces, amphores crétoises, pollution atmosphérique, rendement de blé dur, calcium dans le sol et dans du navet, distance entre villes, datation, mensurations, charolais/zébus, maladie coronarienne, races de chiens, recettes de cuisine, cures thermales, mucoviscidose, diabète, sol/végétation, eaux minérales, Bête du Gévaudan, questionnaires, soins intensifs, jumeaux, facteur de croissante, squelettes de kangourous, sol/blé, chien/loup, malaria, nématodes, ozone, iode, exoplanètes, consommateurs, processionnaire du pin, fromages, avancement d’une charrue, spores, tabac, tâches ménagères, drogue, espérance de vie, voix, … Les fichiers de données sont disponibles sur : http://www.math.sciences.univ-nantes.fr/~bellanger/

Chacun des 14 chapitres se conclut par un bilan de ce qu’il faut retenir et par cinq ou six exercices qui proposent au lecteur de reprendre les mêmes données en leur appliquant d’autres méthodes. Le texte est agrémenté de portraits des philosophes et statisticiens cités et de photographies qui ajoutent une pointe d’humour aux données traitées et montrent la diversité des applications.

L’ouvrage utilise le logiciel statistique libre R. Ce choix est justifié par sa simplicité d’apprentissage, sa très large diffusion et l’abondance des bibliothèques de programmes et de la documentation rassemblée sur le site : http://www.r-project.org

Douze pages d’une copieuse bibliographie donnée chapitre par chapitre permettent de mesurer le chemin parcouru en analyse des données depuis les années cinquante, grâce au développement fulgurant de la capacité et de la rapidité des moyens de calcul.

Dans leur conclusion, les auteurs précisent les champs non abordés, les méthodes et les environnements nouveaux. Appliquer la statistique associe le plus souvent dans un travail commun le spécialiste d’un domaine particulier et un statisticien. Le statisticien peut proposer des outils, quantifier les risques, comparer les approches mais c’est au spécialiste de prendre, après réflexion et doute, les décisions correspondant à l’objectif de son étude.

L’ouvrage est destiné aux étudiants de masters ou d’écoles d’ingénieurs qui y trouveront rassemblée et ordonnée une vaste documentation, aux professionnels soucieux d’utiliser la statistique de manière réfléchie, mais aussi à tous les enseignants qui cherchent des exemples variés de questionnements et d’études.

 

Les Journées Nationales
L’APMEP

Publications
Ressources

Actualités et Informations
Base de ressources bibliographiques

 

Les Régionales de l’APMEP