T comme Trifouiller ses données

Cet article est en écho à l’article de d’aïeux d’ailleur P comme Puck.

Je vais aujourd’hui parler de la fouille de données. Récemment dans l’affaire Gregory, le logiciel ANACRIM a permis aux enquêteurs de mettre en évidence des relations entre des indices qui n’étaient pas visibles par des humains.

Sans vouloir prétendre disposer d’un tel outils, je vais rapidement vous exposer les possibilités du logiciel weka, qui est un ensemble d’outils de fouille de données développé par l’université de Waikato en Nouvelle-Zélande.

Contrairement à Puck, cette outils n’est pas spécialisé dans la généalogie, c’est un outils générique. Il a notamment la possibilité de créer un arbre de classification.

Arbre de classification

L’arbre de classification va permettre de mettre en évidence des schémas qui apparaissent dans notre base. Pour donner un exemple totalement fictif, que la plupart des prénommés Jean

exercent la profession de meunier, alors que les Pierre sont majoritairement cultivateurs.

Travail préparatoire

Dans notre cas, pour faire fonctionner weka, nous allons devoir disposer d’un tableau qui associe sur chaque ligne un certain nombre d’attributs d’un individu. Il faudra donc passer un temps assez conséquent pour préparer les données et les rendre uniformes (agriculteur=cultivateur, caporal=militaire). J’ai choisi ici

Tableau d’entrée
  • Le sexe de l’individu
  • son prénom
  • son patronyme
  • son âge à son décès
  • son année de naissance
  • son année de décès
  • sa profession

Après la préparation du tableau vient le chargement dans weka.

Génération de l’arbre de classification

Dans la première étape de « preprocessing » vous pouvez retirer les champs présent dans votre fichier d’entrée mais que vous ne voulez pas prendre en compte dans votre analyse.

En cliquant sur les différents champs, vous pouvez déjà avoir un aperçu de la réparatition des données (répartition des emplois, des âges, etc.).

Onglet « prepocess » dans lequel on peut retirer des champs et avoir un aperçu de la répartion des valeurs par champs.

On peut ensuite passer à l’étape classify pour générer notre arbre.

Pour ce faire, il faut choisir le « classifier » Tree>J48, choisir l’option de test « use training set ». J’ai centré l’analyse sur le champ « emploi ». Pour la lancer il suffit de cliquer sur « start ».

Génération du classifier J48

Voilà les données ont été analysée et les traitement enregistrés. En cliquant avec le bouton droit de la souris sur le résultat (result list) on accèdé via le menu déroulant à l’action visualize tree qui va nous permettre d’avoir un aperçu visuel de l’analyse.

Grâce à cet arbre on va pouvoir déterminer que dans l’échantillon fourni, pour les femmes nées avant 1810 le métier est plutôt « ménagère » et qu’après 1810, le métier est plutôt journalière.

Coté homme, pour les hommes décédés entre 64 et 70 ans et nés avant 1790, le métier est plutôt tisserand.

Arbre de classification

J’avoue que la prise en main de weka me semble très fastidieuse. Rien que la génération de cet arbre m’a pris beaucoup de temps pour comprendre ce qu’il fallait fournir comme données et comment. Je pense qu’il a un grand potentiel mais comme toujours il faut du temps 😉

Références:

Lien de téléchargement : http://www.cs.waikato.ac.nz/ml/weka/downloading.html

La documentation weka: https://freefr.dl.sourceforge.net/project/weka/documentation/3.7.x/WekaManual-3-7-13.pdf

Un tutoriel sur lequel je me suis basé pour expérimenter : https://www.ibm.com/developerworks/library/os-weka2/index.html

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s