Cet article est en écho à l’article de d’aïeux d’ailleur P comme Puck.
Je vais aujourd’hui parler de la fouille de données. Récemment dans l’affaire Gregory, le logiciel ANACRIM a permis aux enquêteurs de mettre en évidence des relations entre des indices qui n’étaient pas visibles par des humains.
Sans vouloir prétendre disposer d’un tel outils, je vais rapidement vous exposer les possibilités du logiciel weka, qui est un ensemble d’outils de fouille de données développé par l’université de Waikato en Nouvelle-Zélande.
Contrairement à Puck, cette outils n’est pas spécialisé dans la généalogie, c’est un outils générique. Il a notamment la possibilité de créer un arbre de classification.
Arbre de classification
L’arbre de classification va permettre de mettre en évidence des schémas qui apparaissent dans notre base. Pour donner un exemple totalement fictif, que la plupart des prénommés Jean
exercent la profession de meunier, alors que les Pierre sont majoritairement cultivateurs.
Travail préparatoire
Dans notre cas, pour faire fonctionner weka, nous allons devoir disposer d’un tableau qui associe sur chaque ligne un certain nombre d’attributs d’un individu. Il faudra donc passer un temps assez conséquent pour préparer les données et les rendre uniformes (agriculteur=cultivateur, caporal=militaire). J’ai choisi ici

- Le sexe de l’individu
- son prénom
- son patronyme
- son âge à son décès
- son année de naissance
- son année de décès
- sa profession
Après la préparation du tableau vient le chargement dans weka.
Génération de l’arbre de classification
Dans la première étape de « preprocessing » vous pouvez retirer les champs présent dans votre fichier d’entrée mais que vous ne voulez pas prendre en compte dans votre analyse.
En cliquant sur les différents champs, vous pouvez déjà avoir un aperçu de la réparatition des données (répartition des emplois, des âges, etc.).

On peut ensuite passer à l’étape classify pour générer notre arbre.
Pour ce faire, il faut choisir le « classifier » Tree>J48, choisir l’option de test « use training set ». J’ai centré l’analyse sur le champ « emploi ». Pour la lancer il suffit de cliquer sur « start ».

Voilà les données ont été analysée et les traitement enregistrés. En cliquant avec le bouton droit de la souris sur le résultat (result list) on accèdé via le menu déroulant à l’action visualize tree qui va nous permettre d’avoir un aperçu visuel de l’analyse.
Grâce à cet arbre on va pouvoir déterminer que dans l’échantillon fourni, pour les femmes nées avant 1810 le métier est plutôt « ménagère » et qu’après 1810, le métier est plutôt journalière.
Coté homme, pour les hommes décédés entre 64 et 70 ans et nés avant 1790, le métier est plutôt tisserand.

J’avoue que la prise en main de weka me semble très fastidieuse. Rien que la génération de cet arbre m’a pris beaucoup de temps pour comprendre ce qu’il fallait fournir comme données et comment. Je pense qu’il a un grand potentiel mais comme toujours il faut du temps 😉
Références:
Lien de téléchargement : http://www.cs.waikato.ac.nz/ml/weka/downloading.html
La documentation weka: https://freefr.dl.sourceforge.net/project/weka/documentation/3.7.x/WekaManual-3-7-13.pdf
Un tutoriel sur lequel je me suis basé pour expérimenter : https://www.ibm.com/developerworks/library/os-weka2/index.html