Création d'un graphe de connaissances géohistorique à partir d'annuaires du commerce parisien du XIXe siècle: application aux métiers de la photographie
Présenté par :
Les annuaires professionnels anciens, édités à un rythme soutenu dans de nombreuses villes
européennes tout au long des XIXe et XXe siècles, forment un corpus de sources unique par son
volume et la possibilité qu'ils donnent de suivre les transformations urbaines à travers le prisme des
activités professionnelles de ses habitants, de l'échelle individuelle jusqu'à celle de la ville entière.
L'analyse spatio-temporelle d'un type de commerces au travers des entrées d'annuaires demande
cependant un travail considérable de recensement, de transcription et de recoupement manuels.
Pour pallier cette difficulté, cette présentation propose une approche automatique pour construire
et visualiser un graphe de connaissances géohistorique des commerces figurant dans des annuaires
anciens.
Les entrées des annuaires sont préalablement identifiées dans les scans des pages d’annuaires et
OCRisées à l’aide de méthodes et d’outils de l’état de l’art. Leurs différents éléments constitutifs sont
identifiés à l'aide d'une approche de reconnaissance d'entités nommées à base de réseau de
neurones profond. Nous avons entraîné un modèle de langue CamemBERT de sorte à lui permettre
de mieux gérer le bruit liés à l’étape d’OCR dans le texte des annuaires. Les adresses ainsi reconnues
dans les entrées sont ensuite associées à des coordonnées géographiques à l’aide d’un outil de
géocodage historique qui recherche pour chaque adresse extraite, l’adresse la plus similaire au sein
d’une base d’adresses anciennes et dont le temps valide associé est le plus proche possible de la date
de publication de l’annuaire dont l’adresse requête est extraite. Le liage des entrées similaires entre
annuaires constitue l'étape principale de création de notre graphe de connaissances géohistorique,
car elle permet de dégager les logiques individuelles d'évolution des commerces (déménagements,
transmissions, reprises, etc.). Pour surmonter les difficultés posées par le bruit OCR, nous proposons
d'utiliser deux approches de liage : une approche logique, à base de raisonnement sur des clés et une
approche numérique qui compare les valeurs des propriétés des entrées afin de lier celles présentant
les valeurs les plus similaires. Enfin, nous proposons un outil d'exploration spatio-temporelle du
graphe créé. Celui-ci permet d’explorer les données à l’aide d’une interface cartographique et d’une
frise temporelle : il permet ainsi de répondre à des questions de compétence complexes. L'approche
est testée sur des annuaires du commerce parisien du XIXe siècle allant de 1800 à 1908, sur le cas des
métiers de la photographie.
Liens utiles :
Article détaillé : https://hal.science/hal-04121643/
Point d’accès SPARQL : https://dir.geohistoricaldata.org/
Interface de visualisation spatio-temporelle :
https://soduco.github.io/ic_2023_photographes_parisiens/
Scripts pour la mise en œuvre de la chaîne de traitement :
https://github.com/soduco/ic_2023_photographes_parisiens
Enregistrement de la présentation :
https://peertube.semweb.pro/w/jkWpJLthteVN3Wfxt9mo2m