Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Cet article présente une approche innovante combinant le modèle de segmentation SAM2, les outils de génération de texte Florence2 et ChatGPT, ainsi qu'une ontologie spécialisée, pour segmenter et étiqueter automatiquement les traités de construction navale des XVIe et XVIIe siècles, afin de faciliter la curation et l'accessibilité de ces documents historiques précieux malgré le manque de données d'entraînement.

Carlos Monroy, Benjamin Navarro

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🌊 Le Défi : Des Trésors Noyés dans le Temps

Imaginez que vous possédez une bibliothèque remplie de vieux livres de marine, écrits il y a 400 ans (au XVIe et XVIIe siècle). Ces livres contiennent des dessins incroyables de bateaux, de voiles et de cordages. C'est un trésor pour les historiens, mais il y a un gros problème : ces livres sont muets.

Si vous demandez à un ordinateur moderne de regarder une photo de votre chat, il dira immédiatement : « C'est un chat ! ». Mais si vous lui montrez un dessin technique d'un vieux bateau en bois, l'ordinateur est perdu. Il ne sait pas ce qu'est un « étrave » ou un « beaupré ». Il manque de données pour apprendre, et les dessins sont trop complexes et spécialisés.

🤖 La Solution : Donner des Lunettes Magiques à l'IA

Les auteurs de ce papier (Carlos et Benjamin) ont décidé d'entraîner une intelligence artificielle (IA) pour qu'elle puisse « voir » et « comprendre » ces vieux documents, un peu comme on donnerait des lunettes de lecture à quelqu'un qui a du mal à voir de près.

Ils ont utilisé une recette en trois étapes, comme pour préparer un plat complexe :

1. La Découpe (Le Couteau de Chef)

D'abord, il faut séparer les différents éléments du dessin. Imaginez un dessin d'un bateau où la coque, les voiles et les cordages sont tous mélangés.

  • L'outil : Ils utilisent une IA appelée SAM2.
  • L'analogie : C'est comme un chef d'orchestre qui, d'un coup de baguette magique, découpe l'image en petits morceaux précis. Il isole chaque pièce du bateau (une poulie, un mât, une planche) pour qu'on puisse les étudier séparément. C'est beaucoup plus précis que les anciennes méthodes qui ressemblaient à des découpages grossiers.

2. L'Étiquetage (Le Dictionnaire Intelligent)

Une fois les morceaux découpés, il faut leur donner un nom. C'est là que ça se corse. Si l'IA voit une pièce bizarre, elle pourrait dire « c'est un bâton » au lieu de « c'est une barre de gouvernail ».

  • Le problème : L'IA standard fait des erreurs. Elle pourrait appeler une poulie « un axe » ou un livre « un objet pointu ».
  • La solution : Au lieu de laisser l'IA deviner, les chercheurs lui donnent un dictionnaire spécial (un glossaire) et un manuel de règles (une ontologie) créés par des experts en architecture navale.
  • L'analogie : Imaginez que vous demandez à un enfant de décrire un avion. Il dira « un oiseau en métal ». Maintenant, donnez-lui le manuel de l'aviation et dites-lui : « Regarde, cette pièce s'appelle un 'empennage' ». Soudain, il peut décrire l'avion avec précision. C'est ce que font les chercheurs avec l'IA : ils lui donnent le vocabulaire des experts pour qu'elle ne se trompe pas.

3. La Réparation (L'Assemblage)

Enfin, ils combinent tout : l'IA découpe l'image, utilise le dictionnaire spécial pour trouver le bon nom, et colle une étiquette sur chaque pièce.

  • Le résultat : Au lieu d'avoir une image floue avec un seul mot générique, on obtient une image où chaque pièce du bateau est identifiée, nommée et expliquée, même si le dessin date de 1600.

🚀 Pourquoi est-ce important ?

Avant ce travail, si un chercheur voulait trouver tous les dessins de « mâts » dans ces milliers de pages, il devait feuilleter manuellement chaque livre pendant des années. C'était comme chercher une aiguille dans une botte de foin.

Avec cette nouvelle méthode :

  • La recherche devient instantanée : On peut demander à l'ordinateur : « Montre-moi tous les bateaux avec une voile carrée » et il trouve tout en quelques secondes.
  • Le savoir est sauvé : Ces connaissances techniques, qui risquaient de rester cachées dans des livres poussiéreux, deviennent accessibles à tout le monde, aux étudiants comme au grand public.

🌟 En Résumé

Ce papier raconte comment les chercheurs ont appris à l'IA à parler la langue des marins d'autrefois. Ils ont combiné la puissance de découpe d'une IA moderne avec la sagesse d'un dictionnaire d'experts. C'est comme si on donnait à un robot un vieux manuel de navigation et qu'on lui apprenait à réparer des bateaux qui n'existent plus, rendant ainsi l'histoire vivante et facile à explorer pour nous tous.