DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

Each language version is independently generated for its own context, not a direct translation.

🏛️ Le Grand Défi : Trouver une aiguille dans une botte de foin... mais dans une botte de foin différente !

Imaginez que vous êtes un détective (un chercheur de brevets) qui doit trouver des idées anciennes (des "antériorités") pour vérifier si une nouvelle invention est vraiment nouvelle.

Le problème, c'est que les inventions modernes sont comme des hybrides.

Une voiture électrique n'est pas juste une voiture (mécanique), c'est aussi un ordinateur (électronique) et une batterie (chimie).
Si vous cherchez des idées pour une voiture électrique en regardant uniquement dans le rayon "Mécanique" de la bibliothèque, vous allez rater les idées géniales venant du rayon "Informatique" ou "Chimie".

C'est ce qu'on appelle le défi "Cross-Domain" (traverser les frontières des domaines). Les systèmes de recherche actuels sont comme des bibliothécaires très stricts : ils cherchent les mots exacts dans le même rayon. Si vous cherchez un mot de chimie dans un livre de mécanique, ils disent "Aucun résultat", même si l'idée est pertinente.

🧪 La Solution : DAPFAM, le nouveau terrain de jeu

Les auteurs de cet article (de l'INSA Strasbourg) ont créé un nouvel outil appelé DAPFAM. C'est une immense base de données de brevets, mais avec une règle spéciale : ils l'ont organisée pour tester spécifiquement la capacité des robots à faire ces liens entre domaines différents.

Voici comment ils ont construit leur "laboratoire" :

1. La "Famille" plutôt que le "Document"

Imaginez qu'une invention est un arbre. Elle peut avoir des branches dans différents pays (USA, Europe, Japon). Au lieu de compter chaque feuille (chaque brevet individuel) séparément, DAPFAM regroupe tout l'arbre en une seule "Famille".

L'analogie : C'est comme si vous ne cherchiez pas "l'arbre" dans un jardin, mais que vous regroupiez toutes les branches de cet arbre en un seul gros bouquet pour éviter de compter la même chose dix fois. Cela rend la recherche plus propre et plus rapide.

2. Le Test de Vérité : "Dans le rayon" vs "Hors du rayon"

C'est le cœur de l'innovation. Ils ont divisé leurs tests en deux catégories :

IN-Domain (Dans le rayon) : Vous cherchez une idée de "médecine" dans des documents de "médecine". C'est facile, comme chercher un livre de cuisine dans la section cuisine.
OUT-Domain (Hors du rayon) : Vous cherchez une idée de "médecine" (ex: un nouveau stéthoscope) mais la réponse se trouve dans un document de "robotique" (ex: un bras robotique). C'est là que ça coince pour les systèmes actuels.

🤖 Ce qu'ils ont découvert (Les résultats surprenants)

Ils ont fait tester 249 combinaisons différentes de robots de recherche (certains utilisent des mots-clés simples, d'autres de l'intelligence artificielle complexe) pour voir qui était le meilleur. Voici les leçons principales :

1. L'IA n'est pas toujours la reine (surtout quand on change de domaine)

L'analogie : Imaginez un expert en littérature (l'IA) et un expert en dictionnaire (le système simple).
Résultat : Quand on cherche dans le même domaine, l'expert en littérature (IA) est brillant. Mais dès qu'on lui demande de chercher dans un domaine qu'il ne connaît pas bien (Cross-Domain), il se perd. Il essaie de deviner le sens, mais il se trompe.
Le gagnant inattendu : Le système simple qui cherche les mots exacts (BM25) est beaucoup plus robuste quand on change de domaine. Il ne devine pas, il cherche ce qui est écrit.

2. La taille compte : Lire des chapitres entiers ou des paragraphes ?

L'analogie : Voulez-vous lire un roman entier pour trouver une phrase précise, ou voulez-vous que le robot vous lise juste le paragraphe pertinent ?
Résultat : Découper les longs documents de brevets en petits morceaux (des "passages") fonctionne toujours mieux. C'est comme chercher une aiguille dans un tas de foin : si vous divisez le tas en petits paquets, vous la trouvez plus vite.

3. Le mélange parfait : La fusion RRF

L'analogie : C'est comme avoir deux conseillers. L'un est un expert en mots (le système simple), l'autre est un expert en sens (l'IA).
Résultat : Quand on combine leurs avis (une technique appelée "Fusion Réciproque"), le résultat est meilleur que l'un ou l'autre seul. C'est la stratégie la plus équilibrée : elle est rapide, peu coûteuse en énergie, et très efficace.

🏁 En résumé : Pourquoi c'est important ?

Avant DAPFAM, on ne savait pas vraiment si nos systèmes de recherche pouvaient gérer les inventions complexes qui mélangent plusieurs technologies.

Grâce à ce nouveau jeu de données :

On sait maintenant que les systèmes actuels échouent souvent quand il faut faire le lien entre deux domaines très différents (comme la médecine et l'informatique).
On a prouvé qu'il ne faut pas toujours utiliser l'IA la plus complexe ; parfois, un mélange intelligent de méthodes simples et complexes fonctionne mieux.
On a donné aux chercheurs une boîte à outils gratuite pour construire de meilleurs moteurs de recherche pour les brevets, capables de comprendre que "un robot chirurgical" appartient à la fois à la robotique et à la chirurgie.

En une phrase : DAPFAM est un nouveau terrain de jeu qui nous force à améliorer nos robots de recherche pour qu'ils ne soient plus des spécialistes d'un seul métier, mais de véritables généralistes capables de faire des liens entre tous les domaines de la technologie.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : La Défi de la Recherche Transversale de Brevets

La recherche d'antériorité (prior-art retrieval) est cruciale pour l'innovation et l'examen des brevets. Cependant, elle devient extrêmement difficile lorsque les inventions pertinentes traversent les frontières technologiques (par exemple, un dispositif médical intégrant des algorithmes logiciels).

Limites des benchmarks existants : Les jeux de données actuels (CLEF-IP, TREC Patent, MAREC, BigPatent) ne distinguent pas explicitement les scénarios de recherche intra-domaine (mêmes classifications) et inter-domaine (classifications différentes). Ils manquent souvent d'agrégation au niveau de la famille de brevets (réduisant la redondance internationale) et de partitions de domaine systématiques.
Conséquence : Il est impossible d'évaluer rigoureusement comment les systèmes de récupération d'information (RI) gèrent les décalages de domaine (domain shift), où les vocabulaires et les terminologies techniques divergent fortement.

2. Méthodologie et Construction du Dataset DAPFAM

Les auteurs proposent DAPFAM, un benchmark au niveau de la famille de brevets, conçu avec une architecture en trois étapes (Bronze, Argent, Or) pour garantir la qualité et la reproductibilité.

A. Construction des Données

Source : Données extraites de Lens.org (couvrant USPTO, EPO, WIPO, etc.).
Filtrage et Agrégation :
- Sélection de familles de brevets avec textes complets en anglais.
- Agrégation au niveau de la famille (fusion du titre, résumé, revendications et description) pour unifier la représentation de l'invention et réduire la redondance internationale.
- Critères de sélection : Date de priorité $\ge$ 2000 et au moins 100 citations (forward/backward) pour assurer un réseau de pertinence riche.
Échantillonnage :
- 1 247 requêtes (families) équilibrées sur différents codes IPC (Classification Internationale des Brevets).
- 45 336 documents cibles (families), incluant des positifs (cités) et des négatifs (échantillonnés aléatoirement).
Étiquetage de Pertinence et de Domaine :
- Pertinence : Binaire (1 si cité, 0 sinon), basée sur les liens de citation des examinateurs.
- Partition de Domaine (Innovation clé) : Basée sur le chevauchement des codes IPC3 (les 3 premiers caractères du code IPC).
  - IN-domaine : La requête et la cible partagent au moins un code IPC3.
  - OUT-domaine : Aucun code IPC3 partagé (défi de recherche transversale).

B. Protocole d'Évaluation Expérimentale

Les auteurs ont mené 249 configurations expérimentales contrôlées pour explorer l'espace de conception sans biaiser les résultats par le choix de modèles multiples :

Backends : BM25 (lexique) vs. Encodage dense (Transformers multilingues, Snowflake Arctic Embed).
Granularité : Document (texte consolidé) vs. Passage (fenêtres de texte de 64 à 8192 tokens).
Représentations : Combinaisons de champs (Titre, Résumé, Revendications, Texte complet).
Stratégies d'agrégation (pour les passages) : maxP (score max), avgP (moyenne), sumP (somme), avg_top3 (moyenne des 3 meilleurs).
Fusion Hybride : Reciprocal Rank Fusion (RRF) pour combiner les scores lexicaux et denses.
Métriques : NDCG@100 et Recall@100.

3. Résultats Clés

A. Le "Fossé" de Domaine (Domain Gap)

Performance Globale : Les performances en OUT-domaine sont environ 5 fois inférieures à celles en IN-domaine, quelle que soit la configuration.
Lexique vs. Dense :
- En IN-domaine, les méthodes denses surpassent nettement BM25.
- En OUT-domaine, l'avantage des méthodes denses disparaît presque totalement (écart négligeable). Les représentations sémantiques apprises échouent à généraliser entre des domaines technologiques disjoints, tandis que le matching lexical (BM25) reste plus robuste grâce aux chevauchements de termes techniques précis.

B. Granularité et Longueur de Passage

Passage vs. Document : La recherche au niveau du passage surpasse systématiquement la recherche au niveau du document pour les deux backends.
Optimisation de la longueur :
- Méthodes denses : Performances optimales autour de 1024-2048 tokens (au-delà, le bruit dilue la cohérence sémantique).
- BM25 : Bénéficie de passages plus longs (4096+ tokens) pour maximiser la couverture terminologique.

C. Stratégies d'Agrégation

IN-domaine : La stratégie avg_top3 (moyenne des 3 meilleurs passages) fonctionne mieux pour les méthodes denses, exploitant la densité de signaux pertinents.
OUT-domaine : La stratégie maxP (score du meilleur passage) est supérieure pour tous les backends, car elle évite la dilution du signal par du contenu non pertinent, ce qui est critique lorsque les correspondances sont rares.

D. Fusion Hybride (RRF)

La fusion par Reciprocal Rank Fusion (RRF) apporte des gains constants.
Fusion "Document-only" : Offre le meilleur compromis efficacité/coût. Elle améliore significativement les performances (presque 3x plus de gain que la fusion passage) sans le coût computationnel de l'indexation par passages.
Paramètre K : Un K=30 est optimal pour les systèmes hybrides passage-capables, et K=60 pour les systèmes document-only.

4. Contributions Principales

Premier Benchmark Familial avec Partition de Domaine : DAPFAM est le premier jeu de données de brevets à niveau familial avec des partitions explicites IN/OUT basées sur le chevauchement IPC3, permettant une mesure directe de la difficulté de la recherche transversale.
Analyse Empirique Systématique : Au lieu de comparer des modèles, l'étude varie les choix de conception (granularité, agrégation, fusion), fournissant des lignes directrices pratiques pour les ingénieurs.
Démonstration de la Limitation des Méthodes Denses : Mise en évidence du fait que les méthodes denses perdent leur avantage en contexte de recherche inter-domaine, soulignant la nécessité d'approches hybrides ou lexicales pour l'antériorité transversale.

5. Signification et Impact

Pour la Recherche : DAPFAM comble un vide méthodologique en fournissant un testbed reproductible et "conscient du calcul" (compute-aware) pour développer des systèmes de RI plus robustes face à la diversité technologique.
Pour la Pratique :
- Les systèmes de recherche de brevets doivent intégrer des stratégies de fusion hybride (RRF) pour compenser les échecs sémantiques en contexte inter-domaine.
- L'agrégation au niveau de la famille et la segmentation en passages sont essentielles pour gérer la longueur et la complexité des brevets modernes.
- La solution "Document-only RRF" est recommandée pour les déploiements contraints en ressources, offrant un excellent compromis performance/coût.

En résumé, DAPFAM révèle que la recherche d'antériorité transversale reste un défi fondamental non résolu par les seules méthodes sémantiques modernes, et propose des stratégies d'ingénierie concrètes (agrégation maxP, fusion RRF) pour y faire face.