ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Ce papier présente ORIC, un cadre et une nouvelle évaluation (ORIC-Bench) conçus pour analyser et améliorer la capacité des grands modèles vision-langage à reconnaître des objets dans des contextes incongrus, en démontrant que ces situations augmentent les erreurs d'hallucination et en proposant une méthode d'ajustement fin par renforcement visuel pour y remédier.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Grand Théâtre des Images : Quand l'IA perd ses repères

Imaginez que vous avez un ami très intelligent, mais un peu trop confiant. C'est un expert en reconnaissance d'images. Si vous lui montrez une photo de cuisine avec une pomme sur la table, il vous dira immédiatement : « C'est une pomme ! ». Il est excellent.

Mais, si vous lui montrez la même photo et que vous lui demandez : « Y a-t-il un téléviseur dans cette cuisine ? », il va probablement dire « Non » (car il n'y en a pas). Jusqu'ici, tout va bien.

Maintenant, faisons une expérience un peu folle.

  1. Le cas bizarre (Incongruité) : Vous montrez une photo d'un bureau (avec des ordinateurs et des stylos), mais vous y avez collé un train miniature au milieu. Si vous demandez à l'IA : « Y a-t-il un train ici ? », elle risque de dire « Non ». Pourquoi ? Parce que son cerveau (son modèle) est tellement habitué aux bureaux qu'elle ignore le train, même s'il est là ! Elle est aveuglée par le contexte.
  2. Le cas halluciné : Vous montrez une photo d'un terrain de baseball. Vous demandez : « Y a-t-il une balle de baseball ? ». Même si la balle n'est pas là, l'IA va dire « Oui ! ». Pourquoi ? Parce que son cerveau pense : « Ah, un terrain de baseball ? Il doit y avoir une balle ! ». Elle invente la balle parce que le contexte l'y pousse.

C'est exactement ce que les chercheurs appellent l'Incongruité Contextuelle. C'est quand la réalité de l'image (ce qu'on voit) entre en conflit avec ce que l'IA s'attend à voir dans ce type de lieu.

🕵️‍♂️ Le Problème : Les IA sont trop "paresseuses"

Les grands modèles d'IA actuels (comme ceux qui pilotent les robots ou répondent aux questions sur les images) sont très forts, mais ils ont un défaut majeur : ils trichent avec leur cerveau.

Au lieu de regarder attentivement chaque pixel de l'image, ils se fient trop à leurs "stéréotypes".

  • Si c'est une cuisine, ils s'attendent à voir un frigo.
  • Si c'est un parc, ils s'attendent à voir des enfants.

L'article ORIC (Object Recognition in Incongruous Context) dit : « Hé, attendez ! Si vous ne pouvez pas voir un objet qui est là juste parce qu'il est à la mauvaise place, ou si vous voyez un objet qui n'est pas là juste parce qu'il est au bon endroit, alors vous n'êtes pas aussi intelligent que vous le pensez. »

🛠️ La Solution : Le "Banc d'Essai ORIC"

Pour prouver ce problème, les chercheurs ont créé un nouveau jeu, un Banc d'Essai (appelé ORIC-Bench), conçu spécifiquement pour piéger l'IA.

Imaginez que vous voulez tester la vigilance d'un gardien de sécurité.

  • L'ancien test (POPE) : Vous montrez des photos normales et demandez "Y a-t-il un chat ?". L'IA répond bien. C'est trop facile.
  • Le nouveau test (ORIC) :
    1. La stratégie du détective (LLM-guided) : On demande à une IA très intelligente de trouver des objets qui sont réellement dans l'image, mais qui semblent "hors de propos" (comme un poisson dans une salle de bain). On pose la question : "Y a-t-il un poisson ?". L'IA doit résister à l'envie de dire "Non" juste parce que c'est une salle de bain.
    2. La stratégie du magicien (CLIP-guided) : On cherche des objets qui n'existent pas dans l'image, mais qui seraient très plausibles (comme un ballon de foot sur un terrain de foot vide). On demande : "Y a-t-il un ballon ?". L'IA doit résister à l'envie de dire "Oui" juste parce que c'est un terrain de foot.

Résultat ? Même les IA les plus avancées (comme GPT-5 ou les modèles de Google) ont beaucoup de mal. Elles tombent dans le piège de leurs propres préjugés.

🚀 L'Entraînement : Apprendre à l'IA à ne pas tricher

Les chercheurs ne se sont pas contentés de dire "c'est nul". Ils ont voulu réparer le problème.

Ils ont utilisé une technique appelée Visual Reinforcement Fine-Tuning (comme un coach sportif pour l'IA).

  • L'ancienne méthode : On montrait des milliers d'images et on disait "C'est ça, c'est ça".
  • La nouvelle méthode (Visual-RFT) : On donne à l'IA 600 exemples de ces situations "pièges" (le train dans le bureau, la balle manquante sur le terrain). On lui dit : « Regarde bien. Ne devine pas. Si tu ne vois pas l'objet, dis NON, même si le contexte suggère le contraire. Si tu le vois, dis OUI, même si c'est bizarre. »

Grâce à cet entraînement, l'IA a appris à ralentir et à vérifier. Elle a appris à se fier à ce qu'elle voit vraiment, plutôt qu'à ce qu'elle imagine.

🌟 Les Résultats : Une IA plus honnête

Après cet entraînement spécial :

  1. L'IA fait beaucoup moins d'erreurs sur le nouveau test ORIC.
  2. Elle devient aussi plus intelligente sur d'autres tests classiques (comme HallusionBench ou AMBER).
  3. Elle se rapproche davantage de la façon dont un humain raisonnerait : on vérifie les faits avant de faire des suppositions.

En résumé

Cet article nous apprend que les IA sont comme des étudiants qui apprennent par cœur : elles savent que "les bananes sont dans la cuisine", mais elles oublient de regarder si la banane est vraiment là.

ORIC est le test qui les force à ouvrir les yeux. Il montre que pour rendre les robots et les assistants virtuels plus fiables (surtout pour des tâches importantes comme la conduite autonome ou la médecine), il faut les entraîner à gérer les situations bizarres et imprévues, et non pas seulement les situations parfaites et logiques.

C'est un pas de géant vers des IA qui ne se contentent pas de deviner, mais qui observent vraiment.