ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un amigo muy inteligente, pero un poco ingenuo, llamado LVLM (un Modelo de Lenguaje y Visión Grande). Este amigo es increíble describiendo fotos y respondiendo preguntas sobre lo que ve. Si le muestras una foto de una cocina, te dirá: "¡Veo una nevera, un horno y un gato!". Es muy bueno cuando las cosas están en su lugar habitual.

Pero, ¿qué pasa si le muestras una foto de una cocina donde, por alguna razón extraña, hay un tren en medio de la encimera?

Aquí es donde entra el problema que estudia este paper, llamado ORIC.

El Problema: El "Efecto de la Expectativa"

El paper descubre que estos modelos de IA tienen un defecto curioso: confían demasiado en lo que "debería" estar ahí, en lugar de mirar realmente lo que está ahí.

El escenario normal: Si ves un campo de béisbol, tu cerebro (y la IA) espera ver una pelota. Si no hay pelota, la IA podría alucinar y decir: "¡Sí, hay una pelota!" aunque no la vea, porque cree que debería haber una.
El escenario extraño: Si ves una oficina y hay un tren pequeño en el escritorio, la IA podría ignorarlo por completo y decir: "No hay nada raro aquí", porque un tren no debería estar en una oficina.

Es como si el modelo tuviera un "gafas de realidad" que le dicen: "Solo ve lo que es lógico". Cuando la realidad es ilógica (incongruente), el modelo se confunde, ignora objetos reales o inventa cosas que no existen.

La Solución: El "Entrenamiento de Choque" (ORIC)

Los autores crearon un nuevo sistema de prueba llamado ORIC (Reconocimiento de Objetos en Contextos Incongruentes). Imagina que ORIC es un entrenador de boxeo que quiere preparar a la IA para pelear en situaciones extrañas.

En lugar de mostrarle fotos normales, el entrenador hace dos cosas:

El "Detective Lógico" (Muestreo guiado por LLM): Le pide a una IA muy avanzada que busque objetos que sí están en la foto, pero que son tan extraños para ese lugar que la IA principal probablemente los ignorará.
- Ejemplo: "Mira esta foto de una playa. ¿Ves un microondas enterrado en la arena? ¡Sí, está ahí! Pero es tan raro que la IA principal lo ignorará."
El "Ilusionista" (Muestreo guiado por CLIP): Busca objetos que no están en la foto, pero que son tan plausibles para ese lugar que la IA principal probablemente los inventará.
- Ejemplo: "Mira esta foto de una cancha de béisbol vacía. La IA probablemente dirá: '¡Hay una pelota!'. Pero no, no hay ninguna. ¡Es una trampa!"

Los Resultados: ¡La IA se cae de la silla!

Cuando probaron a 18 de las IAs más famosas del mundo (incluyendo a GPT-5 y otras potentes) con este nuevo entrenamiento:

En fotos normales: Eran geniales (95-100% de acierto).
En fotos "incongruentes" (ORIC): ¡Su rendimiento se desplomó! Muchas fallaron estrepitosamente, ignorando objetos reales o inventando fantasmas.

Esto demuestra que, aunque son muy inteligentes, no son realmente "conscientes" de lo que ven; solo están adivinando basándose en lo que es "normal".

El Remedio: Entrenamiento con Refuerzo Visual

La parte más emocionante es cómo arreglaron el problema. No les dieron más fotos normales. En su lugar, usaron una técnica llamada Visual-RFT (Ajuste Fino con Refuerzo Visual).

Imagina que le dices a la IA:

"Oye, cuando veas un tren en una oficina, no asumas que no está. Mira de verdad. Si hay un tren, di 'Sí'. Si no hay pelota en el béisbol, di 'No'. Si te equivocas, te castigo; si miras de verdad, te premio."

Después de entrenar a una de estas IAs (Qwen3-VL) con solo 600 ejemplos de estas situaciones extrañas:

Mejoró mucho en las pruebas de situaciones raras.
Mejoró también en pruebas normales y en otras tareas de razonamiento.
Empezó a pensar más como un humano: "Espera, esto es raro, déjame mirar con más atención" en lugar de "Esto es una oficina, así que no hay trenes".

En Resumen

El paper nos dice que las IAs visuales actuales son como estudiantes que memorizan el libro de texto pero no saben aplicar la lógica en la vida real. Si les preguntas algo obvio, responden perfecto. Pero si les presentas una situación extraña (un tren en una cocina), se confunden.

Los autores crearon un "examen de trampa" (ORIC) para encontrar estos fallos y luego enseñaron a la IA a dudar de sus propias expectativas y a mirar de verdad. Esto es un gran paso para hacer que los robots y asistentes de IA sean más seguros y confiables en el mundo real, donde las cosas a veces ocurren fuera de lo común.

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

El Problema: El "Efecto de la Expectativa"

La Solución: El "Entrenamiento de Choque" (ORIC)

Los Resultados: ¡La IA se cae de la silla!

El Remedio: Entrenamiento con Refuerzo Visual

En Resumen

1. Problema Identificado

2. Metodología: El Framework ORIC

A. Construcción de Datos (Dos Estrategias Complementarias)

B. ORIC-Bench

C. Mitigación: Visual Reinforcement Fine-Tuning (Visual-RFT)

3. Resultados Clave

Evaluación de Modelos (18 LVLMs y 2 Detectores)

Efectividad de Visual-RFT

4. Contribuciones Principales

5. Significado e Impacto

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

El Problema: El "Efecto de la Expectativa"

La Solución: El "Entrenamiento de Choque" (ORIC)

Los Resultados: ¡La IA se cae de la silla!

El Remedio: Entrenamiento con Refuerzo Visual

En Resumen

1. Problema Identificado

2. Metodología: El Framework ORIC

A. Construcción de Datos (Dos Estrategias Complementarias)

B. ORIC-Bench

C. Mitigación: Visual Reinforcement Fine-Tuning (Visual-RFT)

3. Resultados Clave

Evaluación de Modelos (18 LVLMs y 2 Detectores)

Efectividad de Visual-RFT

4. Contribuciones Principales

5. Significado e Impacto

Más como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers