SVBench: Evaluation of Video Generation Models on Social Reasoning

SVBench es el primer benchmark diseñado para evaluar la capacidad de razonamiento social de los modelos de generación de video, demostrando mediante una evaluación a gran escala que, aunque estos sistemas han mejorado en realismo visual, aún carecen de la comprensión psicológica y causal necesaria para generar comportamientos socialmente coherentes.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Este trabajo presenta Cosmos-H-Surgical, un modelo de mundo que aprovecha videos quirúrgicos no etiquetados y un modelo de dinámica inversa para generar datos sintéticos de acción-observación, permitiendo entrenar políticas de robots quirúrgicos que superan a las basadas únicamente en demostraciones reales.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

El artículo presenta AFTER, un método que mitiga las alucinaciones de objetos en los modelos de lenguaje y visión grandes mediante la edición adaptativa de activaciones guiada por hechos, combinando la dirección de activación aumentada con hechos y la optimización de desplazamiento adaptativa a la consulta para corregir los sesgos lingüísticos y mejorar la precisión factual.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

Este artículo propone dos marcos basados en representaciones neuronales implícitas (INR) para lograr un análisis volumétrico denso y agnóstico a la resolución de imágenes OCT retinianas, permitiendo la interpolación entre cortes B y la creación de un atlas retiniano generalizable que supera las limitaciones de los métodos tradicionales ante la anisotropía de los datos clínicos.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Este artículo presenta OODEval, un nuevo benchmark y métricas unificadas para evaluar la capacidad de diseño orientado a objetos de 29 modelos de lenguaje grande, revelando que, aunque algunos modelos alcanzan un rendimiento cercano al de estudiantes universitarios, aún presentan deficiencias semánticas significativas y están muy por debajo del nivel de los diseñadores humanos expertos.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING es un marco eficiente de reconstrucción en tiempo real que utiliza una representación híbrida desacoplada de primitivas geométricas explícitas y gaussianas neuronales para lograr simultáneamente alta calidad de renderizado y geometría precisa en secuencias de imágenes monoculares.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Esta investigación demuestra que el orden de evaluación en las reseñas en línea (calificación antes o después del texto) polariza las calificaciones de los consumidores mediante un mecanismo de heurística afectiva y esfuerzo cognitivo, donde la secuencia "calificación primero" amplifica las puntuaciones extremas según la calidad del servicio y el tipo de producto, un hallazgo respaldado por datos secundarios de plataformas como Yelp y Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

El artículo presenta Paracosm, un método de recuperación de imágenes compuestas sin entrenamiento ni ajuste (zero-shot) que supera a los enfoques actuales al generar directamente una "imagen mental" sintética mediante un modelo multimodal grande para crear un "paracosmos" de coincidencia, cerrando así la brecha entre las consultas multimodales y las imágenes de la base de datos.

Tong Wang, Yunhan Zhao, Shu Kong2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

Este artículo analiza empíricamente la escasa definición y ejemplificación del concepto de trabajo "aburrido, sucio y peligroso" (DDD) en la literatura robótica, revisa la literatura de ciencias sociales para ofrecer definiciones claras y propone un marco para que la comunidad considere el contexto laboral y el impacto de la robótica en el empleo humano.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent es un sistema de inferencia ágil y consciente del programa que unifica la gestión de recursos heterogéneos mediante la abstracción de flujos de trabajo como "programas LLM", logrando mejoras significativas en el rendimiento y la eficiencia de memoria en comparación con los sistemas existentes.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ es un marco de prueba de ropa virtual universal y sin entrenamiento que aborda desafíos de alineación y coherencia mediante morfología de prendas estructurada, guía de pose principal y costura de límites continua, logrando un rendimiento superior en diversos escenarios y soportando casos de múltiples prendas, personas y personajes de anime.

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs

Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

El marco Similarity-as-Evidence (SaE) calibra las predicciones sobreconfiadas de los Modelos Visuales-Linguísticos mediante una cabeza de evidencia de similitud que parametriza una distribución Dirichlet, permitiendo una selección de muestras más interpretable y eficiente en etiquetas para el aprendizaje activo en imágenes médicas al priorizar casos de alta vacuidad y disonancia.

Zhuofan Xie, Zishan Lin, Jinliang Lin, Jie Qi, Shaohua Hong, Shuo Li2026-03-12💻 cs

SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking

El artículo presenta SIMSPINE, un marco de simulación consciente de la biomecánica y un nuevo conjunto de datos abierto que, al generar 2,14 millones de anotaciones 3D de vértebras a partir de modelos musculoesqueléticos, establece el primer benchmark unificado para la estimación de movimientos de la columna vertebral basada en visión por computadora, logrando mejoras significativas en el estado del arte.

Muhammad Saif Ullah Khan, Didier Stricker2026-03-12💻 cs

Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

El artículo presenta InterNeg, un marco que mejora la detección de distribuciones fuera de contexto en modelos de visión y lenguaje al resolver inconsistencias en el uso de distancias intra-modales mediante la selección coherente de textos negativos y la generación dinámica de embeddings textuales a partir de imágenes OOD, logrando así un rendimiento superior en benchmarks estándar.

Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang2026-03-12💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artículo presenta la primera evaluación exhaustiva del ajuste fino eficiente en parámetros (PEFT) para el análisis de código multitarea, demostrando que un único módulo PEFT compartido puede igualar o superar al ajuste completo con una reducción drástica de costos computacionales y de almacenamiento, aunque su éxito depende críticamente de factores como la estabilidad de las tareas, la arquitectura del modelo y la calidad de los datos.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs