3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

El artículo presenta 3DMedAgent, un agente unificado que habilita a modelos de lenguaje multimodal 2D para realizar análisis médicos 3D mediante la descomposición progresiva de tareas complejas y el uso de una memoria estructurada, superando así las limitaciones de los enfoques existentes y logrando un rendimiento superior en más de 40 tareas de análisis de tomografía computarizada.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

El artículo presenta OVerSeeC, un marco modular de cero disparos que combina modelos de lenguaje y segmentación de visión abierta para generar mapas de costos globales adaptativos a misiones a partir de imágenes satelitales y descripciones en lenguaje natural, permitiendo la planificación de rutas para entidades y reglas desconocidas sin ontologías predefinidas.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

ABD: Default Exception Abduction in Finite First Order Worlds

Este artículo presenta ABD, un benchmark para la abducción de excepciones por defecto en mundos finitos de primer orden, que evalúa la capacidad de los modelos de lenguaje para generar fórmulas que restauran la satisfacibilidad manteniendo la parsimonia, revelando mediante verificación SMT y pruebas en diez modelos avanzados brechas significativas en la generalización y la economía de las excepciones.

Serafim Batzoglou2026-03-10✓ Author reviewed 💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Este artículo introduce el nuevo paradigma de generalización de dominio de vocabulario abierto en segmentación semántica (OVDG-SS) para entornos urbanos, presentando un primer benchmark y proponiendo el mecanismo S2-Corr para mitigar las distorsiones en las correlaciones texto-imagen causadas por cambios de dominio y mejorar la robustez en escenarios no vistos.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

SKYLIGHT: A Scalable Hundred-Channel 3D Photonic In-Memory Tensor Core Architecture for Real-time AI Inference

Este artículo presenta SKYLIGHT, una arquitectura escalable de núcleo tensorial fotónico en memoria de 3D con cien canales que supera las limitaciones de escalabilidad y fiabilidad existentes para lograr una inferencia de IA en tiempo real altamente eficiente energéticamente, capaz de realizar actualizaciones de pesos in situ y superar el rendimiento por vatio de las GPU más avanzadas.

Meng Zhang, Ziang Yin, Nicholas Gangi, Alexander Chen, Brett Bamfo, Tianle Xu, Jiaqi Gu, Zhaoran Rena Huang2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

El artículo presenta UniMatch, un marco de aprendizaje profundo que establece correspondencias densas semánticas entre formas 3D no isométricas de diferentes categorías mediante un enfoque de dos etapas que combina segmentación semántica agnóstica a la clase, orientación mediante modelos de lenguaje multimodal y un esquema de aprendizaje contrastivo basado en rangos.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

Why iCloud Fails: The Category Mistake of Cloud Synchronization

El documento argumenta que iCloud falla al integrar herramientas de desarrollo y copias de seguridad debido a un error categórico fundamental: proyectar un grafo causal distribuido sobre una cadena temporal lineal bajo suposiciones de "solo hacia adelante en el tiempo", un problema estructural que, al igual que el parpadeo de enlaces en redes, provoca un colapso epistémico que solo puede resolverse mediante semánticas transaccionales como las de Open Atomic Ethernet, las cuales alinean el comportamiento del protocolo con la realidad física.

Paul Borrill2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

InfScene-SR es un enfoque de superresolución basado en difusión que utiliza la fusión de corrección de varianza y la corrección de varianza desacoplada espacialmente para lograr una superresolución de imágenes de tamaño arbitrario sin costuras ni inconsistencias espaciales, eliminando así los límites de memoria y permitiendo inferencia distribuida eficiente.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Este trabajo presenta un marco iterativo y sin entrenamiento que mejora el razonamiento multimodal en modelos de visión y lenguaje grandes mediante la supervisión de cada paso de razonamiento con evidencia visual dinámica, reduciendo así las alucinaciones y aumentando la precisión sin necesidad de reentrenamiento.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

El artículo presenta ARLArena, un marco unificado para analizar la estabilidad en el aprendizaje por refuerzo agéntico (ARL), y propone SAMPO, un método de optimización que garantiza un entrenamiento estable y de alto rendimiento en diversas tareas.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

El artículo presenta EmoOmni, un marco unificado que mejora la comprensión y expresión emocional en modelos de lenguaje multimodales mediante la introducción de una Cadena de Pensamiento Emocional (E-CoT), junto con un conjunto de datos anotados y una nueva evaluación para abordar las limitaciones actuales en escenarios del mundo real.

Wenjie Tian, Zhixian Zhao, Jingbin Hu, Huakang Chen, Haohe Liu, Binshen Mu, Lei Xie2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Este artículo introduce el concepto de "investigación de ambiente" (vibe researching) mediante agentes de IA equipados con habilidades especializadas, argumentando que, aunque estos sistemas pueden automatizar gran parte del proceso investigativo, su delegación óptima depende de una frontera cognitiva basada en la codificabilidad y el conocimiento tácito, lo que plantea riesgos de estratificación y una crisis pedagógica que requieren principios de uso responsable.

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

El estudio descompone la discrepancia entre médicos en la evaluación de IA médica, revelando que la mayor parte de la varianza es estructural y no explicada por factores observables, aunque la incertidumbre reducible (como la falta de contexto) duplica las probabilidades de desacuerdo, lo que sugiere que mejorar el diseño de las evaluaciones para cerrar brechas de información podría reducir el conflicto en casos no inherentemente ambiguos.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

WISER es un marco de recuperación de imágenes compuestas sin entrenamiento que supera las limitaciones de los métodos existentes mediante una búsqueda más amplia, un pensamiento más profundo y una fusión adaptativa que unifica las búsquedas basadas en texto e imagen para lograr un rendimiento superior en diversos escenarios.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs