InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

El artículo presenta InstantSfM, un sistema global de Fotogrametría desde el Movimiento (SfM) totalmente nativo de GPU y compatible con PyTorch que integra profundidades métricas como priores para resolver la ambigüedad de escala, logrando una aceleración de hasta 40 veces frente a COLMAP en escenas a gran escala sin sacrificar la precisión de reconstrucción.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

UltraGen es un marco novedoso que permite la generación eficiente y escalable de imágenes ultra de alta resolución (superiores a 8K) mediante una atención local jerárquica con guía global de baja resolución, logrando una reducción de la complejidad computacional a casi lineal, un uso de memoria significativamente menor y una aceleración de más de 10 veces en comparación con los modelos de difusión actuales.

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

El paper presenta REALM, un marco innovador basado en agentes MLLM que realiza segmentación y edición 3D en entornos abiertos sobre representaciones de Gaussian Splatting mediante una estrategia de anclaje espacial de global a local para interpretar instrucciones complejas sin necesidad de un entrenamiento específico extenso.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

El artículo presenta Compiler.next, un compilador basado en búsqueda diseñado para la era de la Ingeniería de Software 3.0 que transforma intenciones humanas en software funcional mediante la optimización dinámica de arquitecturas cognitivas y modelos de IA, democratizando así el desarrollo de software y permitiendo sistemas automatizados, escalables y adaptativos.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. Hassan2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

El artículo presenta EyeAgent, el primer marco de IA agéntica para el soporte de decisiones clínicas en oftalmología, que integra un modelo de lenguaje grande con 53 herramientas validadas para ofrecer diagnósticos interpretables y precisos, mejorando significativamente el rendimiento tanto de los sistemas automatizados como de los oftalmólogos, especialmente los menos experimentados.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

X-WIN: Building Chest Radiograph World Model via Predictive Sensing

El artículo presenta X-WIN, un modelo de mundo para radiografías de tórax que supera las limitaciones de las imágenes 2D al aprender a predecir proyecciones en un espacio latente distilando conocimiento volumétrico de tomografías computarizadas (CT), lo que permite una representación más rica del anatomía 3D y un rendimiento superior en diversas tareas de diagnóstico médico.

Zefan Yang, Ge Wang, James Hendler, Mannudeep K. Kalra, Pingkun Yan2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

El artículo presenta MergeVLA, un modelo agente generalista de visión-lenguaje-acción que supera las limitaciones de fusión de expertos mediante una arquitectura diseñada para la fusión, que utiliza adaptadores LoRA activados de forma dispersa y bloques de atención cruzada para lograr un rendimiento robusto y generalizable en múltiples habilidades y entornos robóticos.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

El artículo presenta AD-R1, un marco de aprendizaje por refuerzo en bucle cerrado que utiliza un Modelo Mundial Imparcial entrenado mediante síntesis contrafactual para predecir con honestidad los peligros y reducir las violaciones de seguridad en la conducción autónoma.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Este artículo presenta algoritmos aleatorizados que mejoran los tiempos de ejecución existentes para calcular aproximaciones de la máxima clique en grafos de discos, logrando tiempos casi lineales para grafos de discos unitarios y esquemas de aproximación parametrizados para grafos con tt radios distintos.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

SVBench es el primer benchmark diseñado para evaluar la capacidad de razonamiento social de los modelos de generación de video, demostrando mediante una evaluación a gran escala que, aunque estos sistemas han mejorado en realismo visual, aún carecen de la comprensión psicológica y causal necesaria para generar comportamientos socialmente coherentes.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Este trabajo presenta Cosmos-H-Surgical, un modelo de mundo que aprovecha videos quirúrgicos no etiquetados y un modelo de dinámica inversa para generar datos sintéticos de acción-observación, permitiendo entrenar políticas de robots quirúrgicos que superan a las basadas únicamente en demostraciones reales.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

El artículo presenta AFTER, un método que mitiga las alucinaciones de objetos en los modelos de lenguaje y visión grandes mediante la edición adaptativa de activaciones guiada por hechos, combinando la dirección de activación aumentada con hechos y la optimización de desplazamiento adaptativa a la consulta para corregir los sesgos lingüísticos y mejorar la precisión factual.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs