cs artículos | Gist.Science

X-WIN: Building Chest Radiograph World Model via Predictive Sensing

El artículo presenta X-WIN, un modelo de mundo para radiografías de tórax que supera las limitaciones de las imágenes 2D al aprender a predecir proyecciones en un espacio latente distilando conocimiento volumétrico de tomografías computarizadas (CT), lo que permite una representación más rica del anatomía 3D y un rendimiento superior en diversas tareas de diagnóstico médico.

Zefan Yang, Ge Wang, James Hendler, Mannudeep K. Kalra, Pingkun Yan2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

El artículo presenta MergeVLA, un modelo agente generalista de visión-lenguaje-acción que supera las limitaciones de fusión de expertos mediante una arquitectura diseñada para la fusión, que utiliza adaptadores LoRA activados de forma dispersa y bloques de atención cruzada para lograr un rendimiento robusto y generalizable en múltiples habilidades y entornos robóticos.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

El artículo presenta COVec, un marco de vectorización consciente de la iluminación que, inspirado en el principio de claroscuro, introduce por primera vez la descomposición de imágenes intrínsecas en el dominio vectorial para lograr una mayor fidelidad visual y editabilidad en imágenes del mundo real.

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

El artículo presenta AD-R1, un marco de aprendizaje por refuerzo en bucle cerrado que utiliza un Modelo Mundial Imparcial entrenado mediante síntesis contrafactual para predecir con honestidad los peligros y reducir las violaciones de seguridad en la conducción autónoma.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

El artículo presenta TEAR, un marco de red teaming automatizado y consciente del tiempo diseñado para identificar riesgos de seguridad en modelos de texto a video mediante la explotación de dinámicas temporales, logrando una tasa de éxito de ataque superior al 80% en diversos sistemas.

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Este artículo presenta algoritmos aleatorizados que mejoran los tiempos de ejecución existentes para calcular aproximaciones de la máxima clique en grafos de discos, logrando tiempos casi lineales para grafos de discos unitarios y esquemas de aproximación parametrizados para grafos con $t$ radios distintos.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder

Este trabajo presenta AEIC, un marco de compresión de imágenes asimétrico que utiliza un codificador ligero y un decodificador basado en difusión de un solo paso para lograr una alta fidelidad perceptual a tasas de bits ultra-bajas, superando a los métodos existentes en eficiencia de codificación y rendimiento.

Tianyu Zhang, Dong Liu, Chang Wen Chen2026-03-12💻 cs

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

Este trabajo presenta un sistema de control basado en aprendizaje por refuerzo para un manipulador aéreo subactuado ligero, que logra un control preciso de la pose del efector final en seis grados de libertad y una operación robusta ante perturbaciones externas mediante la combinación de un agente PPO con controladores INDI y PID.

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

SVBench es el primer benchmark diseñado para evaluar la capacidad de razonamiento social de los modelos de generación de video, demostrando mediante una evaluación a gran escala que, aunque estos sistemas han mejorado en realismo visual, aún carecen de la comprensión psicológica y causal necesaria para generar comportamientos socialmente coherentes.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Este trabajo presenta Cosmos-H-Surgical, un modelo de mundo que aprovecha videos quirúrgicos no etiquetados y un modelo de dinámica inversa para generar datos sintéticos de acción-observación, permitiendo entrenar políticas de robots quirúrgicos que superan a las basadas únicamente en demostraciones reales.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

El artículo presenta AFTER, un método que mitiga las alucinaciones de objetos en los modelos de lenguaje y visión grandes mediante la edición adaptativa de activaciones guiada por hechos, combinando la dirección de activación aumentada con hechos y la optimización de desplazamiento adaptativa a la consulta para corregir los sesgos lingüísticos y mejorar la precisión factual.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

Este artículo propone dos marcos basados en representaciones neuronales implícitas (INR) para lograr un análisis volumétrico denso y agnóstico a la resolución de imágenes OCT retinianas, permitiendo la interpolación entre cortes B y la creación de un atlas retiniano generalizable que supera las limitaciones de los métodos tradicionales ante la anisotropía de los datos clínicos.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Este artículo presenta OODEval, un nuevo benchmark y métricas unificadas para evaluar la capacidad de diseño orientado a objetos de 29 modelos de lenguaje grande, revelando que, aunque algunos modelos alcanzan un rendimiento cercano al de estudiantes universitarios, aún presentan deficiencias semánticas significativas y están muy por debajo del nivel de los diseñadores humanos expertos.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING es un marco eficiente de reconstrucción en tiempo real que utiliza una representación híbrida desacoplada de primitivas geométricas explícitas y gaussianas neuronales para lograr simultáneamente alta calidad de renderizado y geometría precisa en secuencias de imágenes monoculares.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Esta investigación demuestra que el orden de evaluación en las reseñas en línea (calificación antes o después del texto) polariza las calificaciones de los consumidores mediante un mecanismo de heurística afectiva y esfuerzo cognitivo, donde la secuencia "calificación primero" amplifica las puntuaciones extremas según la calidad del servicio y el tipo de producto, un hallazgo respaldado por datos secundarios de plataformas como Yelp y Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

El artículo presenta Paracosm, un método de recuperación de imágenes compuestas sin entrenamiento ni ajuste (zero-shot) que supera a los enfoques actuales al generar directamente una "imagen mental" sintética mediante un modelo multimodal grande para crear un "paracosmos" de coincidencia, cerrando así la brecha entre las consultas multimodales y las imágenes de la base de datos.

Tong Wang, Yunhan Zhao, Shu Kong2026-03-12💻 cs

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

El artículo presenta KVSmooth, un método gratuito y plug-and-play que mitiga las alucinaciones en modelos de lenguaje multimodal grandes mediante un suavizado adaptativo de los estados ocultos guiado por la entropía de la atención, mejorando significativamente la precisión y el recall sin necesidad de reentrenamiento.

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

Este artículo analiza empíricamente la escasa definición y ejemplificación del concepto de trabajo "aburrido, sucio y peligroso" (DDD) en la literatura robótica, revisa la literatura de ciencias sociales para ofrecer definiciones claras y propone un marco para que la comunidad considere el contexto laboral y el impacto de la robótica en el empleo humano.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent es un sistema de inferencia ágil y consciente del programa que unifica la gestión de recursos heterogéneos mediante la abstracción de flujos de trabajo como "programas LLM", logrando mejoras significativas en el rendimiento y la eficiencia de memoria en comparación con los sistemas existentes.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ es un marco de prueba de ropa virtual universal y sin entrenamiento que aborda desafíos de alineación y coherencia mediante morfología de prendas estructurada, guía de pose principal y costura de límites continua, logrando un rendimiento superior en diversos escenarios y soportando casos de múltiples prendas, personas y personajes de anime.

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs

← Anterior Siguiente →