cs artículos | Gist.Science

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

El artículo presenta StyleVLA, un modelo de visión-lenguaje-acción (VLA) basado en física y entrenado con un nuevo conjunto de datos a gran escala, que supera a los modelos propietarios y de última generación al generar trayectorias de conducción autónoma que no solo evitan colisiones, sino que también se adaptan a diversos estilos de conducción y garantizan la viabilidad cinemática.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artículo presenta un marco de generación de imágenes a partir de bocetos consciente de los componentes que utiliza una arquitectura de dos etapas con codificación de autoatención y fusión de puertas preservadora de coordenadas para superar las limitaciones de los modelos existentes, logrando resultados superiores en fidelidad y coherencia visual en diversos dominios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

El artículo presenta "Diagonal Distillation", un método de destilación asimétrica que aprovecha el contexto temporal y modela el flujo óptico para generar videos autoregresivos de alta calidad en tiempo real, logrando una aceleración de 277,3 veces y mitigando la acumulación de errores en secuencias largas.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Este artículo presenta el modelo de artefactos AM4RRE como una propuesta para integrar la ingeniería de requisitos regulatorios en el ciclo de vida del desarrollo de software, con el objetivo de lograr un cumplimiento normativo sistemático y basado en el diseño que aborde la complejidad de la coordinación entre múltiples perspectivas.

Oleksandr Kosenkov2026-03-11💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

El artículo presenta SurgFed, un marco de aprendizaje federado multi-tarea que utiliza guías lingüísticas para la selección de canales y la agregación hiperparamétrica, mejorando la segmentación de escenas quirúrgicas y la estimación de profundidad en entornos clínicos heterogéneos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

El artículo presenta EmbC-Test, un pipeline basado en RAG y modelos de lenguaje grande que automatiza la generación de pruebas para software embebido en C, logrando una corrección sintáctica del 100 %, una tasa de éxito del 85 % en validación y reduciendo hasta un 66 % el tiempo de prueba manual.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo Oksanen2026-03-11💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Este artículo presenta TalisMan2.0, una herramienta de verificación algebraica híbrida que utiliza razonamiento multimodular en paralelo para evitar el uso de enteros grandes y mejorar significativamente la eficiencia en la verificación de circuitos aritméticos.

Clemens Hofstadler, Daniela Kaufmann, Chen Chen2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

El artículo presenta Context-Nav, un enfoque sin entrenamiento específico que mejora la navegación de instancias mediante la integración de descripciones contextuales completas en la exploración y la verificación de candidatos a través de un razonamiento espacial 3D consciente de la perspectiva, logrando así un rendimiento superior en entornos 3D complejos.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este trabajo investiga la fiabilidad de los Modelos Visuales-Lingüísticos (VLM) como asistentes de conducción, identificando problemas de inconsistencia y razonamiento temporal limitado, y propone el benchmark FutureVQA junto con un método de ajuste auto-supervisado para mejorar la coherencia y la capacidad de inferencia futura sin necesidad de etiquetas temporales.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Este trabajo presenta RuleSafe, un nuevo benchmark de manipulación articulado con tareas no markovianas de largo alcance, y propone VQ-Memory, una representación temporal compacta basada en VQ-VAE que mejora significativamente la planificación y generalización de modelos de visión-idioma-acción en entornos de simulación complejos.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

El artículo presenta RESBev, un método robusto y plug-and-play que mejora la percepción en vista cenital (BEV) para la conducción autónoma al reformular la recuperación de características corruptas como un problema de predicción semántica latente mediante un modelo de mundo, logrando así una mayor resistencia a degradaciones de sensores y ataques adversarios sin modificar la arquitectura base.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

El artículo presenta DCAU-Net, un nuevo marco de segmentación de imágenes médicas que mejora la precisión y la eficiencia mediante una Atención Cruzada Diferencial para resaltar estructuras discriminativas y reducir la complejidad computacional, junto con una estrategia de Fusión de Características Espacio-Canales para integrar adaptativamente la información semántica y espacial.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Este estudio propone un método impulsado por modelos de lenguaje grande para generar expresiones multimodales dinámicas en agentes pedagógicos de realidad virtual, demostrando mediante experimentos subjetivos que la alineación semántica entre el habla y los gestos mejora significativamente la experiencia de aprendizaje, la participación y la percepción de presencia social.

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Este trabajo propone una estrategia de entrenamiento post-inicial basado en aprendizaje por refuerzo, que utiliza una optimización de política grupal adaptada (GRPO) y recompensas híbridas para habilitar la generación intercalada de texto e imágenes en modelos unificados sin depender de grandes conjuntos de datos específicos.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

El artículo presenta NS-VLA, un marco neuro-simbólico que integra un codificador simbólico, un solucionador y aprendizaje por refuerzo en línea para superar las limitaciones de los modelos VLA actuales, logrando una mayor eficiencia de datos, generalización cero-shot y capacidad de exploración en tareas de manipulación robótica.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo2026-03-11💻 cs

Compartmentalization-Aware Automated Program Repair

Este trabajo presenta un marco de reparación automática de programas basado en modelos de lenguaje grande, diseñado específicamente para identificar y corregir vulnerabilidades en las interfaces entre compartimentos de software mediante un ciclo de retroalimentación que integra un fuzzer especializado, técnicas de análisis para dotar de conciencia de compartimentación a los modelos y una validación de parches.

Jia Hu, Youcheng Sun, Pierre Olivier2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudio presenta un análisis exhaustivo y unificado de diversos métodos de imagen no lineal de tiempo de vuelo (ToF NLOS), estableciendo un marco común de formulación y hardware para evaluar sus similitudes, diferencias y limitaciones de rendimiento, con el objetivo de servir como referencia para comparaciones objetivas en futuras investigaciones.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

Enabling Multi-Client Authorization in Dynamic SSE

El artículo presenta MASSE, un esquema de cifrado buscable simétrico (SSE) dinámico y multiusuario que integra el control de acceso basado en atributos para permitir búsquedas seguras y granulares en la nube sin revelar información sensible al servidor, garantizando además privacidad, revocación eficiente y escalabilidad superior a soluciones existentes como OXT.

Seydina Ousmane Diallo, Maryline Laurent, Nesrine Kaaniche2026-03-11💻 cs

← Anterior Siguiente →