cs artículos | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

El artículo presenta OmniEarth, un nuevo benchmark diseñado para evaluar de manera sistemática y rigurosa las capacidades de percepción, razonamiento y robustez de los modelos de visión y lenguaje en tareas de observación terrestre, revelando mediante una prueba ciega y un conjunto de datos diverso que los modelos actuales aún enfrentan desafíos significativos en contextos geoespaciales complejos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

El artículo presenta MORE-R1, un modelo innovador que utiliza aprendizaje por refuerzo y un proceso de entrenamiento en dos etapas para dotar a los Grandes Modelos Visuales-Lingüísticos de capacidades de razonamiento paso a paso y lograr un rendimiento superior en la tarea de extracción de relaciones multimodales entre objetos y entidades.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

El artículo presenta StyleVLA, un modelo de visión-lenguaje-acción (VLA) basado en física y entrenado con un nuevo conjunto de datos a gran escala, que supera a los modelos propietarios y de última generación al generar trayectorias de conducción autónoma que no solo evitan colisiones, sino que también se adaptan a diversos estilos de conducción y garantizan la viabilidad cinemática.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes BetzWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artículo presenta un marco de generación de imágenes a partir de bocetos consciente de los componentes que utiliza una arquitectura de dos etapas con codificación de autoatención y fusión de puertas preservadora de coordenadas para superar las limitaciones de los modelos existentes, logrando resultados superiores en fidelidad y coherencia visual en diversos dominios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

El artículo presenta "Diagonal Distillation", un método de destilación asimétrica que aprovecha el contexto temporal y modela el flujo óptico para generar videos autoregresivos de alta calidad en tiempo real, logrando una aceleración de 277,3 veces y mitigando la acumulación de errores en secuencias largas.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Este artículo presenta el modelo de artefactos AM4RRE como una propuesta para integrar la ingeniería de requisitos regulatorios en el ciclo de vida del desarrollo de software, con el objetivo de lograr un cumplimiento normativo sistemático y basado en el diseño que aborde la complejidad de la coordinación entre múltiples perspectivas.

Oleksandr KosenkovWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

El artículo presenta SurgFed, un marco de aprendizaje federado multi-tarea que utiliza guías lingüísticas para la selección de canales y la agregación hiperparamétrica, mejorando la segmentación de escenas quirúrgicas y la estimación de profundidad en entornos clínicos heterogéneos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

El artículo presenta EmbC-Test, un pipeline basado en RAG y modelos de lenguaje grande que automatiza la generación de pruebas para software embebido en C, logrando una corrección sintáctica del 100 %, una tasa de éxito del 85 % en validación y reduciendo hasta un 66 % el tiempo de prueba manual.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo OksanenWed, 11 Ma💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Este artículo presenta TalisMan2.0, una herramienta de verificación algebraica híbrida que utiliza razonamiento multimodular en paralelo para evitar el uso de enteros grandes y mejorar significativamente la eficiencia en la verificación de circuitos aritméticos.

Clemens Hofstadler, Daniela Kaufmann, Chen ChenWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

El artículo presenta Context-Nav, un enfoque sin entrenamiento específico que mejora la navegación de instancias mediante la integración de descripciones contextuales completas en la exploración y la verificación de candidatos a través de un razonamiento espacial 3D consciente de la perspectiva, logrando así un rendimiento superior en entornos 3D complejos.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este trabajo investiga la fiabilidad de los Modelos Visuales-Lingüísticos (VLM) como asistentes de conducción, identificando problemas de inconsistencia y razonamiento temporal limitado, y propone el benchmark FutureVQA junto con un método de ajuste auto-supervisado para mejorar la coherencia y la capacidad de inferencia futura sin necesidad de etiquetas temporales.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Este trabajo presenta RuleSafe, un nuevo benchmark de manipulación articulado con tareas no markovianas de largo alcance, y propone VQ-Memory, una representación temporal compacta basada en VQ-VAE que mejora significativamente la planificación y generalización de modelos de visión-idioma-acción en entornos de simulación complejos.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

El artículo presenta RESBev, un método robusto y plug-and-play que mejora la percepción en vista cenital (BEV) para la conducción autónoma al reformular la recuperación de características corruptas como un problema de predicción semántica latente mediante un modelo de mundo, logrando así una mayor resistencia a degradaciones de sensores y ataques adversarios sin modificar la arquitectura base.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

El artículo presenta DCAU-Net, un nuevo marco de segmentación de imágenes médicas que mejora la precisión y la eficiencia mediante una Atención Cruzada Diferencial para resaltar estructuras discriminativas y reducir la complejidad computacional, junto con una estrategia de Fusión de Características Espacio-Canales para integrar adaptativamente la información semántica y espacial.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Este estudio propone un método impulsado por modelos de lenguaje grande para generar expresiones multimodales dinámicas en agentes pedagógicos de realidad virtual, demostrando mediante experimentos subjetivos que la alineación semántica entre el habla y los gestos mejora significativamente la experiencia de aprendizaje, la participación y la percepción de presencia social.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Este trabajo propone una estrategia de entrenamiento post-inicial basado en aprendizaje por refuerzo, que utiliza una optimización de política grupal adaptada (GRPO) y recompensas híbridas para habilitar la generación intercalada de texto e imágenes en modelos unificados sin depender de grandes conjuntos de datos específicos.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

El artículo presenta NS-VLA, un marco neuro-simbólico que integra un codificador simbólico, un solucionador y aprendizaje por refuerzo en línea para superar las limitaciones de los modelos VLA actuales, logrando una mayor eficiencia de datos, generalización cero-shot y capacidad de exploración en tareas de manipulación robótica.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran LuoWed, 11 Ma💻 cs

Compartmentalization-Aware Automated Program Repair

Este trabajo presenta un marco de reparación automática de programas basado en modelos de lenguaje grande, diseñado específicamente para identificar y corregir vulnerabilidades en las interfaces entre compartimentos de software mediante un ciclo de retroalimentación que integra un fuzzer especializado, técnicas de análisis para dotar de conciencia de compartimentación a los modelos y una validación de parches.

Jia Hu, Youcheng Sun, Pierre OlivierWed, 11 Ma💻 cs

← Anterior Siguiente →