cs articles | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Ce papier présente OmniEarth, un nouveau benchmark complet évaluant les modèles vision-langage dans des scénarios d'observation de la Terre à travers 28 tâches de perception, de raisonnement et de robustesse, révélant ainsi les lacunes actuelles des modèles existants face à la complexité géospatiale.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Le papier présente MORE-R1, un modèle novateur qui améliore l'extraction de relations entre objets visuels et entités textuelles en guidant un grand modèle vision-langage via un raisonnement étape par étape optimisé par apprentissage par renforcement, surpassant ainsi les méthodes existantes sur le benchmark MORE.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong Mo2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Le papier présente PruneSID, une méthode sans entraînement pour la compression de tokens visuels dans les modèles vision-langage qui, en combinant une analyse des composantes sémantiques principales et une suppression non maximale intra-groupe, atteint des performances de pointe tout en réduisant drastiquement le nombre de tokens et en accélérant le préremplissage.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Le papier présente StyleVLA, un modèle d'action vision-langage fondé sur la physique et entraîné sur un jeu de données spécialisé, qui génère des trajectoires de conduite autonomes à la fois physiquement plausibles et adaptées à des styles de conduite variés, surpassant ainsi les modèles propriétaires et les approches actuelles.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Cet article propose un cadre novateur de génération d'images à partir de croquis, basé sur une architecture en deux étapes intégrant un autoencodeur à auto-attention et une fusion préservant les coordonnées, qui surpasse les modèles actuels en fidélité et en cohérence spatiale sur divers domaines.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Ce papier propose la distillation diagonale, une méthode asymétrique qui optimise la génération de vidéos en flux continu via des modèles de diffusion en exploitant les dépendances temporelles et en alignant les prédictions de bruit pour réduire la latence tout en préservant la cohérence du mouvement.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Cet article présente la synthèse et sollicite des retours sur le modèle d'artefacts pour l'ingénierie des exigences réglementaires (AM4RRE), conçu pour faciliter une intégration systématique de la conformité dès la conception dans le cycle de développement logiciel en surmontant les défis de coordination entre les différentes perspectives.

Oleksandr Kosenkov2026-03-11💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Le papier propose SurgFed, un cadre d'apprentissage fédéré multi-tâches guidé par le langage qui améliore la segmentation et l'estimation de profondeur dans les vidéos chirurgicales en surmontant les défis de la diversité tissulaire et des tâches grâce à la sélection de canaux et à une agrégation hyper-personnalisée.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

Cet article présente EmbC-Test, une solution basée sur le RAG et les LLMs qui automatise la génération de tests pour le logiciel embarqué en C, permettant de réduire le temps de test de 66 % tout en assurant un taux de validation d'exécution de 85 %.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo Oksanen2026-03-11💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Cet article présente une technique hybride de vérification algébrique des circuits arithmétiques, implémentée dans l'outil TalisMan2.0, qui évite les calculs sur les grands entiers en combinant le réécriture linéaire et non linéaire avec un raisonnement multimodulaire parallèle.

Clemens Hofstadler, Daniela Kaufmann, Chen Chen2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Le papier présente Context-Nav, une méthode sans apprentissage spécifique qui améliore la navigation d'instances en utilisant des alignements texte-image denses pour guider l'exploration globale et une vérification 3D consciente du point de vue pour valider les candidats, atteignant ainsi des performances de pointe sur InstanceNav et CoIN-Bench.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Cet article examine la fiabilité des modèles vision-langage pour la conduite autonome en identifiant leurs limites en matière de cohérence et de raisonnement temporel, puis propose le benchmark FutureVQA et une méthode d'ajustement auto-supervisé pour améliorer ces capacités sans nécessiter d'étiquettes temporelles.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Ce papier présente RuleSafe, un nouveau benchmark de manipulation articulée générant des tâches non markoviennes à long terme, ainsi que VQ-Memory, une méthode de représentation temporelle basée sur des auto-encodeurs variationnels quantifiés vectoriellement qui améliore significativement la planification et la généralisation des modèles d'action vision-langage dans des environnements simulés complexes.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

Le papier présente RESBev, une méthode résiliente et plug-and-play qui améliore la robustesse des perceptions en vue aérienne (BEV) face aux dégradations de capteurs et aux attaques adverses en prédisant des caractéristiques saines via un modèle latent du monde.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Le papier présente DCAU-Net, un cadre de segmentation d'images médicales innovant qui améliore la précision et l'efficacité grâce à une nouvelle attention croisée différentielle pour capturer les structures discriminantes et une fusion de caractéristiques canal-spatial pour intégrer adaptativement les informations sémantiques et spatiales.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Cette étude propose une méthode de génération d'expressions multimodales pilotée par un modèle de langage pour des agents pédagogiques en réalité virtuelle, démontrant que l'alignement dynamique entre le contenu sémantique et les gestes ou la parole améliore significativement l'engagement, l'efficacité perçue et le sentiment de présence sociale des apprenants.

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Cet article propose une stratégie d'entraînement par renforcement basée sur l'optimisation de politique relative de groupe (GRPO) étendue au domaine multimodal, permettant aux modèles unifiés d'acquérir la capacité de générer des sorties intercalées texte-image cohérentes sans dépendre de vastes jeux de données spécialisés.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Cet article présente DynHiL-EQA, un nouveau jeu de données pour l'analyse de questions-réponses incarnées dans des environnements dynamiques, ainsi que DIVRR, un cadre d'inférence sans entraînement qui améliore la robustesse et l'efficacité en affinant les vues et en sélectionnant sélectivement la mémoire pour gérer les occlusions et les changements temporels.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Ce papier propose NS-VLA, un cadre neuro-symbolique pour les modèles Vision-Language-Action qui combine un encodeur symbolique, un solveur et un apprentissage par renforcement en ligne pour améliorer l'efficacité des données, la généralisation zéro-shot et l'exploration en robotique.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo2026-03-11💻 cs

Compartmentalization-Aware Automated Program Repair

Cet article présente un cadre de réparation automatique de programmes basé sur les grands modèles de langage, conçu spécifiquement pour sécuriser les interfaces inter-compartiments en intégrant un fuzzing spécialisé, des techniques d'analyse pour pallier le manque de conscience de la compartimentation des modèles existants, et une validation des correctifs générés.

Jia Hu, Youcheng Sun, Pierre Olivier2026-03-11💻 cs

← Précédent Suivant →