cs articles | Gist.Science

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Ce papier présente ReViP, un cadre novateur pour les modèles Vision-Language-Action qui atténue les complétions fausses en rééquilibrant l'attention entre la vision et la proprioception grâce à des indices visuels conscients du progrès, tout en introduisant une nouvelle suite de benchmarks pour évaluer ce phénomène.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Ce papier présente ScenePilot-Bench, une nouvelle évaluation à grande échelle conçue pour mesurer les capacités des modèles vision-langage dans la conduite autonome en s'appuyant sur le vaste jeu de données ScenePilot-4K et une suite d'indicateurs multidimensionnels axés sur la sécurité.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Cet article propose une nouvelle méthode d'interaction spatiale-temporelle-fréquentielle guidée par la requête (QSTar), enrichie par un bloc de raisonnement contextuel (QCR), pour améliorer la compréhension audio-visuelle dans les tâches de réponse aux questions (AVQA) en intégrant plus efficacement les indices textuels et les caractéristiques fréquentielles du son.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

Dynamic framework for edge-connectivity maintenance of simple graphs

Cet article présente un cadre dynamique pour maintenir la $k$ -connexité par arêtes d'un graphe simple sous insertions et suppressions d'arêtes, en combinant des certificats clairsemés de Nagamochi-Ibaraki et des arbres de liaison-coupure pour les insertions, et un calcul de flot maximum pour les suppressions, tout en garantissant une complexité amortie de $O(k \log n)$ par insertion et $O(k^{3/2} n^{3/2})$ par suppression.

Blazej Wrobel2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Ce papier présente BioAgent Bench, une suite d'évaluation et un jeu de données de référence conçus pour mesurer les performances et la robustesse des agents IA dans des tâches de bioinformatique, révélant que bien que les modèles de pointe puissent exécuter des pipelines complexes, leur fiabilité diminue face aux perturbations et que les modèles à poids ouverts offrent une alternative préférable pour les données sensibles malgré des taux de réussite inférieurs.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Ce papier présente R2M, un cadre RLHF novateur qui atténue le sur-optimisation des récompenses en alignant le modèle de récompense sur les états cachés évolutifs du modèle de politique en temps réel, dépassant ainsi les limitations des approches purement sémantiques.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Cette étude démontre que l'analyse de sentiment des actualités par des LLMs, en particulier DeBERTa et un modèle d'ensemble combinant DeBERTa, RoBERTa et FinBERT, améliore la prédiction des mouvements boursiers, atteignant jusqu'à 80 % de précision tout en bénéficiant légèrement à divers modèles de classification et de régression.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Cette étude démontre que l'adoption d'une approche sensible à l'âge dans la conception de technologies interactives et de génération vidéo par IA permet aux femmes retraitées chinoises de surmonter les barrières techniques pour passer du statut de simples exécutantes à celui de co-créatrices autonomes de leurs performances dansantes.

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

Cette lettre propose un cadre de contrôle cognitivement flexible intégrant un modèle stochastique profond réorganisant ses représentations latentes en ligne sous contraintes de sécurité, garantissant ainsi la stabilité et la réactivité face aux changements brusques de dynamique dans les systèmes cyber-physiques.

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Le papier présente Green-VLA, un modèle d'action vision-langage à cinq étapes conçu pour le robot humanoïde Green, qui combine un préentraînement multi-embodiments et un alignement par renforcement pour offrir une généralisation robuste et des performances améliorées sur divers systèmes robotiques.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

Cette étude introduit le cadre d'audit SIM-VAIL pour révéler que les chatbots de santé mentale, malgré leur potentiel, présentent un mode de défaillance systématique appelé boucles d'interaction amplifiant la vulnérabilité (VAIL), où les réponses nuisibles s'accumulent progressivement sur plusieurs tours de conversation en fonction des profils psychiatriques des utilisateurs.

Veith Weilnhammer, Kevin YC Hou, Lennart Luettgau, Christopher Summerfield, Raymond Dolan, Matthew M Nour2026-03-10💻 cs

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

Le papier présente AgenticLab, une plateforme et un benchmark agnostiques pour évaluer les agents robotiques basés sur des modèles vision-langage dans des environnements réels non structurés, révélant ainsi des échecs critiques dans l'exécution à long terme que les tests statiques ne parviennent pas à détecter.

Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She2026-03-10💻 cs

Six Times to Spare: Characterizing GPU-Accelerated 5G LDPC Decoding for Edge-RSU Communications

Cette étude démontre que le déchargement de la décodification LDPC 5G vers des GPU sur des plateformes d'edge computing hétérogènes améliore considérablement le débit et réduit la latence, permettant ainsi de répondre aux contraintes temporelles strictes des communications véhiculaires ultra-fiables.

Ryan Barker, Julia Boone, Tolunay Seyfi, Alireza Ebrahimi Dorcheh, Fatemeh Afghah, Joseph Boccuzzi2026-03-10💻 cs

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Cet article présente FSTab, un cadre d'évaluation et d'attaque en boîte noire capable de prédire et de quantifier la persistance de vulnérabilités récurrentes dans le code généré par des LLMs, révélant ainsi des risques de sécurité systémiques même dans des domaines non vus lors de l'entraînement.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Ce papier présente LMMRec, un cadre de recommandation multimodale piloté par les grands modèles de langage qui exploite des techniques de raisonnement pour extraire et aligner les motivations fines des utilisateurs et des articles à partir de textes et d'interactions, surpassant ainsi les méthodes existantes sur plusieurs jeux de données.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Assessing Problem-Solving in HR Contexts: A Comparison Between Game-Based and Self-Report Measures

Cette étude démontre qu'il n'existe pas de corrélation significative entre les mesures auto-rapportées et les indicateurs comportementaux issus d'un jeu pour évaluer la résolution de problèmes, soulignant ainsi la nécessité d'intégrer ces deux approches complémentaires dans les processus de sélection du personnel.

Fabrizio Fornari, Eleonora Cova, Niccolò Vito Vacca, Francesco Bocci, Marcello Sarini, Luigi Caputo2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Cet article propose un cadre théorique et algorithmique fondé sur la transformée h de Doob et les processus de martingale pour guider les modèles de diffusion vers la génération d'échantillons satisfaisant des contraintes strictes avec une probabilité de un, tout en fournissant des garanties de convergence non asymptotiques et des méthodes d'apprentissage hors politique pour estimer les corrections de dérive nécessaires.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health

Cette étude explore comment les mères utilisent les modèles de langage pour obtenir un soutien émotionnel et informationnel sans jugement, tout en soulignant que, bien que ces outils soient appréciés pour leur neutralité, la chaleur humaine reste généralement préférée.

Shayla Sharmin, Sadia Afrin Ratna2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Ce papier présente NAAMSE, un cadre d'évaluation de sécurité évolutionnaire qui utilise un agent autonome pour optimiser itérativement les attaques par mutation génétique et exploration hiérarchique, révélant ainsi des vulnérabilités complexes chez les agents IA que les méthodes statiques traditionnelles ne parviennent pas à détecter.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape est une méthode hybride combinant un réseau de neurones graphiques et un solveur physique différentiable à deux étapes pour réaliser un drapé de vêtements réaliste en résolvant explicitement les forces et en garantissant l'absence de pénétration par des contraintes géométriques strictes.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

← Précédent Suivant →