cs articles | Gist.Science

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Le papier propose V-Attack, une nouvelle méthode d'attaque adversariale pour les grands modèles vision-langage qui cible les caractéristiques de valeur (V) désengagées plutôt que les patchs entremêlés, permettant ainsi un contrôle sémantique local précis et une amélioration significative du taux de réussite des attaques.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Le papier présente AFRO, un cadre d'apprentissage auto-supervisé qui génère des représentations 3D dynamiques pour la robotique en modélisant les transitions d'état via un processus de diffusion, éliminant ainsi le besoin de reconstruction géométrique explicite et améliorant significativement les taux de réussite dans des tâches de manipulation réelles et simulées.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Cet article présente le premier cadre formel pour les modèles de monde audiovisuels (AVWM), introduisant le jeu de données AVW-4k et le modèle AV-CDiT basé sur la diffusion pour simuler de manière synchronisée les dynamiques visuelles et sonores, améliorant ainsi significativement la navigation des agents.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

Beware of the Classical Benchmark Instances for the Traveling Salesman Problem with Time Windows

Les auteurs démontrent qu'une méthode exacte simple résout la quasi-totalité des instances classiques du problème du voyageur de commerce avec fenêtres de temps en moins de dix secondes, révélant ainsi que ces benchmarks ne sont plus représentatifs pour évaluer les performances des algorithmes.

Francisco J. Soulignac2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Ce papier propose AVGGT, une méthode d'accélération sans réentraînement pour les modèles VGGT et $\pi^3$ qui, en s'appuyant sur une analyse des rôles de l'attention globale, remplace les premières couches par une attention par image et subsample les suivantes, permettant ainsi des gains de vitesse allant jusqu'à 10 fois sur des séquences longues tout en préservant la précision.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

Le papier propose UniBYD, un cadre unifié intégrant une représentation morphologique unifiée et un apprentissage par renforcement dynamique pour dépasser la simple imitation humaine et apprendre des politiques de manipulation robustes adaptées à diverses morphologies robotiques, validé par le nouveau benchmark UniManip qui démontre une amélioration significative des taux de réussite.

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao Wang2026-03-11💻 cs

Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition

Cet article propose un cadre d'apprentissage auto-supervisé nommé « Décomposition et Composition » qui résout le compromis entre efficacité et performance dans la compréhension des actions multimodales en décomposant les caractéristiques fusionnées et en les réassemblant pour guider l'apprentissage, surpassant ainsi les méthodes de fusion tardive et précoce sur plusieurs jeux de données de référence.

Hongsong Wang, Heng Fei, Bingxuan Dai + 1 more2026-03-11💻 cs

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Ce papier propose D²-Align, un cadre novateur qui atténue l'effondrement du mode de préférence dans l'apprentissage par renforcement des modèles de diffusion en corrigeant directionnellement le signal de récompense pour préserver la diversité générative tout en améliorant l'alignement avec les préférences humaines.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Ce papier présente Preguss, un cadre modulaire qui combine l'analyse statique et les grands modèles de langage pour générer automatiquement des spécifications formules et vérifier l'absence d'erreurs d'exécution dans de grands programmes, réduisant ainsi l'effort de vérification humaine de 80,6 % à 88,9 %.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei Yin2026-03-11💻 cs

Secure Digital Semantic Communications: Fundamentals, Challenges, and Opportunities

Cet article propose une revue structurée des communications sémantiques numériques sécurisées, en clarifiant leurs fondements et leurs différences architecturales par rapport aux systèmes analogiques, en identifiant leurs menaces de sécurité spécifiques et en explorant des solutions de défense ainsi que des axes de recherche futurs.

Weixuan Chen, Qianqian Yang, Yuanyuan Jia + 5 more2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Cet article propose SeLop, une méthode d'intervention dans un sous-espace orthogonal de rang faible qui, en éliminant les biais de corrélation fallacieux du modèle CLIP, améliore considérablement la généralisation et la robustesse de la détection de falsifications faciales avec un nombre minimal de paramètres.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

Cet article propose une approche centrée sur les objectifs pour évaluer les méthodes d'ingénierie des exigences en matière de protection de la vie privée dès la conception, afin de mieux les adapter aux besoins spécifiques des organisations plutôt que de se limiter à leurs caractéristiques de processus.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel Mendez2026-03-11💻 cs

CovertComBench: A First Domain-Specific Testbed for LLMs in Wireless Covert Communication

Ce papier présente CovertComBench, le premier banc d'essai spécifique pour évaluer les capacités des grands modèles de langage dans le domaine de la communication discrète sans fil, révélant que bien qu'ils excellent dans la compréhension conceptuelle et la génération de code, ils peinent encore à effectuer les déductions mathématiques complexes nécessaires pour garantir la sécurité.

Zhaozhi Liu, Jiaxin Chen, Yuanai Xie, Yuna Jiang, Minrui Xu, Xiao Zhang, Pan Lai, Zan Zhou2026-03-11💻 cs

Weakly supervised framework for wildlife detection and counting in challenging Arctic environments: a case study on caribou (Rangifer tarandus)

Cette étude propose un cadre faiblement supervisé utilisant un pré-entraînement par patch pour améliorer la détection et le comptage robustes des caribous dans des environnements arctiques complexes, surpassant les méthodes d'initialisation génériques grâce à l'apprentissage à partir de labels de présence/absence.

Ghazaleh Serati, Samuel Foucher, Jerome Theau2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Cet article propose une méthode de détection des images générées par l'IA qui exploite les composants architecturaux finaux communs aux générateurs pour « contaminer » les images réelles et entraîner un classificateur capable de généraliser avec une grande précision à des générateurs jamais vus.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Ce papier présente RegionReasoner, un cadre d'apprentissage par renforcement qui améliore le raisonnement visuel itératif en imposant un ancrage explicite dans des régions via des boîtes englobantes et une cohérence sémantique globale-locale, validé par un nouveau benchmark nommé RegionDial-Bench.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

Optimal conversion from Rényi Differential Privacy to $f$ -Differential Privacy

Ce papier démontre que la règle de conversion optimale d'une garantie de confidentialité différentielle de Rényi (RDP) vers une confidentialité différentielle basée sur les fonctions $f$ est donnée par l'intersection des régions de confidentialité RDP, établissant ainsi la limite fondamentale de toute conversion noire sans perte d'information.

Anneliese Riess, Juan Felipe Gomez, Flavio du Pin Calmon, Julia Anne Schnabel, Georgios Kaissis2026-03-11💻 cs

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Ce papier présente la Correction en Temps d'Exécution (TTC), une méthode sans entraînement qui utilise la première image comme ancre stable pour corriger les états intermédiaires et permettre la génération de vidéos longues de haute qualité avec des modèles autorégressifs distillés, surmontant ainsi les limitations des méthodes d'optimisation existantes.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

A 26-Gram Butterfly-Inspired Robot Achieving Autonomous Tailless Flight

Le papier présente AirPulse, un robot volant autonome de 26 grammes inspiré du papillon qui, grâce à une architecture de contrôle hiérarchique et des ailes conformes, réalise pour la première fois un vol stabilisé en boucle fermée en imitant les ondulations corporelles et les battements de basse fréquence caractéristiques de la locomotion lepidoptérienne.

Weibin Gu, Chenrui Feng, Lian Liu, Chen Yang, Xingchi Jiao, Yuhe Ding, Xiaofei Shi, Chao Gao, Alessandro Rizzo, Guyue Zhou2026-03-11💻 cs

Multimodal Classification via Total Correlation Maximization

Cet article propose TCMax, une méthode de classification multimodale qui maximise la corrélation totale entre les caractéristiques et les étiquettes via une borne variationnelle, afin de résoudre le problème de compétition entre modalités et de surpasser les approches actuelles.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

← Précédent Suivant →

cs