cs articles | Gist.Science

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Ce papier propose SToRM, un cadre novateur de réduction supervisée de tokens pour les modèles de langage multimodaux, qui permet d'accélérer considérablement la conduite autonome de bout en bout tout en préservant les performances grâce à une sélection intelligente des tokens visuels.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

Ce papier présente AGPS, un cadre qui remplace la supervision humaine par un agent multimodal agissant comme un modèle du monde sémantique pour guider l'exploration des robots, améliorant ainsi considérablement l'efficacité des échantillons et la scalabilité de l'apprentissage par renforcement par rapport aux méthodes traditionnelles à boucle humaine.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

L'article M2RL analyse et compare les paradigmes d'apprentissage par renforcement à récompenses vérifiables (RLVR) pour les modèles de langage, démontrant que l'entraînement mixte multi-tâches et le fusionnement de modèles entraînés séparément sont tous deux efficaces car les domaines de raisonnement s'avèrent synergiques et peu interférents.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Le benchmark SkillsBench évalue l'efficacité des compétences d'agents sur 86 tâches et révèle que, bien que les compétences curatées améliorent significativement les performances moyennes, leur impact varie considérablement selon les domaines et que les modèles ne parviennent pas actuellement à générer de manière fiable les compétences dont ils bénéficieraient.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

State Feedback Control of State-Delayed LPV Systems using Dynamic IQCs

Cet article propose un nouveau cadre de commande par retour d'état pour les systèmes LPV à retards d'état variables, intégrant des contraintes quadratiques intégrales dynamiques et des fonctions de Lyapunov dépendantes des paramètres afin d'obtenir des conditions de synthèse convexes garantissant la stabilité et des performances améliorées avec une réduction de la conservativité.

Fen Wu2026-03-10💻 cs

Social Life of Code: Modeling Evolution through Code Embedding and Opinion Dynamics

Cet article propose une approche novatrice intégrant des embeddings sémantiques de code et la théorie des dynamiques d'opinion pour modéliser quantitativement l'évolution des logiciels et révéler les mécanismes de collaboration implicite au sein des communautés de développement open source.

Yulong He, Nikita Verbin, Sergey Kovalchuk2026-03-10💻 cs

RIS Control through the Lens of Stochastic Network Calculus: An O-RAN Framework for Delay-Sensitive 6G Applications

Cet article propose DARIO, un cadre conforme à O-RAN qui utilise le calcul de réseaux stochastique pour orchestrer dynamiquement des surfaces intelligentes reconfigurables (RIS) et minimiser les délais dans les applications 6G sensibles à la latence.

Oscar Adamuz-Hinojosa, Lanfranco Zanzi, Vincenzo Sciancalepore, Marco Di Renzo, Xavier Costa-Pérez2026-03-10💻 cs

Graph Neural Model Predictive Control for High-Dimensional Systems

Cet article présente un cadre de contrôle prédictif basé sur des réseaux de neurones graphiques qui permet le contrôle en temps réel de systèmes haute dimension, tels que les robots souples, en exploitant la parcimonie des interactions et l'accélération GPU pour atteindre une précision subcentimétrique et une évolutivité jusqu'à 1 000 nœuds.

Patrick Benito Eberhard, Luis Pabon, Daniele Gammelli, Hugo Buurmeijer, Amon Lahr, Mark Leone, Andrea Carron, Marco Pavone2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Le papier présente 3DMedAgent, un agent unifié qui permet aux modèles de langage multimodaux 2D d'analyser des données médicales 3D complexes via une décomposition progressive des tâches et une mémoire structurée, surpassant ainsi les méthodes existantes sur plus de 40 tâches d'imagerie thoracique.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Le papier présente OVerSeeC, un cadre modulaire zéro-shot qui génère des cartes de coût globales pour la planification autonome à partir d'images satellites et de directives en langage naturel, en décomposant le processus en interprétation, localisation et synthèse pour s'adapter à des missions variées et à des entités inconnues.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

On the Energy Cost of Post-Quantum Key Establishment in Wireless Low-Power Personal Area Networks

Cette étude démontre que, sur les réseaux personnels à faible consommation comme Bluetooth Low Energy, le coût énergétique de la communication lors de l'établissement de clés post-quantiques dépasse souvent celui du calcul cryptographique, soulignant ainsi la nécessité d'une optimisation conjointe des protocoles et des couches basses pour assurer une transition efficace vers la sécurité quantique.

Tao Liu, Gowri Ramachandra, Raja Jurdak2026-03-10💻 cs

ABD: Default Exception Abduction in Finite First Order Worlds

Ce papier présente ABD, une nouvelle norme d'évaluation pour l'abduction d'exceptions par défaut dans des mondes finis du premier ordre, démontrant que les modèles de langage actuels parviennent à la validité logique mais peinent encore à garantir la parcimonie des exceptions et à généraliser correctement à travers différents régimes d'observation.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Cet article introduit le nouveau cadre de la généralisation de domaine à vocabulaire ouvert pour la segmentation sémantique urbaine, accompagné d'un benchmark dédié et d'une méthode innovante nommée S2-Corr, qui améliore la robustesse des modèles face aux changements de domaine et aux catégories inédites en affinant les corrélations texte-image.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Cet article présente INDUCTION, un nouveau benchmark évaluant la capacité des modèles à synthétiser des concepts logiques du premier ordre à partir de structures finies, en mettant en évidence des gradients de difficulté marqués et l'importance de la concision des formules pour la généralisation.

Serafim Batzoglou2026-03-10💻 cs

SKYLIGHT: A Scalable Hundred-Channel 3D Photonic In-Memory Tensor Core Architecture for Real-time AI Inference

Ce papier présente SKYLIGHT, une architecture de cœur tensoriel photonique 3D à cent canaux et à mémoire intégrée qui surpasse les GPU NVIDIA en efficacité énergétique pour l'inférence IA en temps réel tout en permettant l'apprentissage local sans étiquettes grâce à des mises à jour de poids in situ.

Meng Zhang, Ziang Yin, Nicholas Gangi, Alexander Chen, Brett Bamfo, Tianle Xu, Jiaqi Gu, Zhaoran Rena Huang2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Le papier présente UniMatch, un cadre novateur utilisant des modèles de langage multimodaux pour établir des correspondances sémantiques denses entre des formes 3D non isométriques de catégories variées grâce à une approche en deux étapes, allant d'une segmentation sémantique grossière à un apprentissage fin guidé par le langage.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

Why iCloud Fails: The Category Mistake of Cloud Synchronization

Ce papier démontre que les échecs d'iCloud, notamment dans les flux de travail de développement, résultent d'une erreur de catégorie fondamentale consistant à projeter un graphe causal distribué sur une chaîne temporelle linéaire, et propose que les sémantiques transactionnelles de l'Open Atomic Ethernet offrent une solution structurelle en alignant les protocoles sur la réalité physique.

Paul Borrill2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

L'article propose InfScene-SR, une méthode de super-résolution d'images basée sur les modèles de diffusion qui permet de traiter des images de taille arbitraire sans artefacts de bordure grâce à une fusion itérative de patches corrigée par variance, rendant ainsi possible un inférence parallèle efficace sur des scènes gigapixels.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Cet article propose une méthode de décomposition et de recomposition en ligne des objets, des scènes et des poses de caméra pour générer des données d'entraînement diversifiées et améliorer l'efficacité de la détection 3D d'objets monoculaire, même avec des annotations limitées.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Cet article présente un cadre de décomposition d'images en couches basé sur l'apprentissage contextuel et l'adaptation LoRA de modèles de diffusion, qui utilise une stratégie d'ajustement cyclique et un processus d'amélioration progressive pour séparer efficacement des éléments complexes comme les logos de leurs arrière-plans tout en préservant la cohérence visuelle.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

← Précédent Suivant →