cs articles | Gist.Science

CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

Le papier présente CompassNav, une nouvelle approche qui remplace l'imitation de trajectoires par une compréhension des décisions via un jeu de données enrichi et une fonction de récompense hybride, permettant à un agent de 7B de surpasser les modèles propriétaires sur des benchmarks de navigation et de réussir sur un robot physique.

LinFeng Li, Jian Zhao, Yuan Xie, Xin Tan, Xuelong Li2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Le papier présente SDGraph, une architecture d'apprentissage profond basée sur un graphe combinant des structures clairsemées et denses pour modéliser efficacement les esquisses à trois niveaux (esquisse, trait et point), améliorant ainsi significativement les performances dans les tâches de classification, de recherche et de génération.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Le papier présente InstantSfM, un système de Structure-from-Motion entièrement basé sur GPU et compatible PyTorch qui intègre des priors de profondeur métrique pour résoudre l'ambiguïté d'échelle et offre une accélération d'environ 40 fois par rapport à COLMAP tout en maintenant une précision de reconstruction élevée.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

Le papier présente UltraGen, un cadre novateur utilisant une attention locale hiérarchique et une guidance globale à basse résolution pour permettre une génération d'images text-to-image ultra-haute définition (au-delà de 8K) efficace, rapide et économiquement viable en mémoire.

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Le papier présente REALM, un cadre d'agent MLLM innovant qui permet la segmentation et l'édition 3D en monde ouvert sur des représentations Gaussian Splatting en utilisant une stratégie de localisation spatiale globale-à-locale pour interpréter avec précision des instructions complexes sans nécessiter de post-entraînement spécifique.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Opinion Maximization in Social Networks by Modifying Internal Opinions

Cet article propose des algorithmes d'échantillonnage et une méthode déterministe asynchrone efficaces pour maximiser l'opinion globale dans les réseaux sociaux en modifiant stratégiquement les opinions internes de nœuds clés, surpassant ainsi les méthodes traditionnelles en termes de précision et d'évolutivité sur des réseaux de grande taille.

Gengyu Wang, Runze Zhang, Zhongzhi Zhang2026-03-12💻 cs

Importance of Overlapping Network Nodes in Influence Spreading

Cette étude démontre que les nœuds de chevauchement dans les réseaux complexes exercent une influence supérieure à celle des nœuds non chevauchants lors des processus de diffusion, révélant ainsi leur importance stratégique qui dépend de la manière dont les structures circulaires sont définies.

Kosti Koistinen, Vesa Kuikka, Kimmo Kaski2026-03-12💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

Ce papier présente Compiler.next, un compilateur novateur basé sur la recherche qui transforme les intentions humaines en logiciels fonctionnels en optimisant dynamiquement les architectures cognitives et les modèles d'IA, afin de démocratiser le développement logiciel et d'inaugurer l'ère de l'Ingénierie Logicielle 3.0.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. Hassan2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Ce papier propose ADC-SID, un cadre innovant qui améliore la génération d'identifiants sémantiques robustes pour les systèmes de recommandation en adaptativement débruyant les informations collaboratives via un alignement comportement-contenu ajustable et un mécanisme de pondération dynamique des identifiants comportementaux.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Le papier présente EyeAgent, un premier cadre d'IA agentique interprétable pour le soutien décisionnel clinique en ophtalmologie, qui orchestre dynamiquement 53 outils spécialisés sur 23 modalités d'imagerie pour atteindre une précision diagnostique supérieure et améliorer significativement les performances des médecins, en particulier des juniors.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

Evaluation of Audio Compression Codecs

Ce papier évalue plusieurs codecs de compression audio courants en analysant non seulement leur efficacité de compression, mais aussi leur qualité perceptuelle sonore via des mesures, des visualisations et des scores PEAQ, afin d'orienter les utilisateurs dans le choix d'un schéma de compression adapté.

Thien T. Duong, Jan P. Springer2026-03-12💻 cs

X-WIN: Building Chest Radiograph World Model via Predictive Sensing

Le papier présente X-WIN, un modèle de monde innovant pour les radiographies thoraciques qui apprend à prédire des projections 2D à partir de connaissances volumiques 3D extraites des scanners CT, surmontant ainsi les limites de la superposition structurelle et surpassant les modèles existants dans diverses tâches de diagnostic.

Zefan Yang, Ge Wang, James Hendler, Mannudeep K. Kalra, Pingkun Yan2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Le papier présente MergeVLA, une architecture d'agent Vision-Language-Action conçue pour fusionner efficacement des compétences multiples en résolvant les conflits de paramètres et les dépendances inter-couches grâce à des adaptateurs LoRA activés de manière clairsemée et des experts d'action basés sur l'attention croisée, permettant ainsi une généralisation robuste sans nécessiter de fine-tuning individuel.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

Ce papier présente COVec, un cadre de vectorisation d'images inspiré du principe du clair-obscur qui introduit pour la première fois la décomposition d'images intrinsèques dans le domaine vectoriel afin d'améliorer la fidélité visuelle et l'édition des images réelles complexes.

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

Ce papier présente AD-R1, un cadre d'apprentissage par renforcement en boucle fermée pour la conduite autonome qui utilise un modèle de monde impartial, enrichi par une synthèse de contre-factuels, pour prédire et éviter les dangers en apprenant à « rêver » des conséquences négatives des actions.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Ce papier présente TEAR, un cadre de red-teaming automatisé et temporellement conscient conçu pour révéler les risques de sécurité spécifiques aux modèles de texte-vidéo en exploitant leurs dynamiques temporelles, atteignant un taux de réussite d'attaque supérieur à 80 %.

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Cet article présente des algorithmes randomisés permettant d'obtenir des approximations $(1-\varepsilon)$ du problème du maximum de clique en temps quasi-linéaire pour les graphes de disques unitaires et en temps paramétré pour les graphes de disques à $t$ rayons distincts.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder

Ce papier présente AEIC, un cadre de compression d'images asymétrique qui utilise un encodeur peu profond couplé à un décodeur par diffusion en une étape pour atteindre une haute fidélité perceptuelle à des débits ultra-faibles tout en garantissant une efficacité d'encodage exceptionnelle pour les appareils aux ressources limitées.

Tianyu Zhang, Dong Liu, Chang Wen Chen2026-03-12💻 cs

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

Cet article présente une méthode de contrôle par apprentissage par renforcement permettant à un manipulateur aérien sous-actionné et léger de réaliser un contrôle précis de la pose de son effecteur terminal en six degrés de liberté, même en présence de perturbations externes et de tâches de contact.

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

Ce papier présente SVBench, le premier benchmark évaluant la capacité des modèles de génération vidéo à produire des comportements socialement cohérents en testant sept dimensions de la cognition sociale, et révèle un écart significatif entre le réalisme visuel actuel et la compréhension des dynamiques psychologiques et sociales.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

← Précédent Suivant →