cs articles | Gist.Science

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Le papier présente AgentServe, un système de service conçu pour une seule carte graphique grand public qui améliore la stabilité et les performances du service d'IA agentique en isolant les phases de préremplissage et de décodage et en allouant dynamiquement les ressources GPU pour résoudre les conflits de contention.

Yuning Zhang, Yan Yan, Nan Yang, Dong Yuan2026-03-12💻 cs

EmoStory: Emotion-Aware Story Generation

L'article présente EmoStory, un cadre de génération d'histoires visuelles en deux étapes qui intègre la planification par agents et la composition consciente des régions pour produire des récits cohérents et subjectivement stables guidés par des émotions explicites.

Jingyuan Yang, Rucong Chen, Hui Huang2026-03-12💻 cs

Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction

Cet article propose un cadre fermé intégrant une estimation haptique, une planification en ligne et un contrôle adaptatif de la raideur, basé sur une variété d'équilibre paramétrée, pour réaliser une manipulation d'outils robuste et précise en milieu encombré, comme démontré par des essais réels de desserrage de vis.

Lin Yang, Anirvan Dutta, Yuan Ji, Yanxin Zhou, Shilin Shan, Lv Chen, Etienne Burdet, Domenico Campolo2026-03-12💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

Ce papier propose S-HPLB, une nouvelle stratégie de déploiement qui équilibre la charge entre les têtes d'attention en adaptant dynamiquement leur budget de parcimonie, permettant ainsi de réduire la latence de calcul de 2,88 fois sans dégrader la qualité des inférences sur les grands modèles de langage.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi Guo2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

Le papier présente StyleGallery, un cadre de transfert de style personnalisé sans entraînement et conscient du sémantique qui, en utilisant des images de référence arbitraires et un processus en trois étapes (segmentation, appariement et optimisation), surpasse les méthodes existantes en préservant la structure du contenu tout en assurant une stylisation précise et adaptable.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Cette proposition de cadre unifié sans entraînement combat les hallucinations des modèles multimodaux en manipulant les tokens visuels via deux modules complémentaires, la calibration visuelle synergique et la calibration causale, pour rétablir l'équilibre vision-langage et améliorer la précision POPE de 2 % sur LLaVA-1.5 avec une surcharge d'inférence négligeable.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

Geometric Autoencoder for Diffusion Models

Ce papier présente le Geometric Autoencoder (GAE), un cadre novateur qui améliore les modèles de diffusion latents en intégrant des priors de modèles de vision fondationnels et une normalisation latente, permettant d'atteindre des performances de génération d'images supérieures sur ImageNet-1K tout en équilibrant compression, profondeur sémantique et stabilité de reconstruction.

Hangyu Liu, Jianyong Wang, Yutao Sun2026-03-12💻 cs

GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning

Le papier présente GeoSense, un cadre qui permet aux modèles de langage multimodaux de percevoir leurs insuffisances perceptuelles et d'activer de manière autonome des canaux géométriques pour le raisonnement spatial uniquement lorsque les indices 2D sont jugés inadéquats, améliorant ainsi l'efficacité et la robustesse sans compromettre les capacités visuelles existantes.

Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang2026-03-12💻 cs

Factor Dimensionality and the Bias-Variance Tradeoff in Diffusion Portfolio Models

Cette étude démontre que l'optimisation de la dimensionnalité des facteurs dans un modèle de diffusion conditionnel permet de trouver un compromis idéal entre biais et variance, surpassant ainsi les stratégies de portefeuille traditionnelles en évitant à la fois le sous-apprentissage et le surapprentissage.

Avi Bagchi, Michael Tesfaye, Om Shastri2026-03-12💻 cs

Don't Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw

Cette étude analyse les vulnérabilités de sécurité critiques du framework d'agents OpenClaw face aux attaques malveillantes et démontre l'efficacité d'une nouvelle couche de défense intégrant une intervention humaine (HITL) pour renforcer significativement la protection du système.

Zhengyang Shan, Jiayun Xin, Yue Zhang, Minghui Xu2026-03-12💻 cs

Silent Subversion: Sensor Spoofing Attacks via Supply Chain Implants in Satellite Systems

Cet article présente une démonstration complète d'une attaque de falsification de télémétrie satellite via un composant compromis dans la chaîne d'approvisionnement, révélant une vulnérabilité critique des architectures modulaires et proposant des contre-mesures pour sécuriser les missions spatiales.

Jack Vanlyssel, Gruia-Catalin Roman, Afsah Anwar2026-03-12💻 cs

ScanDP: Generalizable 3D Scanning with Diffusion Policy

Ce papier propose ScanDP, un cadre de numérisation 3D généralisable et efficace en données qui utilise une politique de diffusion pour imiter les stratégies de balayage humaines, en s'appuyant sur la cartographie par grille d'occupation et une optimisation hybride de trajectoire pour obtenir une meilleure couverture et une plus grande robustesse face au bruit et aux objets inédits.

Itsuki Hirako, Ryo Hakoda, Yubin Liu, Matthew Hwang, Yoshihiro Sato, Takeshi Oishi2026-03-12💻 cs

Moving Phones, Active Peers: Exploring the Effect of Animated Phones as Facilitators in In-Person Group Discussion

Cette étude propose et évalue « AnimaStand », un support animé qui transforme les smartphones en facilitateurs corporels expressifs capables de réengager les membres passifs et d'améliorer la dynamique, la performance et les relations lors de discussions de groupe en présentiel.

Ziqi Pan, Ziqi Liu, Jinhan Zhang, Zeyu Huang, Xiaojuan Ma2026-03-12💻 cs

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Cet article propose OCpose, une nouvelle métrique d'évaluation pour l'estimation de pose multi-personnes basée sur le transport optimal, qui assure une évaluation équitable en considérant tous les poses détectés indépendamment de leur score de confiance tout en les utilisant pour améliorer la fiabilité de l'appariement avec les annotations.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach

Cet article présente SpatioCoupledNet, une méthode de contrôle de forme hybride combinant cinématique et apprentissage profond pour stabiliser et améliorer la précision d'un robot planaire hyper-redundant flexible, surpassant les approches purement analytiques ou basées sur les données dans des environnements incertains et dynamiques.

Yuli Song, Wenbo Li, Wenci Xin, Zhiqiang Tang, Daniela Rus, Cecilia Laschi2026-03-12💻 cs

Rethinking Gaussian Trajectory Predictors: Calibrated Uncertainty for Safe Planning

Ce papier propose une nouvelle fonction de perte pour calibrer les incertitudes des prédicteurs de trajectoires gaussiens en alignant leurs distributions de confiance sur une loi du Chi-deux, améliorant ainsi la sécurité de la planification de mouvement dans des environnements encombrés.

Fatemeh Cheraghi Pouria, Mahsa Golchoubian, Katherine Driggs-Campbell2026-03-12💻 cs

Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics

Le papier présente Motion Forcing, un cadre découplé basé sur une hiérarchie « Point-Forme-Apparence » et une stratégie de récupération de points masqués, conçu pour stabiliser le compromis entre qualité visuelle, cohérence physique et contrôlabilité dans la génération vidéo complexe.

Tianshuo Xu, Zhifei Chen, Leyi Wu, Hao Lu, Ying-cong Chen2026-03-12💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Ce papier propose la méthode DGI (Differentiable Geometric Indexing) pour résoudre les blocages d'optimisation et les conflits géométriques de la recherche générative en unifiant l'indexation et la récupération via une formation différentiable et une optimisation géométrique isotrope, surpassant ainsi les approches existantes, notamment dans les scénarios à longue traîne.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi Zeng2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

Le papier propose Frames2Residual (F2R), une méthode d'apprentissage auto-supervisé pour le débruitage vidéo qui surmonte les limitations des réseaux à trou aveugle en découplant l'apprentissage en deux étapes distinctes : une modélisation temporelle aveugle pour assurer la cohérence inter-images, suivie d'une récupération spatiale non aveugle pour restaurer les détails texturaux.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

TractoRC: A Unified Probabilistic Learning Framework for Joint Tractography Registration and Clustering

Ce papier présente TractoRC, un cadre d'apprentissage probabiliste unifié qui améliore simultanément l'enregistrement et le regroupement des tractogrammes en apprenant un espace d'incorporation latent partagé grâce à une stratégie d'apprentissage auto-supervisé invariante aux transformations.

Yijie Li, Xi Zhu, Junyi Wang, Ye Wu, Lauren J. O'Donnell, Fan Zhang2026-03-12💻 cs

← Précédent Suivant →