cs articles | Gist.Science

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Ce papier présente HART, une méthode d'apprentissage par renforcement sans annotation qui permet aux modèles multimodaux de grande taille de raisonner efficacement sur des images haute résolution en identifiant et en vérifiant automatiquement les régions clés.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

PEPA: a Persistently Autonomous Embodied Agent with Personalities

Le papier présente PEPA, une architecture cognitive à trois couches qui confère à un agent robotique une autonomie persistante en utilisant des traits de personnalité pour générer ses propres objectifs et s'adapter de manière durable à des environnements dynamiques sans supervision humaine.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Ce papier présente l'Infinite Self-Attention (InfSA), une reformulation spectrale de l'attention qui modélise les interactions entre jetons comme une diffusion sur un graphe, et propose sa variante linéaire (Linear-InfSA) permettant aux Transformers de vision de traiter des images de très haute résolution avec une efficacité computationnelle et énergétique accrue tout en surpassant les architectures basées sur le softmax.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Le papier présente WildActor, un cadre de génération vidéo humain qui préserve l'identité corporelle sous des angles et des mouvements variés grâce à un nouveau jeu de données à grande échelle (Actor-18M) et à des mécanismes d'attention asymétrique combinés à un échantillonnage adaptatif.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Ce papier de position soutient que l'évaluation des systèmes de traitement visuel doit évoluer d'une approche centrée sur des métriques objectives vers une approche humanocentrée, contextuelle et nuancée, afin de mieux refléter la perception humaine et de ne pas entraver l'innovation.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

Sustainable Care: Designing Technologies That Support Children's Long-Term Engagement with Social Issues

Cet atelier propose le concept de « soin durable » comme nouveau cadre de conception pour développer des technologies qui permettent aux enfants de s'engager durablement dans des causes sociales sans subir de détresse empathique ni d'épuisement.

JaeWon Kim, Aayushi Dangol, Rotem Landesman, Alexis Hiniker, McKenna F. Parnes2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Le papier présente DeAR, un cadre d'adaptation fine-granularité pour les modèles vision-langage qui décompose les rôles des têtes d'attention pour isoler les connaissances de généralisation des tâches spécifiques, permettant ainsi d'équilibrer efficacement l'adaptation aux tâches et la préservation des capacités zéro-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

Digital Twin-Based Cooling System Optimization for Data Center

Cet article présente l'optimisation du système de refroidissement liquide du supercalculateur Frontier via un jumeau numérique validé, démontrant qu'une stratégie de co-optimisation contrainte du débit et de la température d'alimentation permet des économies d'énergie totales de 27,8 %, soit près du double de celles obtenues par la seule réduction du débit.

Shrenik Jadhav, Zheng Liu2026-03-10💻 cs

Extended Empirical Validation of the Explainability Solution Space

Ce rapport technique valide l'extension du cadre de l'Espace de Solutions d'Explicabilité (ESS) au-delà de la prédiction du départ des employés en le testant sur un système hétérogène d'allocation de ressources urbaines, confirmant ainsi sa généralité et son adaptabilité aux différents rôles de gouvernance et profils de risque dans les systèmes socio-techniques.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Energy Efficient Traffic Scheduling For Optical LEO Satellite Downlinks

Cet article propose et évalue des schémas statiques et adaptatifs, incluant des algorithmes d'apprentissage par renforcement, pour optimiser l'efficacité énergétique des liaisons descendantes optiques des satellites LEO tout en maintenant un taux de livraison acceptable malgré les perturbations météorologiques.

Ethan Fettes, Pablo G. Madoery, Halim Yanikomeroglu, Gunes Karabulut Kurt, Abhishek Naik, Stéphane Martel2026-03-10💻 cs

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell est un cadre d'agent automatisé qui résout les hétérogénéités sémantiques et statistiques dans l'étude des perturbations cellulaires uniques en utilisant un unificateur sémantique piloté par un LLM et un moteur de recherche arborescente adaptatif pour modéliser virtuellement des cellules sans ingénierie spécifique aux jeux de données.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

Cet article propose un nouveau cadre en boucle fermée piloté par les grands modèles de langage (LLM) qui améliore l'apprentissage par renforcement profond en facilitant la réutilisation de compétences sémantiques et la surveillance des contraintes, ce qui se traduit par une meilleure efficacité des données, une conformité accrue et une transférabilité inter-tâches.

Chang Yao, Jinghui Qin, Kebing Jin, Hankz Hankui Zhuo2026-03-10💻 cs

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

Ce papier propose le cadre MSP, qui améliore la ré-identification des personnes changeant de vêtements en atténuant la dépendance aux coiffures grâce à l'augmentation orientée coiffure, à l'éraflage aléatoire préservant les vêtements et à une attention basée sur le parsing des régions.

Xiangyang He, Lin Wan2026-03-10💻 cs

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Cette étude évalue l'utilisation de DINOv3 comme backbone sémantique figé pour les tâches de perception visuelle liées à la récolte robotisée de myrtilles, révélant que si la segmentation bénéficie de ses représentations stables, la détection et la localisation des grappes restent limitées par la variabilité d'échelle et la nécessité d'une modélisation spatiale adaptée.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Event-Driven Safe and Resilient Control of Automated and Human-Driven Vehicles under EU-FDI Attacks

Cet article propose un cadre de contrôle réactif aux événements (EDSR) intégrant des fonctions de barrière et de Lyapunov avec une estimation adaptative des comportements des véhicules humains pour assurer la sécurité et la résilience des véhicules automatisés face aux attaques par injection de fausses données exponentiellement non bornées dans un trafic mixte.

Yi Zhang, Yichao Wang, Wei Xiao, Mohamadamin Rajabinezhad, Shan Zuo2026-03-10💻 cs

Generalized Per-Agent Advantage Estimation for Multi-Agent Policy Optimization

Cet article propose un cadre d'apprentissage par renforcement multi-agent novateur basé sur l'estimateur GPAE et un échantillonnage d'importance doublement tronqué, permettant une estimation précise des avantages par agent pour améliorer la coordination et l'efficacité des échantillons sans nécessiter d'estimation directe de la fonction Q.

Seongmin Kim, Giseung Park, Woojun Kim, Jiwon Jeon, Seungyul Han, Youngchul Sung2026-03-10💻 cs

Agentified Assessment of Logical Reasoning Agents

Cet article présente un cadre d'évaluation agentifié pour les agents de raisonnement logique, démontré par un agent de formalisation automatique qui atteint 86,70 % de précision sur le jeu de données FOLIO, surpassant ainsi une baseline de type « chaîne de pensée ».

Zhiyu Ni, Yifeng Xiao, Zheng Liang2026-03-10💻 cs

Required-edge Cycle Cover Problem: an ASP-Completeness Framework for Graph Problems and Puzzles

Cet article introduit le problème de couverture de cycles à arêtes requises (RCCP) et son modèle de flot équivalent pour établir un cadre ASP-complet permettant de prouver la complexité de nombreux puzzles papier-crayon, dont le Kakuro, le Chocona et le Shimaguni, tout en résolvant des problèmes ouverts liés à la satisfiabilité des graphes de contraintes.

Kosuke Susukita, Junichi Teruyama2026-03-10💻 cs

Sharing is caring: Attestable and Trusted Workflows out of Distrustful Components

Ce papier présente Mica, une architecture de calcul confidentiel basée sur Arm CCA qui découple la confidentialité de la confiance en permettant aux locataires de définir, restreindre et attester explicitement les chemins de communication entre des composants TEE non fiables, garantissant ainsi l'absence de fuites de données sensibles avec un impact minimal sur la base de confiance.

Amir Al Sadi, Sina Abdollahi, Adrien Ghosn, Hamed Haddadi, Marios Kogias2026-03-10💻 cs

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Ce papier présente LDP-Slicing, un cadre léger et sans entraînement qui améliore l'utilité des images sous la protection de la confidentialité différentielle locale (LDP) en décomposant les valeurs des pixels en plans de bits binaires, en intégrant une module d'obfuscation perceptuelle et une allocation optimisée du budget de confidentialité.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

← Précédent Suivant →