cs articles | Gist.Science

Tokenizing Semantic Segmentation with RLE

Cette article présente une approche unifiée de la segmentation sémantique pour les images et les vidéos qui transforme les masques en séquences de tokens discrets via un codage par longueurs de course (RLE) et un modèle de langage autorégressif, tout en intégrant des stratégies de compression et des informations d'instances pour la segmentation panoptique.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

Ce papier présente EmoOmni, un cadre unifié qui améliore la compréhension et l'expression émotionnelles dans les modèles de langage omni-modaux grâce à une chaîne de pensée émotionnelle (E-CoT), tout en fournissant un jeu de données annoté et une nouvelle évaluation pour ce domaine.

Wenjie Tian, Zhixian Zhao, Jingbin Hu, Huakang Chen, Haohe Liu, Binshen Mu, Lei Xie2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine est un modèle de diffusion en une étape qui automatise et accélère le raffinement des structures moléculaires à partir de cartes de densité cryo-EM, surpassant les méthodes traditionnelles en termes de rapidité et de qualité géométrique.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Cet article explore comment les agents IA, capables d'exécuter des pipelines de recherche complets via le concept de « vibe researching », redéfinissent les limites de l'automatisation en sciences sociales en augmentant l'efficacité méthodologique tout en soulignant les défis persistants liés à l'originalité théorique et aux implications éthiques pour la profession.

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

Cette étude démontre que la majorité de la divergence entre médecins dans l'évaluation HealthBench est structurelle et inexplicable par les métadonnées, bien que la réduction des incertitudes réductibles (comme le manque de contexte) puisse significativement diminuer les désaccords sur les cas limites.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Le papier présente WISER, un cadre d'extraction d'images composées sans entraînement qui améliore la recherche zéro-shot en unifiant les approches texte-vers-image et image-vers-image via un pipeline d'exploration élargie, de fusion adaptative et de réflexion itérative pour surmonter les limites des méthodes existantes.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Le papier présente PackUV, une nouvelle méthode de représentation 4D qui convertit les attributs gaussiens en cartes UV structurées pour une compatibilité native avec les codecs vidéo standards, permettant ainsi un stockage compact et un streaming efficace de vidéos volumétriques de longue durée grâce à la méthode d'ajustement PackUV-GS et au nouveau jeu de données PackUV-2B.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

Cet article propose une approche de planification généralisée fondée sur l'apprentissage de modèles de transition explicites par des réseaux de neurones, démontrant que cette méthode surpasse les modèles prédictifs directs en termes de généralisation hors distribution et d'efficacité des échantillons tout en nécessitant moins de données et de paramètres.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Ce papier présente HART, une méthode d'apprentissage par renforcement sans annotation qui permet aux modèles multimodaux de grande taille de raisonner efficacement sur des images haute résolution en identifiant et en vérifiant automatiquement les régions clés.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

PEPA: a Persistently Autonomous Embodied Agent with Personalities

Le papier présente PEPA, une architecture cognitive à trois couches qui confère à un agent robotique une autonomie persistante en utilisant des traits de personnalité pour générer ses propres objectifs et s'adapter de manière durable à des environnements dynamiques sans supervision humaine.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Ce papier présente l'Infinite Self-Attention (InfSA), une reformulation spectrale de l'attention qui modélise les interactions entre jetons comme une diffusion sur un graphe, et propose sa variante linéaire (Linear-InfSA) permettant aux Transformers de vision de traiter des images de très haute résolution avec une efficacité computationnelle et énergétique accrue tout en surpassant les architectures basées sur le softmax.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Le papier présente WildActor, un cadre de génération vidéo humain qui préserve l'identité corporelle sous des angles et des mouvements variés grâce à un nouveau jeu de données à grande échelle (Actor-18M) et à des mécanismes d'attention asymétrique combinés à un échantillonnage adaptatif.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Ce papier de position soutient que l'évaluation des systèmes de traitement visuel doit évoluer d'une approche centrée sur des métriques objectives vers une approche humanocentrée, contextuelle et nuancée, afin de mieux refléter la perception humaine et de ne pas entraver l'innovation.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

Sustainable Care: Designing Technologies That Support Children's Long-Term Engagement with Social Issues

Cet atelier propose le concept de « soin durable » comme nouveau cadre de conception pour développer des technologies qui permettent aux enfants de s'engager durablement dans des causes sociales sans subir de détresse empathique ni d'épuisement.

JaeWon Kim, Aayushi Dangol, Rotem Landesman, Alexis Hiniker, McKenna F. Parnes2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Le papier présente DeAR, un cadre d'adaptation fine-granularité pour les modèles vision-langage qui décompose les rôles des têtes d'attention pour isoler les connaissances de généralisation des tâches spécifiques, permettant ainsi d'équilibrer efficacement l'adaptation aux tâches et la préservation des capacités zéro-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

Digital Twin-Based Cooling System Optimization for Data Center

Cet article présente l'optimisation du système de refroidissement liquide du supercalculateur Frontier via un jumeau numérique validé, démontrant qu'une stratégie de co-optimisation contrainte du débit et de la température d'alimentation permet des économies d'énergie totales de 27,8 %, soit près du double de celles obtenues par la seule réduction du débit.

Shrenik Jadhav, Zheng Liu2026-03-10💻 cs

Extended Empirical Validation of the Explainability Solution Space

Ce rapport technique valide l'extension du cadre de l'Espace de Solutions d'Explicabilité (ESS) au-delà de la prédiction du départ des employés en le testant sur un système hétérogène d'allocation de ressources urbaines, confirmant ainsi sa généralité et son adaptabilité aux différents rôles de gouvernance et profils de risque dans les systèmes socio-techniques.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Energy Efficient Traffic Scheduling For Optical LEO Satellite Downlinks

Cet article propose et évalue des schémas statiques et adaptatifs, incluant des algorithmes d'apprentissage par renforcement, pour optimiser l'efficacité énergétique des liaisons descendantes optiques des satellites LEO tout en maintenant un taux de livraison acceptable malgré les perturbations météorologiques.

Ethan Fettes, Pablo G. Madoery, Halim Yanikomeroglu, Gunes Karabulut Kurt, Abhishek Naik, Stéphane Martel2026-03-10💻 cs

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell est un cadre d'agent automatisé qui résout les hétérogénéités sémantiques et statistiques dans l'étude des perturbations cellulaires uniques en utilisant un unificateur sémantique piloté par un LLM et un moteur de recherche arborescente adaptatif pour modéliser virtuellement des cellules sans ingénierie spécifique aux jeux de données.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

Cet article propose un nouveau cadre en boucle fermée piloté par les grands modèles de langage (LLM) qui améliore l'apprentissage par renforcement profond en facilitant la réutilisation de compétences sémantiques et la surveillance des contraintes, ce qui se traduit par une meilleure efficacité des données, une conformité accrue et une transférabilité inter-tâches.

Chang Yao, Jinghui Qin, Kebing Jin, Hankz Hankui Zhuo2026-03-10💻 cs

← Précédent Suivant →