cs articles | Gist.Science

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Cet article introduit le nouveau cadre de la généralisation de domaine à vocabulaire ouvert pour la segmentation sémantique urbaine, accompagné d'un benchmark dédié et d'une méthode innovante nommée S2-Corr, qui améliore la robustesse des modèles face aux changements de domaine et aux catégories inédites en affinant les corrélations texte-image.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Cet article présente INDUCTION, un nouveau benchmark évaluant la capacité des modèles à synthétiser des concepts logiques du premier ordre à partir de structures finies, en mettant en évidence des gradients de difficulté marqués et l'importance de la concision des formules pour la généralisation.

Serafim Batzoglou2026-03-10💻 cs

SKYLIGHT: A Scalable Hundred-Channel 3D Photonic In-Memory Tensor Core Architecture for Real-time AI Inference

Ce papier présente SKYLIGHT, une architecture de cœur tensoriel photonique 3D à cent canaux et à mémoire intégrée qui surpasse les GPU NVIDIA en efficacité énergétique pour l'inférence IA en temps réel tout en permettant l'apprentissage local sans étiquettes grâce à des mises à jour de poids in situ.

Meng Zhang, Ziang Yin, Nicholas Gangi, Alexander Chen, Brett Bamfo, Tianle Xu, Jiaqi Gu, Zhaoran Rena Huang2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Le papier présente UniMatch, un cadre novateur utilisant des modèles de langage multimodaux pour établir des correspondances sémantiques denses entre des formes 3D non isométriques de catégories variées grâce à une approche en deux étapes, allant d'une segmentation sémantique grossière à un apprentissage fin guidé par le langage.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

Why iCloud Fails: The Category Mistake of Cloud Synchronization

Ce papier démontre que les échecs d'iCloud, notamment dans les flux de travail de développement, résultent d'une erreur de catégorie fondamentale consistant à projeter un graphe causal distribué sur une chaîne temporelle linéaire, et propose que les sémantiques transactionnelles de l'Open Atomic Ethernet offrent une solution structurelle en alignant les protocoles sur la réalité physique.

Paul Borrill2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

L'article propose InfScene-SR, une méthode de super-résolution d'images basée sur les modèles de diffusion qui permet de traiter des images de taille arbitraire sans artefacts de bordure grâce à une fusion itérative de patches corrigée par variance, rendant ainsi possible un inférence parallèle efficace sur des scènes gigapixels.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Cet article propose une méthode de décomposition et de recomposition en ligne des objets, des scènes et des poses de caméra pour générer des données d'entraînement diversifiées et améliorer l'efficacité de la détection 3D d'objets monoculaire, même avec des annotations limitées.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Cet article présente un cadre de décomposition d'images en couches basé sur l'apprentissage contextuel et l'adaptation LoRA de modèles de diffusion, qui utilise une stratégie d'ajustement cyclique et un processus d'amélioration progressive pour séparer efficacement des éléments complexes comme les logos de leurs arrière-plans tout en préservant la cohérence visuelle.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Cet article présente un cadre d'inférence itératif et sans entraînement, nommé « See It, Say It, Sorted », qui atténue les hallucinations visuelles dans les modèles de langage-vision en supervisant chaque étape du raisonnement par des preuves visuelles dynamiquement extraites de l'image.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Ce papier présente ARLArena, un cadre unifié pour l'analyse de la stabilité de l'apprentissage par renforcement agentique, et propose SAMPO, une méthode d'optimisation qui garantit un entraînement stable et performant sur diverses tâches interactives complexes.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Cette article présente une approche unifiée de la segmentation sémantique pour les images et les vidéos qui transforme les masques en séquences de tokens discrets via un codage par longueurs de course (RLE) et un modèle de langage autorégressif, tout en intégrant des stratégies de compression et des informations d'instances pour la segmentation panoptique.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

Ce papier présente EmoOmni, un cadre unifié qui améliore la compréhension et l'expression émotionnelles dans les modèles de langage omni-modaux grâce à une chaîne de pensée émotionnelle (E-CoT), tout en fournissant un jeu de données annoté et une nouvelle évaluation pour ce domaine.

Wenjie Tian, Zhixian Zhao, Jingbin Hu, Huakang Chen, Haohe Liu, Binshen Mu, Lei Xie2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine est un modèle de diffusion en une étape qui automatise et accélère le raffinement des structures moléculaires à partir de cartes de densité cryo-EM, surpassant les méthodes traditionnelles en termes de rapidité et de qualité géométrique.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Cet article explore comment les agents IA, capables d'exécuter des pipelines de recherche complets via le concept de « vibe researching », redéfinissent les limites de l'automatisation en sciences sociales en augmentant l'efficacité méthodologique tout en soulignant les défis persistants liés à l'originalité théorique et aux implications éthiques pour la profession.

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

Cette étude démontre que la majorité de la divergence entre médecins dans l'évaluation HealthBench est structurelle et inexplicable par les métadonnées, bien que la réduction des incertitudes réductibles (comme le manque de contexte) puisse significativement diminuer les désaccords sur les cas limites.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Le papier présente WISER, un cadre d'extraction d'images composées sans entraînement qui améliore la recherche zéro-shot en unifiant les approches texte-vers-image et image-vers-image via un pipeline d'exploration élargie, de fusion adaptative et de réflexion itérative pour surmonter les limites des méthodes existantes.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Le papier présente PackUV, une nouvelle méthode de représentation 4D qui convertit les attributs gaussiens en cartes UV structurées pour une compatibilité native avec les codecs vidéo standards, permettant ainsi un stockage compact et un streaming efficace de vidéos volumétriques de longue durée grâce à la méthode d'ajustement PackUV-GS et au nouveau jeu de données PackUV-2B.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

Cet article propose une approche de planification généralisée fondée sur l'apprentissage de modèles de transition explicites par des réseaux de neurones, démontrant que cette méthode surpasse les modèles prédictifs directs en termes de généralisation hors distribution et d'efficacité des échantillons tout en nécessitant moins de données et de paramètres.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Ce papier présente HART, une méthode d'apprentissage par renforcement sans annotation qui permet aux modèles multimodaux de grande taille de raisonner efficacement sur des images haute résolution en identifiant et en vérifiant automatiquement les régions clés.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

PEPA: a Persistently Autonomous Embodied Agent with Personalities

Le papier présente PEPA, une architecture cognitive à trois couches qui confère à un agent robotique une autonomie persistante en utilisant des traits de personnalité pour générer ses propres objectifs et s'adapter de manière durable à des environnements dynamiques sans supervision humaine.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

← Précédent Suivant →