cs.AI articles | Gist.Science

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Le papier présente DenoiseSplat, une méthode de splatting gaussien 3D feed-forward capable de reconstruire des scènes à partir d'images multivues bruitées en s'entraînant uniquement sur des rendus 2D propres, surpassant ainsi les approches existantes sur un nouveau benchmark bruité dérivé de RE10K.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Cette étude démontre que la conception de l'échelle de confiance utilisée par les LLMs influence directement la qualité de leur incertitude verbalisée, révélant que des échelles plus granulaires (comme 0-20) améliorent leur métacognition par rapport à l'échelle standard 0-100, qui souffre d'une forte discrétisation et de biais de préférence pour les nombres ronds.

Yuyang Dai2026-03-11🤖 cs.AI

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Ce papier remet en cause l'hypothèse de linéarité dans le pilotage des grands modèles de langage en démontrant que les espaces d'activation présentent des distorsions géométriques significatives, et propose une méthode de « Curveball steering » non linéaire basée sur l'ACP à noyau polynomial pour mieux respecter cette géométrie intrinsèque et améliorer les performances de contrôle.

Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali Abdullah2026-03-11🤖 cs.AI

CLoE: Expert Consistency Learning for Missing Modality Segmentation

L'article présente CLoE, un cadre d'apprentissage par consistance des experts qui améliore la segmentation des images médicales multimodales en cas de modalités manquantes en assurant l'accord entre les experts aux niveaux global et régional, tout en recalibrant dynamiquement les caractéristiques selon leur fiabilité.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Ce papier présente SpaceSense-Bench, un benchmark multi-modal à grande échelle généré par simulation haute fidélité pour l'apprentissage de la perception et de l'estimation de pose des engins spatiaux, mettant en évidence l'importance cruciale de la diversité des données pour surmonter les limitations actuelles des méthodes face à de nouvelles cibles et à des composants de petite taille.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

Cette étude propose un pipeline d'interaction VR intégrant la reconnaissance des émotions vocales dans le contexte des agents conversationnels, démontrant qu'informer les modèles de langage de l'état émotionnel de l'utilisateur améliore significativement la qualité, le naturel et l'engagement des échanges.

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun Kim2026-03-11🤖 cs.AI

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Le papier présente TimberAgent, une méthode de contrôle d'effets audio basée sur la récupération guidée par la grammaire (TRR) qui utilise des matrices de Gram issues de Wav2Vec2 pour combler l'écart sémantique entre l'intention de l'utilisateur et les paramètres de traitement du signal, démontrant ainsi une supériorité sur les méthodes existantes pour la génération de configurations de plugins éditable.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli Zhang2026-03-11🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Ce papier présente le benchmark STAR, un cadre d'évaluation multi-agents en environnement zéro somme qui révèle que la supériorité stratégique des LLMs dépend d'un équilibre critique entre la profondeur du raisonnement et la rapidité d'exécution, les modèles plus rapides surpassant souvent les modèles de raisonnement dans les scénarios en temps réel.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Le papier présente TaSR-RAG, un cadre de raisonnement structuré guidé par une taxonomie qui améliore les systèmes RAG en décomposant les requêtes complexes en séquences de triples relationnels pour une sélection de preuves plus précise et un raisonnement multi-sauts plus fiable, sans nécessiter de construction de graphes coûteuse.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Robust Regularized Policy Iteration under Transition Uncertainty

Ce papier propose la Robust Regularized Policy Iteration (RRPI), une méthode d'apprentissage par renforcement hors ligne qui traite l'incertitude de transition via une optimisation robuste régularisée par KL pour garantir une convergence monotone et améliorer la performance sur les environnements D4RL en évitant les actions hors distribution.

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang2026-03-11🤖 cs.AI

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Ce papier propose TA-GGAD, un modèle graphique fondamental adaptatif qui résout le problème de décalage de domaine dans la détection d'anomalies en modélisant la « désassortativité des anomalies » pour atteindre un état de l'art généralisable sur divers graphes réels avec un seul entraînement.

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng Xie2026-03-11🤖 cs.AI

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Cet article propose un cadre d'optimisation d'ordre zéro et privé différentiellement pour étendre la condensation de données aux modèles cliniques non différentiables, permettant ainsi le partage sécurisé de données synthétiques préservant l'utilité des modèles de prédiction médicale.

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. Clifton2026-03-11🤖 cs.AI

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Le papier propose M3GCLR, un cadre d'apprentissage contrastif basé sur la théorie des jeux qui résout les limites des méthodes existantes en modélisant les écarts de vue et les perturbations d'augmentation via un jeu mini-max infini, permettant ainsi d'atteindre des performances de pointe en reconnaissance d'actions squelettiques auto-supervisée.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Ce papier propose MIL-PF, un cadre d'apprentissage multiple-instance sur des caractéristiques précalculées qui combine des encodeurs fondationnels figés avec un module d'agrégation léger pour réaliser une classification mammographique performante et économe en calculs, tout en gérant efficacement les images haute résolution et le manque d'annotations.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Le papier présente SPAARS, un cadre d'apprentissage par renforcement offline-to-online qui améliore la sécurité et l'efficacité de l'échantillonnage en initiant l'exploration dans un espace latent restreint avant de basculer vers l'espace d'action brut, surmontant ainsi les limitations de reconstruction des méthodes précédentes et surpassant les performances des modèles de base sur plusieurs tâches robotiques.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Cet article présente le modèle Pulse-Train-Resonator (PTR), une architecture de synthèse audio différentiable qui intègre des biais physiques pour générer des sons de moteur réalistes en modélisant directement les impulsions de pression et les résonances d'échappement, surpassant ainsi les approches basées sur les harmoniques.

Robin Doerfler, Lonce Wyse2026-03-11🤖 cs.AI

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Ce rapport présente le défi ICDAR 2025 sur la traduction automatique de documents image, qui a réuni 69 équipes pour évaluer des systèmes end-to-end capables de gérer des mises en page complexes via deux pistes (avec et sans OCR) et deux catégories de modèles, démontrant ainsi le potentiel prometteur des approches à grande échelle pour ce domaine.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Cet article présente le modèle de diffusion entièrement convolutif (FCDM), une architecture inspirée de ConvNeXt qui offre une alternative hautement efficace et compétitive aux modèles basés sur les Transformers, permettant un entraînement performant avec moins de ressources computationnelles et de matériel.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Ce papier présente PromptDLA, un cadre d'analyse de mise en page de documents sensible au domaine qui intègre des connaissances descriptives via un générateur d'invocations personnalisé pour améliorer la généralisation et atteindre les performances les plus avancées sur plusieurs ensembles de données publics.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

Cet article propose un cadre de distillation de distribution basé sur l'estimation de vraisemblance maximale implicite (IMLE) qui transforme une politique experte à base de flux conditionnel en une politique étudiante en une seule étape, permettant un contrôle robotique multi-modal en temps réel sans effondrement de la distribution.

Ju Dong, Liding Zhang, Lei Zhang, Yu Fu, Kaixin Bai, Zoltan-Csaba Marton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang2026-03-11🤖 cs.AI

← Précédent Suivant →