cs.AI articles | Gist.Science

Social-R1: Towards Human-like Social Reasoning in LLMs

Le papier présente Social-R1, un cadre d'apprentissage par renforcement qui, combiné au benchmark adversarial ToMBench-Hard, permet à un modèle de langage de 4 milliards de paramètres de surpasser des modèles plus grands en matière de raisonnement social grâce à un alignement trajectoriel multi-dimensionnel de la cognition humaine.

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen Meng2026-03-11🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Cette étude propose une approche multi-modèle basée sur l'apprentissage profond et la vision par ordinateur pour améliorer la sécurité et la fiabilité des véhicules autonomes en intégrant la détection de panneaux, de véhicules et de voies ainsi que l'apprentissage comportemental via des réseaux de neurones pré-entraînés et des techniques d'augmentation de données.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Logos: An evolvable reasoning engine for rational molecular design

Le papier présente Logos, un modèle de raisonnement moléculaire compact et évolutif qui intègre un raisonnement logique transparent et des contraintes chimiques strictes pour garantir la validité des structures générées, surpassant ainsi les grands modèles de langage tout en permettant une inspection humaine du processus de conception.

Haibin Wen, Zhe Zhao, Fanfu Wang, Tianyi Xu, Hao Zhang, Chao Yang, Ye Wei2026-03-11🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Ce papier présente DendroNN, un réseau de neurones bio-inspiré qui exploite les mécanismes de détection de séquences des dendrites pour classifier efficacement des données événementielles via une phase de ré câblage sans gradient et une architecture matérielle asynchrone, surpassant ainsi les solutions neuromorphiques existantes en termes d'efficacité énergétique.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen Becker2026-03-11🤖 cs.AI

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Le papier présente DenoiseSplat, une méthode de splatting gaussien 3D feed-forward capable de reconstruire des scènes à partir d'images multivues bruitées en s'entraînant uniquement sur des rendus 2D propres, surpassant ainsi les approches existantes sur un nouveau benchmark bruité dérivé de RE10K.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Cette étude démontre que la conception de l'échelle de confiance utilisée par les LLMs influence directement la qualité de leur incertitude verbalisée, révélant que des échelles plus granulaires (comme 0-20) améliorent leur métacognition par rapport à l'échelle standard 0-100, qui souffre d'une forte discrétisation et de biais de préférence pour les nombres ronds.

Yuyang Dai2026-03-11🤖 cs.AI

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Ce papier remet en cause l'hypothèse de linéarité dans le pilotage des grands modèles de langage en démontrant que les espaces d'activation présentent des distorsions géométriques significatives, et propose une méthode de « Curveball steering » non linéaire basée sur l'ACP à noyau polynomial pour mieux respecter cette géométrie intrinsèque et améliorer les performances de contrôle.

Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali Abdullah2026-03-11🤖 cs.AI

CLoE: Expert Consistency Learning for Missing Modality Segmentation

L'article présente CLoE, un cadre d'apprentissage par consistance des experts qui améliore la segmentation des images médicales multimodales en cas de modalités manquantes en assurant l'accord entre les experts aux niveaux global et régional, tout en recalibrant dynamiquement les caractéristiques selon leur fiabilité.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Ce papier présente SpaceSense-Bench, un benchmark multi-modal à grande échelle généré par simulation haute fidélité pour l'apprentissage de la perception et de l'estimation de pose des engins spatiaux, mettant en évidence l'importance cruciale de la diversité des données pour surmonter les limitations actuelles des méthodes face à de nouvelles cibles et à des composants de petite taille.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

Cette étude propose un pipeline d'interaction VR intégrant la reconnaissance des émotions vocales dans le contexte des agents conversationnels, démontrant qu'informer les modèles de langage de l'état émotionnel de l'utilisateur améliore significativement la qualité, le naturel et l'engagement des échanges.

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun Kim2026-03-11🤖 cs.AI

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Le papier présente TimberAgent, une méthode de contrôle d'effets audio basée sur la récupération guidée par la grammaire (TRR) qui utilise des matrices de Gram issues de Wav2Vec2 pour combler l'écart sémantique entre l'intention de l'utilisateur et les paramètres de traitement du signal, démontrant ainsi une supériorité sur les méthodes existantes pour la génération de configurations de plugins éditable.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli Zhang2026-03-11🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Ce papier présente le benchmark STAR, un cadre d'évaluation multi-agents en environnement zéro somme qui révèle que la supériorité stratégique des LLMs dépend d'un équilibre critique entre la profondeur du raisonnement et la rapidité d'exécution, les modèles plus rapides surpassant souvent les modèles de raisonnement dans les scénarios en temps réel.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Le papier présente TaSR-RAG, un cadre de raisonnement structuré guidé par une taxonomie qui améliore les systèmes RAG en décomposant les requêtes complexes en séquences de triples relationnels pour une sélection de preuves plus précise et un raisonnement multi-sauts plus fiable, sans nécessiter de construction de graphes coûteuse.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Robust Regularized Policy Iteration under Transition Uncertainty

Ce papier propose la Robust Regularized Policy Iteration (RRPI), une méthode d'apprentissage par renforcement hors ligne qui traite l'incertitude de transition via une optimisation robuste régularisée par KL pour garantir une convergence monotone et améliorer la performance sur les environnements D4RL en évitant les actions hors distribution.

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang2026-03-11🤖 cs.AI

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Ce papier propose TA-GGAD, un modèle graphique fondamental adaptatif qui résout le problème de décalage de domaine dans la détection d'anomalies en modélisant la « désassortativité des anomalies » pour atteindre un état de l'art généralisable sur divers graphes réels avec un seul entraînement.

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng Xie2026-03-11🤖 cs.AI

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Cet article propose un cadre d'optimisation d'ordre zéro et privé différentiellement pour étendre la condensation de données aux modèles cliniques non différentiables, permettant ainsi le partage sécurisé de données synthétiques préservant l'utilité des modèles de prédiction médicale.

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. Clifton2026-03-11🤖 cs.AI

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Le papier propose M3GCLR, un cadre d'apprentissage contrastif basé sur la théorie des jeux qui résout les limites des méthodes existantes en modélisant les écarts de vue et les perturbations d'augmentation via un jeu mini-max infini, permettant ainsi d'atteindre des performances de pointe en reconnaissance d'actions squelettiques auto-supervisée.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Ce papier propose MIL-PF, un cadre d'apprentissage multiple-instance sur des caractéristiques précalculées qui combine des encodeurs fondationnels figés avec un module d'agrégation léger pour réaliser une classification mammographique performante et économe en calculs, tout en gérant efficacement les images haute résolution et le manque d'annotations.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Le papier présente SPAARS, un cadre d'apprentissage par renforcement offline-to-online qui améliore la sécurité et l'efficacité de l'échantillonnage en initiant l'exploration dans un espace latent restreint avant de basculer vers l'espace d'action brut, surmontant ainsi les limitations de reconstruction des méthodes précédentes et surpassant les performances des modèles de base sur plusieurs tâches robotiques.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Cet article présente le modèle Pulse-Train-Resonator (PTR), une architecture de synthèse audio différentiable qui intègre des biais physiques pour générer des sons de moteur réalistes en modélisant directement les impulsions de pression et les résonances d'échappement, surpassant ainsi les approches basées sur les harmoniques.

Robin Doerfler, Lonce Wyse2026-03-11🤖 cs.AI

← Précédent Suivant →