cs.AI articles | Gist.Science

Logos: An evolvable reasoning engine for rational molecular design

Le papier présente Logos, un modèle de raisonnement moléculaire compact et évolutif qui intègre un raisonnement logique transparent et des contraintes chimiques strictes pour garantir la validité des structures générées, surpassant ainsi les grands modèles de langage tout en permettant une inspection humaine du processus de conception.

Haibin Wen, Zhe Zhao, Fanfu Wang, Tianyi Xu, Hao Zhang, Chao Yang, Ye WeiWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Ce papier présente DendroNN, un réseau de neurones bio-inspiré qui exploite les mécanismes de détection de séquences des dendrites pour classifier efficacement des données événementielles via une phase de ré câblage sans gradient et une architecture matérielle asynchrone, surpassant ainsi les solutions neuromorphiques existantes en termes d'efficacité énergétique.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Le papier présente DenoiseSplat, une méthode de splatting gaussien 3D feed-forward capable de reconstruire des scènes à partir d'images multivues bruitées en s'entraînant uniquement sur des rendus 2D propres, surpassant ainsi les approches existantes sur un nouveau benchmark bruité dérivé de RE10K.

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Cette étude démontre que la conception de l'échelle de confiance utilisée par les LLMs influence directement la qualité de leur incertitude verbalisée, révélant que des échelles plus granulaires (comme 0-20) améliorent leur métacognition par rapport à l'échelle standard 0-100, qui souffre d'une forte discrétisation et de biais de préférence pour les nombres ronds.

Yuyang DaiWed, 11 Ma🤖 cs.AI

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Ce papier remet en cause l'hypothèse de linéarité dans le pilotage des grands modèles de langage en démontrant que les espaces d'activation présentent des distorsions géométriques significatives, et propose une méthode de « Curveball steering » non linéaire basée sur l'ACP à noyau polynomial pour mieux respecter cette géométrie intrinsèque et améliorer les performances de contrôle.

Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali AbdullahWed, 11 Ma🤖 cs.AI

CLoE: Expert Consistency Learning for Missing Modality Segmentation

L'article présente CLoE, un cadre d'apprentissage par consistance des experts qui améliore la segmentation des images médicales multimodales en cas de modalités manquantes en assurant l'accord entre les experts aux niveaux global et régional, tout en recalibrant dynamiquement les caractéristiques selon leur fiabilité.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Ce papier présente SpaceSense-Bench, un benchmark multi-modal à grande échelle généré par simulation haute fidélité pour l'apprentissage de la perception et de l'estimation de pose des engins spatiaux, mettant en évidence l'importance cruciale de la diversité des données pour surmonter les limitations actuelles des méthodes face à de nouvelles cibles et à des composants de petite taille.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

Cette étude propose un pipeline d'interaction VR intégrant la reconnaissance des émotions vocales dans le contexte des agents conversationnels, démontrant qu'informer les modèles de langage de l'état émotionnel de l'utilisateur améliore significativement la qualité, le naturel et l'engagement des échanges.

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun KimWed, 11 Ma🤖 cs.AI

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Le papier présente TimberAgent, une méthode de contrôle d'effets audio basée sur la récupération guidée par la grammaire (TRR) qui utilise des matrices de Gram issues de Wav2Vec2 pour combler l'écart sémantique entre l'intention de l'utilisateur et les paramètres de traitement du signal, démontrant ainsi une supériorité sur les méthodes existantes pour la génération de configurations de plugins éditable.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Ce papier présente le benchmark STAR, un cadre d'évaluation multi-agents en environnement zéro somme qui révèle que la supériorité stratégique des LLMs dépend d'un équilibre critique entre la profondeur du raisonnement et la rapidité d'exécution, les modèles plus rapides surpassant souvent les modèles de raisonnement dans les scénarios en temps réel.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Le papier présente TaSR-RAG, un cadre de raisonnement structuré guidé par une taxonomie qui améliore les systèmes RAG en décomposant les requêtes complexes en séquences de triples relationnels pour une sélection de preuves plus précise et un raisonnement multi-sauts plus fiable, sans nécessiter de construction de graphes coûteuse.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Robust Regularized Policy Iteration under Transition Uncertainty

Ce papier propose la Robust Regularized Policy Iteration (RRPI), une méthode d'apprentissage par renforcement hors ligne qui traite l'incertitude de transition via une optimisation robuste régularisée par KL pour garantir une convergence monotone et améliorer la performance sur les environnements D4RL en évitant les actions hors distribution.

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu ZhangWed, 11 Ma🤖 cs.AI

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Ce papier propose TA-GGAD, un modèle graphique fondamental adaptatif qui résout le problème de décalage de domaine dans la détection d'anomalies en modélisant la « désassortativité des anomalies » pour atteindre un état de l'art généralisable sur divers graphes réels avec un seul entraînement.

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng XieWed, 11 Ma🤖 cs.AI

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Cet article propose un cadre d'optimisation d'ordre zéro et privé différentiellement pour étendre la condensation de données aux modèles cliniques non différentiables, permettant ainsi le partage sécurisé de données synthétiques préservant l'utilité des modèles de prédiction médicale.

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. CliftonWed, 11 Ma🤖 cs.AI

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Le papier propose M3GCLR, un cadre d'apprentissage contrastif basé sur la théorie des jeux qui résout les limites des méthodes existantes en modélisant les écarts de vue et les perturbations d'augmentation via un jeu mini-max infini, permettant ainsi d'atteindre des performances de pointe en reconnaissance d'actions squelettiques auto-supervisée.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Ce papier propose MIL-PF, un cadre d'apprentissage multiple-instance sur des caractéristiques précalculées qui combine des encodeurs fondationnels figés avec un module d'agrégation léger pour réaliser une classification mammographique performante et économe en calculs, tout en gérant efficacement les images haute résolution et le manque d'annotations.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Le papier présente SPAARS, un cadre d'apprentissage par renforcement offline-to-online qui améliore la sécurité et l'efficacité de l'échantillonnage en initiant l'exploration dans un espace latent restreint avant de basculer vers l'espace d'action brut, surmontant ainsi les limitations de reconstruction des méthodes précédentes et surpassant les performances des modèles de base sur plusieurs tâches robotiques.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Cet article présente le modèle Pulse-Train-Resonator (PTR), une architecture de synthèse audio différentiable qui intègre des biais physiques pour générer des sons de moteur réalistes en modélisant directement les impulsions de pression et les résonances d'échappement, surpassant ainsi les approches basées sur les harmoniques.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Ce rapport présente le défi ICDAR 2025 sur la traduction automatique de documents image, qui a réuni 69 équipes pour évaluer des systèmes end-to-end capables de gérer des mises en page complexes via deux pistes (avec et sans OCR) et deux catégories de modèles, démontrant ainsi le potentiel prometteur des approches à grande échelle pour ce domaine.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Cet article présente le modèle de diffusion entièrement convolutif (FCDM), une architecture inspirée de ConvNeXt qui offre une alternative hautement efficace et compétitive aux modèles basés sur les Transformers, permettant un entraînement performant avec moins de ressources computationnelles et de matériel.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

← Précédent Suivant →