cs.LG articles | Gist.Science

Bayesian Monocular Depth Refinement via Neural Radiance Fields

Le papier présente MDENeRF, un cadre itératif bayésien qui affine les estimations de profondeur monoculaire en fusionnant une structure globale avec des détails géométriques fins dérivés de l'incertitude des Champs de Radiance Neuronaux (NeRF).

Arun Muthukkumar2026-03-09🤖 cs.LG

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Cet article propose un cadre de reconnaissance automatique de la parole audiovisuelle (AVSR) robuste au bruit qui, en éliminant les masques explicites et en utilisant une fusion de type Conformer assistée par la vidéo, améliore les performances de reconnaissance dans des environnements bruyants tout en préservant l'intégrité sémantique de la parole.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

Beyond Mapping : Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans

Cet article propose une méthode d'adaptation de domaine sans supervision qui génère des représentations invariantes aux domaines en interprétant les plans de transport optimal lissés comme des matrices d'adjacence de graphes bipartis pour en extraire des embeddings spectraux, démontrant ainsi son efficacité sur des tâches de reconnaissance audio et de détection de défauts électriques.

Abdel Djalil Sad Saoud, Fred Maurice Ngolè Mboula, Hanane Slimani2026-03-09🤖 cs.LG

Laser interferometry as a robust neuromorphic platform for machine learning

Ce papier présente une méthode robuste pour implémenter des réseaux de neurones optiques utilisant uniquement des ressources linéaires et des états cohérents, permettant un apprentissage et une inférence *in situ* efficaces tout en démontrant une grande résilience face aux pertes de photons.

Amanuel Anteneh, Kyungeun Kim, J. M. Schwarz, Israel Klich, Olivier Pfister2026-03-09🔬 physics.optics

Neural Signals Generate Clinical Notes in the Wild

Les auteurs proposent CELM, le premier modèle fondamental multimodal capable de générer automatiquement des rapports cliniques détaillés à partir d'enregistrements EEG de longue durée, en obtenant des améliorations significatives par rapport aux méthodes existantes grâce à l'intégration de modèles de langage et de signaux neuronaux pré-entraînés.

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun2026-03-09🤖 cs.AI

Online unsupervised Hebbian learning in deep photonic neuromorphic networks

Les auteurs présentent une architecture de réseau neuromorphique photonique profond entièrement optique qui permet un apprentissage non supervisé en ligne via un mécanisme de rétroaction locale et des synapses à base de matériaux à changement de phase, démontrant expérimentalement une reconnaissance de lettres à 100 % sans conversions opto-électroniques.

Xi Li, Disha Biswas, Peng Zhou, Wesley H. Brigner, Anna Capuano, Joseph S. Friedman, Qing Gu2026-03-09🔬 physics.optics

ZK-HybridFL: Zero-Knowledge Proof-Enhanced Hybrid Ledger for Federated Learning

Le papier présente ZK-HybridFL, un cadre d'apprentissage fédéré décentralisé sécurisé qui combine un registre DAG, des sidechains et des preuves à divulgation nulle de connaissance pour valider les mises à jour de modèles sans compromettre la confidentialité des données, tout en offrant une convergence plus rapide, une meilleure précision et une robustesse accrue face aux attaques par rapport aux solutions existantes.

Amirhossein Taherpour, Xiaodong Wang2026-03-09🤖 cs.LG

EDIS: Diagnosing LLM Reasoning via Entropy Dynamics

Ce papier propose l'EDIS, une métrique diagnostique basée sur l'évolution temporelle de l'entropie des tokens, qui permet d'identifier les schémas d'instabilité caractéristiques des erreurs de raisonnement dans les grands modèles de langage pour améliorer leur précision.

Chenghua Zhu, Siyan Wu, Xiangkang Zeng, Zishan Xu, Zhaolu Kang, Yifu Guo, Yuquan Lu, Junduan Huang, Guojing Zhou2026-03-09🤖 cs.LG

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Cet article propose la Décodage d'Exploration Latente (LED), une stratégie de décodage sans entraînement qui exploite l'asymétrie d'entropie entre les couches intermédiaires et finales des modèles de raisonnement pour restaurer l'exploration et améliorer les performances de raisonnement.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

Stress-Testing Alignment Audits With Prompt-Level Strategic Deception

Cette étude présente un pipeline de red-team automatique qui démontre, pour la première fois, que les méthodes d'audit d'alignement actuelles, tant en boîte noire qu'en boîte blanche, peuvent être trompées par des stratégies de déception au niveau des invites, révélant ainsi leur manque de robustesse face à des modèles mal alignés et stratégiquement conscients.

Oliver Daniels, Perusha Moodley, Benjamin M. Marlin, David Lindner2026-03-09🤖 cs.LG

Latent Poincaré Shaping for Agentic Reinforcement Learning

L'article propose LaPha, une méthode entraînant des agents LLM de type AlphaZero dans un espace latent de Poincaré pour exploiter sa capacité exponentielle et guider la recherche par des récompenses basées sur la géodésique hyperbolique, permettant ainsi d'atteindre des performances exceptionnelles sur des benchmarks mathématiques comme MATH-500 et AIME.

Hanchen Xia, Baoyou Chen, Zelin Zang, Yutang Ge, Guojiang Zhao, Siyu Zhu2026-03-09🤖 cs.LG

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Cet article propose un protocole de validation par perturbation pour s'assurer que les cartes de saillance utilisées dans la prédiction de l'efficacité des siRNA sont fidèles avant leur application thérapeutique, révélant ainsi des modes d'échec critiques et introduisant un régularisateur biologique (BioPrior) pour améliorer leur fiabilité.

Zahra Khodagholi, Niloofar Yousefi2026-03-09🤖 cs.LG

Towards Autonomous Mathematics Research

Ce travail présente Aletheia, un agent de recherche mathématique autonome capable de générer, vérifier et réviser des solutions de bout en bout, démontrant ainsi des avancées significatives allant de la résolution de problèmes olympiques à la production de résultats de recherche doctorale et à la collaboration humain-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink

Cet article analyse le biais de « noyau diagonal » dans les mécanismes d'attention temporelle des modèles spatio-temporels, propose des bornes de sensibilité théoriques pour expliquer ce phénomène et démontre expérimentalement l'efficacité de méthodes de régularisation pour y remédier.

Victoria Hankemeier, Malte Schilling2026-03-09🤖 cs.LG

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Le papier présente SWE-MiniSandbox, une méthode légère sans conteneurs qui utilise des mécanismes au niveau du noyau et une mise en cache prédictive pour permettre un entraînement évolutif d'agents d'ingénierie logicielle par apprentissage par renforcement, réduisant ainsi considérablement l'utilisation du disque et le temps de préparation de l'environnement par rapport aux pipelines traditionnels basés sur des conteneurs.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Ce papier présente MiDAS, un système open-source et agnostique de plateforme permettant l'acquisition multimodale non invasive et synchronisée de données pour la chirurgie robotique mini-invasive, validé sur des robots Raven-II et da Vinci Xi avec des jeux de données annotés incluant des tâches de suture de hernie.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Cette étude propose AHSIV, un cadre de sélection de modèles adaptatif qui intègre la dégradation des métriques selon l'horizon de prévision et la classification de la demande intermittente pour optimiser la prise de décision opérationnelle dans des environnements commerciaux hétérogènes.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Le papier présente GaiaFlow, un cadre innovant qui optimise l'équilibre entre la précision de la recherche et la durabilité environnementale en utilisant un réglage de diffusion guidé sémantiquement et des protocoles d'arrêt adaptatif pour réduire l'empreinte carbone des systèmes de recherche neuronaux.

Rong Fu, Jia Yee Tan, Chunlei Meng, Shuo Yin, Xiaowen Ma, Wangyu Wu, Muge Qi, Guangzhen Yao, Zhaolu Kang, Zeli Su, Simon Fong2026-03-09🤖 cs.LG

MolCrystalFlow: Molecular Crystal Structure Prediction via Flow Matching

Le papier présente MolCrystalFlow, un modèle génératif basé sur l'appariement de flux qui prédit les structures de cristaux moléculaires en traitant les molécules comme des corps rigides et en apprenant conjointement les paramètres du réseau cristallin, les orientations et les positions des centres de masse sur leurs variétés riemanniennes respectives.

Cheng Zeng, Harry W. Sullivan, Thomas Egg, Maya M. Martirossyan, Philipp Höllmer, Jirui Jin, Richard G. Hennig, Adrian Roitberg, Stefano Martiniani, Ellad B. Tadmor, Mingjie Liu2026-03-09🔬 cond-mat.mtrl-sci

The Limits of Long-Context Reasoning in Automated Bug Fixing

Cette étude révèle que, malgré des performances prometteuses dans des flux de travail agentiques, les modèles de langage actuels échouent à raisonner efficacement sur de longs contextes pour la correction de bugs, car leur succès repose davantage sur la décomposition des tâches en étapes à court contexte que sur une véritable capacité de raisonnement étendu.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish Thakker2026-03-09🤖 cs.LG

← Précédent Suivant →