cs.AI articles | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Cette étude démontre que le fine-tuning LoRA d'un modèle de langage compact (Qwen-0.5B) améliore significativement la fidélité vocale, la qualité perceptive et le rapport signal sur bruit dans les systèmes TTS, à condition que les données d'entraînement présentent une diversité acoustique suffisante.

Anupam Purwar, Aditya Choudhary2026-03-12🤖 cs.AI

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Ce papier propose une méthode d'entraînement par consensus historique, basée sur une sélection itérative de priors à mélange gaussien, qui élimine définitivement l'effondrement postérieur dans les autoencodeurs variationnels en créant une barrière historique stable qui exclut les solutions dégénérées, et ce sans nécessiter de conditions de stabilité explicites ni de contraintes architecturales.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control

Ce papier propose RAD, un cadre d'alignement novateur qui remplace les contraintes de coût espéré par des contraintes de dominance stochastique du premier ordre optimisées via le transport optimal, permettant ainsi un contrôle universel des risques spectraux et une meilleure robustesse face aux événements rares et aux distributions hors domaine.

Yaswanth Chittepu, Ativ Joshi, Rajarshi Bhattacharjee, Scott Niekum2026-03-12🤖 cs.LG

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Ce papier propose la méthode CCGE, une approche d'exploration guidée par la couverture des contacts qui améliore l'efficacité de l'apprentissage par renforcement profond pour la manipulation dextre généraliste en encourageant la découverte de nouveaux schémas de contact et en facilitant le transfert vers des systèmes robotiques réels.

Zixuan Liu, Ruoyi Qiao, Chenrui Tie, Xuanwei Liu, Yunfan Lou, Chongkai Gao, Zhixuan Xu, Lin Shao2026-03-12🤖 cs.AI

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Le papier présente GroundCount, un cadre qui améliore la précision du comptage des modèles vision-langage en intégrant des données de détection d'objets pour atténuer les hallucinations, démontrant que l'ancrage spatial explicite surpasse la fusion de caractéristiques implicite tout en réduisant le temps d'inférence.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Cet article démontre que l'intégration de l'intelligence artificielle, notamment via l'apprentissage automatique et le traitement du langage naturel, agit comme un catalyseur essentiel pour optimiser les méthodologies Agile, automatiser les tâches répétitives et favoriser l'innovation dans le génie logiciel.

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-Cisneros2026-03-12🤖 cs.AI

RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation

Cet article examine les défis méthodologiques que posent les propriétés dynamiques des systèmes d'IA de pointe pour les études d'amélioration humaine par essais contrôlés randomisés, en synthétisant les solutions pratiques proposées par des experts pour garantir la validité de ces évaluations dans des décisions à haut risque.

Patricia Paskov, Kevin Wei, Shen Zhou Hong, Dan Bateyko, Xavier Roberts-Gaal, Carson Ezell, Gailius Praninskas, Valerie Chen, Umang Bhatt, Ella Guest2026-03-12🤖 cs.AI

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Cette étude interdisciplinaire démontre que les modèles de vision-langage prédisent les styles artistiques en s'appuyant sur des concepts visuels cohérents et pertinents qui, dans 73 % des cas, correspondent aux critères d'analyse des historiens de l'art.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

Instruction set for the representation of graphs

Ce papier présente IsalGraph, une méthode qui encode la structure de tout graphe fini simple en une chaîne de caractères compacte et isomorphe-invariante, permettant des applications efficaces en recherche de similarité, génération de graphes et modélisation par langage.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Le papier présente V2M-Zero, une méthode de génération de musique à partir de vidéo sans données appariées qui assure un alignement temporel en exploitant les structures de changement communes entre les modalités via des courbes d'événements intra-modales, surpassant ainsi les approches basées sur des données appariées.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Ce papier présente NeFTY, un cadre de physique différentiable qui permet la reconstruction 3D quantitative des propriétés matérielles et la détection de défauts souterrains à partir de mesures thermiques de surface, en surmontant les limitations des approches traditionnelles et des réseaux de neurones physiques contraints.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

Le papier propose LiTo, une représentation latente 3D unifiée qui modélise conjointement la géométrie et l'apparence dépendante du point de vue en encodant des échantillons de champ lumineux de surface, permettant ainsi la génération d'objets 3D réalistes avec des effets d'éclairage complexes tels que les reflets spéculaires.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

Les auteurs proposent un système d'IA entièrement automatisé qui génère des vidéos comiques de type « sketch » en mobilisant une population d'agents inspirés des rôles d'un studio de production et en s'appuyant sur des critiques LLM entraînés sur des données YouTube pour évaluer et optimiser l'humour, produisant ainsi des résultats de qualité professionnelle.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

Cet article présente SDR-GAIN, une méthode temps réel innovante basée sur des réseaux antagonistes génératifs qui complète avec précision les poses piétonnes occluses en apprenant directement la distribution numérique des coordonnées des points clés, surpassant ainsi les approches existantes tout en garantissant une inférence ultra-rapide pour la conduite autonome.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding

Cet article propose le TSformer-SA, un transformateur de fusion temporelle-spectrale doté d'un adaptateur spécifique au sujet, qui améliore le décodage des interfaces cerveau-ordinateur basées sur la présentation visuelle rapide (RSVP) en exploitant des vues multiples et en réduisant le besoin de données d'entraînement pour de nouveaux sujets.

Xujin Li, Wei Wei, Shuang Qiu + 1 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

Le papier présente PnLCalib, une méthode de calibration de caméra pour les vidéos sportives qui surpasse les techniques existantes en combinant un modèle 3D de terrain avec une optimisation non linéaire des points et des lignes pour gérer les angles multiples, les paramètres variables et les occlusions.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Ce papier présente DP-IQA, une méthode novatrice d'évaluation de la qualité d'image sans référence qui exploite les priors de modèles de diffusion pré-entraînés et les transmet à un modèle étudiant léger pour atteindre des performances de pointe et une forte généralisation sur des images réelles.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Cet article présente ScenarioFuzz, une méthode de fuzzing basée sur des scénarios qui utilise des données historiques et des réseaux de neurones pour orchestrer la découverte de vulnérabilités dans les systèmes de conduite autonome, réduisant ainsi les coûts de temps de 60,3 % tout en augmentant de 103 % la découverte de scénarios d'erreurs.

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

Multi-agent Assessment with QoS Enhancement for HD Map Updates in a Vehicular Network

Cet article propose et évalue une solution d'apprentissage par renforcement multi-agent basée sur le Q-learning pour optimiser les mises à jour de cartes HD dans les réseaux véhiculaires, démontrant des réductions significatives de latence par rapport aux approches mono-agent tout en limitant la charge computationnelle et les problèmes de compatibilité.

Jeffrey Redondo, Nauman Aslam, Juan Zhang + 1 more2026-03-11🤖 cs.AI

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Cet article présente CoHet, un algorithme de reinforcement learning multi-agents décentralisé qui utilise une motivation intrinsèque pilotée par des réseaux de neurones graphiques pour améliorer la coopération entre agents hétérogènes dans des environnements à observabilité partielle et à récompenses rares.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan2026-03-11🤖 cs.AI

← Précédent Suivant →