Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Cet article présente le premier jeu de données open-source à grande échelle et des modèles novateurs pour la conversion de la parole en LaTeX, couvrant des équations et des phrases mathématiques en anglais et en russe, et établissant de nouveaux benchmarks qui surpassent significativement les méthodes existantes.

Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets2026-03-12💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Cette étude quasi-expérimentale démontre que les modèles de langage peuvent générer avec une grande pertinence des spécifications comportementales Gherkin à partir de réglementations sur la sécurité alimentaire, tout en soulignant la nécessité d'une supervision humaine pour corriger les omissions et les hallucinations.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot2026-03-12💻 cs

Pixel Motion Diffusion is What We Need for Robot Control

Le papier présente DAWN, un cadre unifié de diffusion pour le contrôle robotique qui relie l'intention de mouvement de haut niveau aux actions de bas niveau via une représentation structurée du mouvement des pixels, atteignant des performances de pointe sur les benchmarks CALVIN et MetaWorld tout en démontrant une transférabilité fiable vers le monde réel avec un réglage fin minimal.

E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo2026-03-12💻 cs

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Le papier présente Dolphin, une méthode efficace de séparation de la parole audio-visuelle qui utilise un encodeur vidéo léger pour transformer les mouvements des lèvres en tokens sémantiques discrets et un séparateur avec une attention globale-locale multi-échelle, surpassant les modèles actuels en qualité de séparation tout en réduisant considérablement les paramètres et le temps d'inférence.

Kai Li, Kejun Gao, Xiaolin Hu2026-03-12💻 cs

PD-Diag-Net: Clinical-Priors guided Network on Brain MRI for Auxiliary Diagnosis of Parkinson's Disease

Le papier propose PD-Diag-Net, un réseau de neurones guidé par des connaissances cliniques qui intègre des prérequis sur les régions cérébrales et le vieillissement pour diagnostiquer la maladie de Parkinson à partir d'IRM brutes, atteignant une précision de 86 % sur des données externes et surpassant les méthodes existantes de plus de 20 %.

Shuai Shao, Yan Wang, Shu Jiang, Shiyuan Zhao, Di Yang, Jiangtao Wang, Yutong Bai, Jianguo Zhang2026-03-12💻 cs

Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Ce papier présente Farsighted-LAM et SSM-VLA, des cadres d'apprentissage qui améliorent la robustesse et l'interprétabilité des modèles Vision-Language-Action en intégrant une encodage spatial géométrique, une modélisation temporelle multi-échelle et un raisonnement explicite sur la dynamique de l'environnement.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Cet article propose un cadre de distillation de connaissances vision-langage qui combine un réseau de neurones à impulsions adaptatif pour le découpage optimal des flux d'événements et un modèle étudiant basé sur CNN, permettant ainsi la détection d'objets à vocabulaire ouvert sur des données d'événements en exploitant la compréhension sémantique de CLIP via des images.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Ce papier propose une nouvelle stratégie d'apprentissage auto-supervisé pour les problèmes inverses à partir de données incomplètes, qui combine une nouvelle définition d'équivariance et des pertes de séparation pour obtenir des estimations non biaisées et atteindre des performances de pointe dans des modèles fortement sous-déterminés.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Le papier présente Symskill, un cadre unifié qui apprend conjointement des abstractions symboliques et des compétences à partir de démonstrations non étiquetées pour permettre à un robot d'exécuter et de composer des tâches de manipulation à long horizon de manière réactive et efficace en termes de données, tout en assurant une récupération en temps réel face aux échecs.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs

From Text to Alpha: Can LLMs Track Evolving Signals in Corporate Disclosures?

Cette étude démontre qu'un cadre exploitant les grands modèles de langage pour extraire des signaux sémantiques contextuels des divulgations corporatives permet de prédire l'alpha avec une performance nettement supérieure aux méthodes traditionnelles en mesurant l'évolution des indicateurs clés.

Chanyeol Choi, Yoon Kim, Yu Yu, Young Cha, V. Zach Golkhou, Igor Halperin, Georgios Papaioannou, Minkyu Kim, Zhangyang Wang, Jihoon Kwon, Minjae Kim, Alejandro Lopez-Lira, Yongjae Lee2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Le papier présente SDGraph, une architecture d'apprentissage profond basée sur un graphe combinant des structures clairsemées et denses pour modéliser efficacement les esquisses à trois niveaux (esquisse, trait et point), améliorant ainsi significativement les performances dans les tâches de classification, de recherche et de génération.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Le papier présente InstantSfM, un système de Structure-from-Motion entièrement basé sur GPU et compatible PyTorch qui intègre des priors de profondeur métrique pour résoudre l'ambiguïté d'échelle et offre une accélération d'environ 40 fois par rapport à COLMAP tout en maintenant une précision de reconstruction élevée.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Le papier présente REALM, un cadre d'agent MLLM innovant qui permet la segmentation et l'édition 3D en monde ouvert sur des représentations Gaussian Splatting en utilisant une stratégie de localisation spatiale globale-à-locale pour interpréter avec précision des instructions complexes sans nécessiter de post-entraînement spécifique.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs