cs articles | Gist.Science

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Cet article présente le premier jeu de données open-source à grande échelle et des modèles novateurs pour la conversion de la parole en LaTeX, couvrant des équations et des phrases mathématiques en anglais et en russe, et établissant de nouveaux benchmarks qui surpassent significativement les méthodes existantes.

Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets2026-03-12💻 cs

What Do Agents Think One Another Want? Level-2 Inverse Games for Inferring Agents' Estimates of Others' Objectives

Cet article propose un cadre d'inférence de niveau 2 pour déduire les estimations que les agents ont des objectifs des autres, surmontant ainsi les limites des approches de niveau 1 qui supposent une connaissance complète et partagée des intentions dans les interactions stratégiques décentralisées.

Hamzah I. Khan, Jingqi Li, David Fridovich-Keil2026-03-12💻 cs

DSER: Spectral Epipolar Representation for Efficient Light Field Depth Estimation

Le papier propose DSER, un cadre géométrique innovant qui utilise une régularisation spectrale dans le domaine épipolaire pour réaliser une estimation de profondeur dense et précise sur des champs de lumière, en surmontant les défis liés aux occlusions et aux régions sans texture grâce à une inférence hybride efficace.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Cette étude quasi-expérimentale démontre que les modèles de langage peuvent générer avec une grande pertinence des spécifications comportementales Gherkin à partir de réglementations sur la sécurité alimentaire, tout en soulignant la nécessité d'une supervision humaine pour corriger les omissions et les hallucinations.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot2026-03-12💻 cs

Pixel Motion Diffusion is What We Need for Robot Control

Le papier présente DAWN, un cadre unifié de diffusion pour le contrôle robotique qui relie l'intention de mouvement de haut niveau aux actions de bas niveau via une représentation structurée du mouvement des pixels, atteignant des performances de pointe sur les benchmarks CALVIN et MetaWorld tout en démontrant une transférabilité fiable vers le monde réel avec un réglage fin minimal.

E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo2026-03-12💻 cs

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Le papier présente Dolphin, une méthode efficace de séparation de la parole audio-visuelle qui utilise un encodeur vidéo léger pour transformer les mouvements des lèvres en tokens sémantiques discrets et un séparateur avec une attention globale-locale multi-échelle, surpassant les modèles actuels en qualité de séparation tout en réduisant considérablement les paramètres et le temps d'inférence.

Kai Li, Kejun Gao, Xiaolin Hu2026-03-12💻 cs

PD-Diag-Net: Clinical-Priors guided Network on Brain MRI for Auxiliary Diagnosis of Parkinson's Disease

Le papier propose PD-Diag-Net, un réseau de neurones guidé par des connaissances cliniques qui intègre des prérequis sur les régions cérébrales et le vieillissement pour diagnostiquer la maladie de Parkinson à partir d'IRM brutes, atteignant une précision de 86 % sur des données externes et surpassant les méthodes existantes de plus de 20 %.

Shuai Shao, Yan Wang, Shu Jiang, Shiyuan Zhao, Di Yang, Jiangtao Wang, Yutong Bai, Jianguo Zhang2026-03-12💻 cs

Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Ce papier présente Farsighted-LAM et SSM-VLA, des cadres d'apprentissage qui améliorent la robustesse et l'interprétabilité des modèles Vision-Language-Action en intégrant une encodage spatial géométrique, une modélisation temporelle multi-échelle et un raisonnement explicite sur la dynamique de l'environnement.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Cet article propose un cadre de distillation de connaissances vision-langage qui combine un réseau de neurones à impulsions adaptatif pour le découpage optimal des flux d'événements et un modèle étudiant basé sur CNN, permettant ainsi la détection d'objets à vocabulaire ouvert sur des données d'événements en exploitant la compréhension sémantique de CLIP via des images.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Ce papier propose une nouvelle stratégie d'apprentissage auto-supervisé pour les problèmes inverses à partir de données incomplètes, qui combine une nouvelle définition d'équivariance et des pertes de séparation pour obtenir des estimations non biaisées et atteindre des performances de pointe dans des modèles fortement sous-déterminés.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Le papier présente Symskill, un cadre unifié qui apprend conjointement des abstractions symboliques et des compétences à partir de démonstrations non étiquetées pour permettre à un robot d'exécuter et de composer des tâches de manipulation à long horizon de manière réactive et efficace en termes de données, tout en assurant une récupération en temps réel face aux échecs.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs

A Graded Modal Type Theory for Pulse Schedules

Cet article propose GRAMPUS, une théorie des types modaux gradués qui utilise des grades temporels pour formaliser sémantiquement et catégoriellement les séquences de signaux de contrôle (pulse schedules) nécessaires à l'exécution des circuits quantiques sur des qubits supraconducteurs.

Robin Adams, Jean-Philippe Bernardy, Lorenzo Perticone, Jeremy Pope2026-03-12💻 cs

From Text to Alpha: Can LLMs Track Evolving Signals in Corporate Disclosures?

Cette étude démontre qu'un cadre exploitant les grands modèles de langage pour extraire des signaux sémantiques contextuels des divulgations corporatives permet de prédire l'alpha avec une performance nettement supérieure aux méthodes traditionnelles en mesurant l'évolution des indicateurs clés.

Chanyeol Choi, Yoon Kim, Yu Yu, Young Cha, V. Zach Golkhou, Igor Halperin, Georgios Papaioannou, Minkyu Kim, Zhangyang Wang, Jihoon Kwon, Minjae Kim, Alejandro Lopez-Lira, Yongjae Lee2026-03-12💻 cs

R v F (2025): Addressing the Defence of Hacking

Cette étude de cas unique sur l'affaire R v F (2025) propose des leçons pratiques et des techniques pour que les enquêteurs en criminalistique numérique puissent contester efficacement la défense du « piratage » (ou « SODDI ») et fournir des preuves empiriques aux tribunaux afin de distinguer les innocents des coupables.

Junade Ali2026-03-12💻 cs

Computational Complexity in Property Testing

Cet article initie une étude systématique de la complexité computationnelle du test de propriétés en établissant des hiérarchies temps-requêtes et en démontrant, via des conjectures de complexité fine, une séparation fondamentale entre la complexité en requêtes et la complexité temporelle pour l'approximation de la distance aux demi-espaces.

Renato Ferreira Pinto Jr., Diptaksho Palit, Sofya Raskhodnikova2026-03-12💻 cs

CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

Le papier présente CompassNav, une nouvelle approche qui remplace l'imitation de trajectoires par une compréhension des décisions via un jeu de données enrichi et une fonction de récompense hybride, permettant à un agent de 7B de surpasser les modèles propriétaires sur des benchmarks de navigation et de réussir sur un robot physique.

LinFeng Li, Jian Zhao, Yuan Xie, Xin Tan, Xuelong Li2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Le papier présente SDGraph, une architecture d'apprentissage profond basée sur un graphe combinant des structures clairsemées et denses pour modéliser efficacement les esquisses à trois niveaux (esquisse, trait et point), améliorant ainsi significativement les performances dans les tâches de classification, de recherche et de génération.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Le papier présente InstantSfM, un système de Structure-from-Motion entièrement basé sur GPU et compatible PyTorch qui intègre des priors de profondeur métrique pour résoudre l'ambiguïté d'échelle et offre une accélération d'environ 40 fois par rapport à COLMAP tout en maintenant une précision de reconstruction élevée.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

Le papier présente UltraGen, un cadre novateur utilisant une attention locale hiérarchique et une guidance globale à basse résolution pour permettre une génération d'images text-to-image ultra-haute définition (au-delà de 8K) efficace, rapide et économiquement viable en mémoire.

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Le papier présente REALM, un cadre d'agent MLLM innovant qui permet la segmentation et l'édition 3D en monde ouvert sur des représentations Gaussian Splatting en utilisant une stratégie de localisation spatiale globale-à-locale pour interpréter avec précision des instructions complexes sans nécessiter de post-entraînement spécifique.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

← Précédent Suivant →