cs articles | Gist.Science

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

Le papier présente SceneAssistant, un agent piloté par un retour visuel qui combine des modèles de génération d'objets 3D et des modèles vision-langage pour créer et modifier des scènes 3D ouvertes et de haute qualité à partir de descriptions textuelles naturelles.

Jun Luo, Jiaxiang Tang, Ruijie Lu + 1 more2026-03-13💻 cs

HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies

Le papier présente HandelBot, un cadre combinant une politique simulée et une adaptation rapide par affinage structuré et apprentissage par renforcement résiduel, permettant à un robot d'exécuter avec succès et précision des pièces de piano bimanuelles en seulement 30 minutes de données physiques.

Amber Xie, Haozhi Qi, Dorsa Sadigh2026-03-13💻 cs

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Le papier présente ELIT, un mécanisme compatible avec les transformateurs de diffusion (DiT) qui découple la taille de l'image de la charge de calcul en introduisant une interface latente élastique permettant d'ajuster dynamiquement la latence et la qualité de génération tout en priorisant les régions importantes de l'image.

Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov + 6 more2026-03-13💻 cs

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Ce papier présente FIRM, un cadre complet qui améliore la génération et l'édition d'images fidèles en développant des modèles de récompense robustes, des jeux de données de haute qualité et une nouvelle stratégie de récompense « Base-and-Bonus » pour surmonter les hallucinations et guider efficacement l'apprentissage par renforcement.

Xiangyu Zhao, Peiyuan Zhang, Junming Lin + 7 more2026-03-13💻 cs

DVD: Deterministic Video Depth Estimation with Generative Priors

Le papier présente DVD, un cadre innovant qui adapte de manière déterministe des modèles de diffusion vidéo pré-entraînés en régresseurs de profondeur pour surmonter les compromis entre hallucinations géométriques et besoin de données massives, atteignant ainsi des performances de pointe en zéro-shot avec une fraction des données d'entraînement.

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao + 12 more2026-03-13💻 cs

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Le papier présente AutoGaze, un module léger qui améliore l'efficacité et l'évolutivité de la compréhension vidéo des modèles multimodaux en sélectionnant de manière autoregressive uniquement les patches visuels essentiels, réduisant ainsi considérablement le nombre de jetons et permettant l'analyse de vidéos longues et haute résolution.

Baifeng Shi, Stephanie Fu, Long Lian + 10 more2026-03-13💻 cs

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Le papier présente DreamVideo-Omni, un cadre unifié qui permet une personnalisation vidéo multi-sujets avec un contrôle omni-mouvement grâce à un paradigme d'entraînement en deux étapes intégrant des mécanismes d'ancrage d'identité et un apprentissage par renforcement basé sur des récompenses d'identité latente pour garantir une préservation fidèle des identités et une précision du mouvement.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs

HumDex:Humanoid Dexterous Manipulation Made Easy

Ce papier présente HumDex, un système de téléopération portable et précis pour la manipulation dextre des humanoïdes, qui combine un suivi corporel par IMU, un recalage d'hand learning-based et un cadre d'apprentissage par imitation en deux étapes pour collecter efficacement des données et améliorer la généralisation des tâches.

Liang Heng, Yihe Tang, Jiajun Xu + 3 more2026-03-13💻 cs

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Le papier présente VST, un nouveau paradigme pour les modèles vidéo de langage qui permet un raisonnement simultané à la lecture en temps réel, surmontant ainsi les compromis entre latence et compréhension logique grâce à une méthode d'entraînement postérieur innovante et des données synthétiques de haute qualité.

Yiran Guan, Liang Yin, Dingkang Liang + 5 more2026-03-13💻 cs

$Ψ_0$ : An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

Ce papier présente $\Psi_0$ , un modèle fondamental open-source pour la loco-manipulation humanoïde qui, grâce à une approche d'apprentissage en deux étapes séparant la préformation sur des vidéos humaines et le post-entraînement sur des données robotiques, surpasse les méthodes existantes avec une fraction des données nécessaires.

Songlin Wei, Hongyi Jing, Boqian Li + 12 more2026-03-13💻 cs

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Ce papier présente GRADE, le premier benchmark évaluant le raisonnement et les connaissances disciplinaires dans l'édition d'images à travers dix domaines académiques, révélant ainsi les limites actuelles des modèles multimodaux unifiés et définissant de nouvelles directions pour leur développement.

Mingxin Liu, Ziqian Fan, Zhaokai Wang + 13 more2026-03-13💻 cs

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Ce papier présente OmniStream, un modèle visuel unifié et en flux continu capable de percevoir, reconstruire et agir grâce à une architecture causale et une pré-formation multi-tâches, démontrant ainsi la viabilité d'un seul backbone généraliste pour les agents interactifs et incarnés.

Yibin Yan, Jilan Xu, Shangzhe Di + 2 more2026-03-13💻 cs

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Ce papier présente MM-CondChain, un nouveau benchmark vérifiable programmatically conçu pour évaluer la capacité des modèles de langage multimodaux à effectuer un raisonnement compositionnel profond et enchaîné basé sur des preuves visuelles, révélant ainsi des lacunes significatives des modèles actuels face à cette complexité.

Haozhan Shen, Shilin Yan, Hongwei Xue + 5 more2026-03-13💻 cs

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Ce papier présente EVATok, un cadre de tokenisation vidéo adaptative qui optimise dynamiquement l'assignation des tokens pour chaque séquence, permettant ainsi d'atteindre un meilleur compromis entre qualité de reconstruction et coût computationnel pour la génération vidéo autoregressive, tout en réduisant significativement l'utilisation des tokens par rapport aux méthodes existantes.

Tianwei Xiong, Jun Hao Liew, Zilong Huang + 3 more2026-03-13💻 cs

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Cet article démontre que, dans un cadre de prise de décision collective par vote binaire avec fusion L-sur-N, l'apprentissage social est inutile et que l'optimalité de la performance de l'équipe est atteinte lorsque les agents ignorent les décisions précédentes pour ne se fier qu'à leurs signaux privés, rendant ainsi le vote secret la stratégie optimale.

Joong Bum Rhim, Vivek K. Goyal2026-03-12💻 cs

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Cette étude démontre que, dans un apprentissage social séquentiel bayésien, il est parfois optimal pour les agents d'utiliser des croyances a priori inexactes afin de maximiser l'information transmise aux agents suivants, créant ainsi un compromis entre la justesse de la décision immédiate et l'utilité de l'information pour le groupe.

Joong Bum Rhim, Vivek K Goyal2026-03-12💻 cs

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Cet article propose un cadre basé sur un treillis pour optimiser l'allocation adaptative des essais dans l'estimation de paramètres de Bernoulli, démontrant par des simulations que cette approche améliore significativement la précision de l'estimation par rapport aux méthodes binomiales classiques, en particulier dans des scénarios d'imagerie active.

Safa C. Medin, John Murray-Bruce, David Castañón + 1 more2026-03-12💻 cs

In Pursuit of Many: A Review of Modern Multiple Object Tracking Systems

Ce document de synthèse examine les avancées récentes en matière de suivi multi-objets, en retraçant l'évolution des paradigmes algorithmiques, en analysant les tendances des benchmarks et des métriques d'évaluation, et en identifiant les orientations futures telles que l'intégration des modèles de fondation pour relever les défis du déploiement réel.

Mk Bashar, Samia Islam, Kashifa Kawaakib Hussain, Md. Bakhtiar Hasan, A. B. M. Ashikur Rahman, Md. Hasanul Kabir2026-03-12💻 cs

Homotopy type theory as a language for diagrams of $\infty$ -logoses

Cet article démontre que l'homotopie type theory étendue par des modalités lex et accessibles permet de reconstruire certains diagrammes d'∞-logoses, offrant ainsi un cadre pour raisonner sur ces structures et généralisant la computabilité synthétique de Sterling aux relations logiques de dimension supérieure.

Taichi Uemura2026-03-12💻 cs

An Overview about Emerging Technologies of Autonomous Driving

Cet article offre un aperçu des aspects techniques et des problèmes ouverts des technologies de conduite autonome, en examinant des domaines clés tels que la perception et la planification au sein d'une boucle de données fermée pour résoudre les défis à longue traîne.

Yu Huang, Yue Chen, Zijiang Yang2026-03-12💻 cs

← Précédent Suivant →

cs