cs.CV articles | Gist.Science

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Le papier présente GroundCount, un cadre qui améliore la précision du comptage des modèles vision-langage en intégrant des données de détection d'objets pour atténuer les hallucinations, démontrant que l'ancrage spatial explicite surpasse la fusion de caractéristiques implicite tout en réduisant le temps d'inférence.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Cet article présente un cadre complet incluant un jeu de données, une métrique d'évaluation et une méthode de raffinement sans entraînement pour corriger le biais de vivacité excessive des modèles de génération d'images et améliorer leur fidélité chromatique par rapport à la photographie réelle.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Cette étude interdisciplinaire démontre que les modèles de vision-langage prédisent les styles artistiques en s'appuyant sur des concepts visuels cohérents et pertinents qui, dans 73 % des cas, correspondent aux critères d'analyse des historiens de l'art.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Le papier présente DynVLA, un modèle de conduite VLA qui améliore la prise de décision autonome en introduisant un nouveau paradigme de « chaîne de pensée » basé sur la dynamique (Dynamics CoT), permettant de prédire de manière compacte et interprétable l'évolution du monde avant de générer des actions.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Le papier présente V2M-Zero, une méthode de génération de musique à partir de vidéo sans données appariées qui assure un alignement temporel en exploitant les structures de changement communes entre les modalités via des courbes d'événements intra-modales, surpassant ainsi les approches basées sur des données appariées.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Agentar-Fin-OCR

L'article présente Agentar-Fin-OCR, un système de parsing de documents financiers capable de transformer des PDF ultra-longs en structures précises et auditées grâce à des algorithmes de consolidation inter-pages et d'apprentissage curriculaire, accompagné de la création de FinDocBench, une nouvelle benchmark pour l'évaluation rigoureuse des modèles dans ce domaine.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Ce papier présente NeFTY, un cadre de physique différentiable qui permet la reconstruction 3D quantitative des propriétés matérielles et la détection de défauts souterrains à partir de mesures thermiques de surface, en surmontant les limitations des approches traditionnelles et des réseaux de neurones physiques contraints.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

Le papier propose LiTo, une représentation latente 3D unifiée qui modélise conjointement la géométrie et l'apparence dépendante du point de vue en encodant des échantillons de champ lumineux de surface, permettant ainsi la génération d'objets 3D réalistes avec des effets d'éclairage complexes tels que les reflets spéculaires.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

Les auteurs proposent un système d'IA entièrement automatisé qui génère des vidéos comiques de type « sketch » en mobilisant une population d'agents inspirés des rôles d'un studio de production et en s'appuyant sur des critiques LLM entraînés sur des données YouTube pour évaluer et optimiser l'humour, produisant ainsi des résultats de qualité professionnelle.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

Image Captioning via Compact Bidirectional Architecture

Cette présentation propose un modèle de Transformer bidirectionnel compact pour la légende d'images, qui intègre de manière parallèle des flux gauche-à-droite et droite-à-gauche pour exploiter le contexte bidirectionnel et atteindre des performances de pointe sur le benchmark MSCOCO.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

Cet article présente SDR-GAIN, une méthode temps réel innovante basée sur des réseaux antagonistes génératifs qui complète avec précision les poses piétonnes occluses en apprenant directement la distribution numérique des coordonnées des points clés, surpassant ainsi les approches existantes tout en garantissant une inférence ultra-rapide pour la conduite autonome.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

Le papier présente PnLCalib, une méthode de calibration de caméra pour les vidéos sportives qui surpasse les techniques existantes en combinant un modèle 3D de terrain avec une optimisation non linéaire des points et des lignes pour gérer les angles multiples, les paramètres variables et les occlusions.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Ce papier présente DP-IQA, une méthode novatrice d'évaluation de la qualité d'image sans référence qui exploite les priors de modèles de diffusion pré-entraînés et les transmet à un modèle étudiant léger pour atteindre des performances de pointe et une forte généralisation sur des images réelles.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Controllable Dance Generation with Style-Guided Motion Diffusion

Cet article propose SGMD, une méthode de diffusion de mouvement guidée par le style qui intègre des caractéristiques musicales et des invites stylistiques pour générer des danses réalistes et contrôlables, tout en introduisant de nouveaux benchmarks pour des tâches de génération, d'interpolation et d'inpainting chorégraphiques.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Le papier présente TIMotion, un cadre efficace et performant pour la génération de mouvements humains à deux, qui améliore la modélisation temporelle et interactive grâce à l'injection causale, l'analyse évolutive des rôles et l'amplification des motifs locaux.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Ce papier propose un cadre unifié qui modélise la quantification et l'éparpillement comme du bruit additif et introduit une transformée de déquantification débruyante pour établir un chemin de gradient explicite, permettant ainsi l'entraînement robuste de réseaux de neurones à des précisions arbitraires et à des niveaux d'éparpillement extrêmes, y compris en dessous d'un bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Le papier présente DRUPI, une méthode de condensation de dataset qui améliore l'efficacité de l'apprentissage en synthétisant, en plus des données réduites, des informations privilégiées (telles que des étiquettes de caractéristiques ou d'attention) servant de supervision auxiliaire.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Ce papier propose une méthode d'apprentissage de représentations non supervisé qui factorise les transformations des variables latentes en composantes sparses via un modèle de flot de probabilité, permettant d'obtenir des représentations décorrélées basées sur des primitives de transformation apprises et d'atteindre des performances de pointe en termes de vraisemblance des données et d'équivariance approximative.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Ce papier propose une technique de compression d'images basée sur la synthèse de nouvelles vues et l'optimisation par descente de gradient pour permettre un retour visuel en temps réel des véhicules téléopérés sous-marins, surpassant les méthodes existantes en termes de ratio de compression et de qualité d'image.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Cet article propose un cadre d'apprentissage de prompts actif et économe en budget qui améliore l'adaptation des modèles vision-langage aux nouvelles tâches en utilisant un regroupement guidé par les classes et une requête sélective basée sur des seuils adaptatifs, surpassant ainsi les méthodes existantes sur plusieurs jeux de données.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul Ok2026-03-11💻 cs

← Précédent Suivant →