Decoder-Free Distillation for Quantized Image Restoration

Ce papier présente QDR, un cadre de distillation sans décodeur qui surmonte les défis de l'entraînement quantifié pour la restauration d'images en éliminant les incohérences de capacité et en stabilisant l'optimisation, permettant ainsi à un modèle Int8 de récupérer 96,5 % des performances FP32 tout en atteignant 442 images par seconde sur un périphérique embarqué.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho LeeWed, 11 Ma💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Cet article propose un cadre fondé sur la vision et le langage pour générer et évaluer des données synthétiques interprétables en télédétection, introduisant le jeu de données ARAS400k qui démontre que l'entraînement combiné à des données réelles et synthétiques surpasse systématiquement les modèles basés uniquement sur des données réelles pour les tâches de segmentation sémantique et de légendage d'images.

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Cet article présente OTPL-VIO, un système de odométrie visuelle-inertielle stéréo robuste qui améliore la précision et la fiabilité dans des environnements à faible texture ou à éclairage variable en associant des segments de ligne via un transport optimal et des descripteurs profonds sans apprentissage, tout en adaptant dynamiquement le poids des contraintes de ligne pour atténuer le bruit de mesure.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan WangWed, 11 Ma💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

Le papier présente KV-Lock, un cadre sans entraînement pour les modèles de diffusion vidéo basés sur DiT, qui améliore la qualité du premier plan tout en préservant la cohérence de l'arrière-plan en ajustant dynamiquement le verrouillage des clés-valeurs et l'échelle de guidage en fonction de la détection d'hallucinations.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind est un cadre de modélisation différentiable guidé par la physique qui permet de reconstruire et de simuler avec précision la dynamique d'objets déformables sous l'effet du vent en unifiant l'interaction vent-objet, la reconstruction vidéo et la simulation, tout en garantissant la validité physique grâce à des contraintes de dynamique des fluides.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng CuiWed, 11 Ma💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Ce papier présente AutoViVQA, un grand ensemble de données construit automatiquement pour le Questionnement Visuel en vietnamien, et explore l'utilisation d'architectures basées sur les transformers ainsi que l'évaluation de différentes métriques automatiques pour améliorer l'alignement avec le jugement humain dans ce contexte multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Le papier présente DRIFT, une architecture Transformer à double représentation qui fusionne des caractéristiques locales et globales pour améliorer la détection d'objets et l'estimation de la route libre à partir de nuages de points radar 4D, surpassant ainsi les méthodes existantes sur des ensembles de données publics et internes.

Siqi Pei, Andras Palffy, Dariu M. GavrilaWed, 11 Ma💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Le papier présente TemporalDoRA, une méthode d'adaptation efficace des paramètres intégrant une attention temporelle au sein du goulot d'étranglement d'apprentissage pour améliorer la robustesse et la précision de la réponse aux questions sur des vidéos chirurgicales, validée sur le nouveau jeu de données REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. HoqueWed, 11 Ma💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Ce papier présente EXPLORE-Bench, un nouveau benchmark évaluant la capacité des modèles de langage multimodaux à prédire les scènes finales d'actions à long terme dans des vidéos à la première personne, révélant ainsi un écart significatif par rapport aux performances humaines et l'importance du raisonnement étape par étape.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Le papier présente FetalAgents, le premier système multi-agents conçu pour orchestrer dynamiquement des experts visuels spécialisés afin d'offrir une analyse complète, précise et automatisée des images et vidéos d'échographie fœtale, générant ainsi des rapports cliniques structurés qui surpassent les modèles existants.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan TianWed, 11 Ma💻 cs

M2M^2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Ce papier présente M2M^2-Occ, un cadre innovant pour la prédiction d'occupation sémantique 3D qui assure une robustesse face aux entrées de caméras incomplètes grâce à une reconstruction masquée multi-vues et un module de mémoire de caractéristiques, améliorant ainsi significativement la précision dans des scénarios de défaillance critique.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess