cs.CV articles | Gist.Science

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Cet article présente le premier cadre formel pour les modèles de monde audiovisuels (AVWM), introduisant le jeu de données AVW-4k et le modèle AV-CDiT basé sur la diffusion pour simuler de manière synchronisée les dynamiques visuelles et sonores, améliorant ainsi significativement la navigation des agents.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Ce papier propose AVGGT, une méthode d'accélération sans réentraînement pour les modèles VGGT et $\pi^3$ qui, en s'appuyant sur une analyse des rôles de l'attention globale, remplace les premières couches par une attention par image et subsample les suivantes, permettant ainsi des gains de vitesse allant jusqu'à 10 fois sur des séquences longues tout en préservant la précision.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Ce papier présente LiM-YOLO, un détecteur optimisé pour la détection de navires dans les images satellitaires qui améliore la précision et l'efficacité en déplaçant la pyramide de caractéristiques vers des niveaux plus fins (P2-P4) et en intégrant une normalisation par groupes pour surmonter les défis liés aux petites cibles et aux contraintes de mémoire.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Le papier présente ADHint, une méthode d'apprentissage par renforcement qui intègre dynamiquement des indices adaptatifs pondérés par la difficulté des échantillons et des rollouts pour améliorer l'efficacité de l'échantillonnage, stabiliser l'apprentissage et renforcer les capacités de raisonnement et de généralisation des modèles.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Ce papier propose la Directional Textual Inversion (DTI), une méthode qui améliore la fidélité des prompts et permet des interpolations sémantiques fluides en optimisant uniquement la direction des embeddings sur une hypersphère pour éviter l'inflation de norme qui nuit aux modèles de génération d'images personnalisés.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Ce papier propose D²-Align, un cadre novateur qui atténue l'effondrement du mode de préférence dans l'apprentissage par renforcement des modèles de diffusion en corrigeant directionnellement le signal de récompense pour préserver la diversité générative tout en améliorant l'alignement avec les préférences humaines.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Cet article propose SeLop, une méthode d'intervention dans un sous-espace orthogonal de rang faible qui, en éliminant les biais de corrélation fallacieux du modèle CLIP, améliore considérablement la généralisation et la robustesse de la détection de falsifications faciales avec un nombre minimal de paramètres.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Cet article propose une méthode de détection des images générées par l'IA qui exploite les composants architecturaux finaux communs aux générateurs pour « contaminer » les images réelles et entraîner un classificateur capable de généraliser avec une grande précision à des générateurs jamais vus.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

L'article présente CLEAR-Mamba, un cadre amélioré basé sur MedMamba intégrant une couche d'adaptation hyper-réseau (HaC) et un schéma de prédiction fiable (RaP) pour surmonter les limites de généralisation et de confiance dans la classification des angiographies oculaires multi-séquences FFA et ICGA, démontrant ainsi des performances supérieures sur un nouveau jeu de données à grande échelle.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

Multi-head automated segmentation by incorporating detection head into the contextual layer neural network

Cette étude propose une architecture Transformer à têtes multiples intégrant une détection parallèle pour filtrer les prédictions de segmentation et éliminer efficacement les faux positifs anatomiques dans les coupes radiothérapeutiques, améliorant ainsi la fiabilité des workflows cliniques.

Edwin Kys, Febian Febian2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Ce papier présente RegionReasoner, un cadre d'apprentissage par renforcement qui améliore le raisonnement visuel itératif en imposant un ancrage explicite dans des régions via des boîtes englobantes et une cohérence sémantique globale-locale, validé par un nouveau benchmark nommé RegionDial-Bench.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

Ce papier présente WebAccessVL, un modèle vision-langage capable de corriger automatiquement les violations d'accessibilité WCAG2 dans le code HTML des sites web tout en préservant leur design original, grâce à une synthèse de programme conditionnée par l'image et une stratégie de raffinement itératif intégrant un détecteur de violations.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Ce papier présente la Correction en Temps d'Exécution (TTC), une méthode sans entraînement qui utilise la première image comme ancre stable pour corriger les états intermédiaires et permettre la génération de vidéos longues de haute qualité avec des modèles autorégressifs distillés, surmontant ainsi les limitations des méthodes d'optimisation existantes.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

Ce papier présente RoSE, une nouvelle méthode qui reformule l'estimation de normales monoculaire comme une estimation de séquences d'ombrages générées par des modèles image-vidéo pour surmonter les problèmes d'alignement 3D et atteindre des performances de pointe sur des objets réels.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Cet article propose un cadre d'apprentissage continu pour les réseaux de neurones à impulsions (SNN) en vision neuromorphique, qui intègre une gestion adaptative du budget de spikes pour optimiser simultanément la précision et l'efficacité énergétique tout en atténuant l'oubli catastrophique sur des données événementielles et basées sur des images.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Multimodal Classification via Total Correlation Maximization

Cet article propose TCMax, une méthode de classification multimodale qui maximise la corrélation totale entre les caractéristiques et les étiquettes via une borne variationnelle, afin de résoudre le problème de compétition entre modalités et de surpasser les approches actuelles.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Le papier présente B-DENSE, un cadre novateur qui améliore l'efficacité de l'inférence des modèles de diffusion en utilisant une alignement de trajectoire dense via une architecture à branches multiples, permettant ainsi au modèle étudiant de préserver les informations structurelles intermédiaires et d'obtenir une qualité de génération supérieure par rapport aux méthodes de distillation existantes.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Ce papier présente CoPeDiT, un modèle de diffusion transformateur latent qui intègre une perception de complétude pour synthétiser de manière unifiée et fidèle des IRM 3D en inférant automatiquement les états manquants sans dépendre de guides externes.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

ChimeraLoRA propose une méthode de synthèse de données combinant un LoRA partagé par classe et des LoRA spécifiques à chaque image, enrichis par une préservation des boîtes englobantes et un mélange Dirichlet, afin de générer des images diversifiées et détaillées qui améliorent la classification dans des scénarios à peu d'exemples.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Le papier présente OrthoAI, un cadre neurosymbolique qui combine une segmentation de dents par supervision sparse, une inférence de contraintes biomécaniques fondée sur une ontologie et une évaluation multicritère des traitements pour automatiser la prise de décision clinique en orthodontie par aligneurs transparents.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

← Précédent Suivant →