cs.CV articles | Gist.Science

Multimodal Classification via Total Correlation Maximization

Cet article propose TCMax, une méthode de classification multimodale qui maximise la corrélation totale entre les caractéristiques et les étiquettes via une borne variationnelle, afin de résoudre le problème de compétition entre modalités et de surpasser les approches actuelles.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng LuWed, 11 Ma💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Le papier présente B-DENSE, un cadre novateur qui améliore l'efficacité de l'inférence des modèles de diffusion en utilisant une alignement de trajectoire dense via une architecture à branches multiples, permettant ainsi au modèle étudiant de préserver les informations structurelles intermédiaires et d'obtenir une qualité de génération supérieure par rapport aux méthodes de distillation existantes.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree SinghiWed, 11 Ma🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Ce papier présente CoPeDiT, un modèle de diffusion transformateur latent qui intègre une perception de complétude pour synthétiser de manière unifiée et fidèle des IRM 3D en inférant automatiquement les états manquants sans dépendre de guides externes.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

ChimeraLoRA propose une méthode de synthèse de données combinant un LoRA partagé par classe et des LoRA spécifiques à chaque image, enrichis par une préservation des boîtes englobantes et un mélange Dirichlet, afin de générer des images diversifiées et détaillées qui améliorent la classification dans des scénarios à peu d'exemples.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul OkWed, 11 Ma💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Le papier présente OrthoAI, un cadre neurosymbolique qui combine une segmentation de dents par supervision sparse, une inférence de contraintes biomécaniques fondée sur une ontologie et une évaluation multicritère des traitements pour automatiser la prise de décision clinique en orthodontie par aligneurs transparents.

Edouard Lansiaux, Margaux Leman, Mehdi AmmiWed, 11 Ma🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Cet article présente une approche à double pipeline utilisant des modèles de fondation (Grounding DINO 1.5, YOLOv11 et SAM 2.1) pour la segmentation d'images d'oiseaux, démontrant qu'un mode supervisé fine-tuné atteint des performances record (IoU 0,912) et qu'un mode zero-shot fonctionne efficacement sans données étiquetées, surpassant ainsi les réseaux de segmentation traditionnels.

Abhinav MunagalaWed, 11 Ma🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Le papier présente DOCFORGE-BENCH, le premier benchmark zéro-shot unifié pour la détection de falsification de documents, qui révèle que l'échec actuel des méthodes à être déployées directement est dû non pas à une mauvaise représentation des données, mais à un défaut de calibration des seuils de décision causé par la faible proportion de pixels falsifiés dans les images de documents.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao RenWed, 11 Ma💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Le papier présente Pri4R, une méthode simple et efficace qui améliore les modèles Vision-Language-Action en leur apprenant implicitement la dynamique du monde via l'entraînement sur des trajectoires de points 3D privilégiées, sans ajouter de surcoût computationnel ni modifier l'architecture lors de l'inférence.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong KimWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Cette étude comparative analyse les architectures de traitement IA ultra-basse consommation, notamment les SoCs hétérogènes et les processeurs en capteur, en mettant en évidence, grâce à des benchmarks sur GAP9, STM32N6 et IMX500, la supériorité émergente du traitement en capteur en termes d'efficacité énergétique et de productivité.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Le papier présente Granulon, un nouveau modèle multimodal fondé sur DINOv3 qui surpasse les approches existantes en améliorant la précision et en réduisant les hallucinations grâce à un contrôle adaptatif de la granularité visuelle permettant un raisonnement unifié allant du pixel aux concepts globaux.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming JinWed, 11 Ma💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Cet article présente un cadre de filigrane natif pour le 3D Gaussian Splatting qui sépare la sélection des porteurs de la préservation de la qualité grâce à des modules d'experts et de contrôle de sécurité, garantissant ainsi une robustesse accrue, une fidélité visuelle supérieure et une explication auditable du processus de marquage.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan LiWed, 11 Ma💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Le papier présente VisionCreator-R1, un agent natif de génération visuelle doté d'un mécanisme de réflexion explicite et entraîné via une méthode d'optimisation conjointe plan-réflexion (RPCO) qui surpasse Gemini2.5Pro sur des tâches de génération d'images uniques et multiples.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin LuWed, 11 Ma💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Cette recherche présente un système d'affectation de places de stationnement intelligent et économique utilisant la vision par ordinateur et le modèle YOLOv8, qui fusionne des images de quatre caméras via une projection inverse de perspective pour simuler un environnement de stationnement en 3D et guider les utilisateurs.

Prachi Nandi, Sonakshi Satapathy, Suchismita ChinaraWed, 11 Ma💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Ce papier présente MuCTaL, un cadre d'apprentissage profond léger et généralisable entraîné sur quatre types de cancers pour localiser avec précision les tumeurs dans les images de pathologie numérique et générer des cartes de probabilité spatiales.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue BaoWed, 11 Ma🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR est un pipeline de génération vidéo innovant qui permet un contrôle compositionnel fin en combinant des références statiques et dynamiques tout en spécifiant explicitement les trajectoires des objets pour respecter des contraintes spatio-temporelles complexes.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang MaWed, 11 Ma💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Cet article présente une évaluation comparative systématique des vulnérabilités aux attaques par patch physique de trois architectures de modèles vision-langage pour la conduite autonome, révélant que ces systèmes actuels sont gravement fragiles face à des menaces adverses dans des environnements réalistes.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. PeséWed, 11 Ma💻 cs

Towards Visual Query Segmentation in the Wild

Cet article introduit la segmentation de requête visuelle (VQS) comme nouveau paradigme de localisation, accompagné du benchmark à grande échelle VQS-4K et de la méthode VQ-SAM, qui surpassent les approches existantes pour segmenter précisément toutes les occurrences d'un objet dans des vidéos non élaguées.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng FanWed, 11 Ma💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Cet article propose une famille d'adaptateurs légers côté décodeur, les MKGA, qui améliorent la robustesse des modèles d'automatisation des ultrasons thyroïdiens face aux décalages entre centres en exploitant des champs récepteurs complémentaires et un mécanisme de filtrage sémantique pour atténuer les interférences négatives entre la segmentation et l'évaluation du risque de malignité.

Maziar Sabouri, Nourhan Bayasi, Arman RahmimWed, 11 Ma🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Le papier présente MedCBR, un cadre de raisonnement basé sur des concepts qui intègre les directives cliniques aux modèles vision-langage pour améliorer l'interprétabilité et la fiabilité des diagnostics médicaux en générant des narratifs cliniques structurés.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin MousaviWed, 11 Ma🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Le défi MEGC2026 lance deux nouvelles tâches de question-réponse sur vidéo (ME-VQA et ME-LVQA) pour évaluer les capacités des modèles multimodaux à analyser les micro-expressions faciales, qu'elles soient courtes ou longues, en exploitant leurs puissantes capacités de raisonnement.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

← Précédent Suivant →