cs.CV articles | Gist.Science

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

Le papier propose PolGS++, un cadre de reconstruction rapide de surfaces réfléchissantes qui intègre un modèle de BRDF polarisée et un mécanisme de masque de visibilité guidé par la profondeur dans le Splatting Gaussien 3D pour améliorer la précision géométrique et le rendu sans nécessiter de traçage de rayons coûteux.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

Cette étude explore la représentation des attaques par porte dérobée dans les Transformers visuels en identifiant et en validant causalement une « direction de déclencheur » spécifique, permettant de distinguer les mécanismes internes des différents types de déclencheurs et de proposer une méthode de détection sans données.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Ce papier présente HanMoVLM, un modèle vision-langage spécialisé dans l'évaluation experte des peintures chinoises grâce à un raisonnement de type chaîne de pensée validé par des experts et un nouveau jeu de données HanMo-Bench, permettant d'améliorer la génération d'images artistiques en servant de vérificateur de haute qualité.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

Ce papier présente MEDISEG, un nouveau jeu de données d'images de médicaments avec des masques de segmentation d'instances couvrant 32 types de pilules dans des conditions réalistes complexes, conçu pour améliorer la reconnaissance par IA et prévenir les erreurs médicamenteuses.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

Ce papier présente BALD-SAM, un cadre d'apprentissage actif spatial qui adapte le principe d'incertitude épistémique (BALD) à la sélection de prompts pour le modèle SAM, permettant une segmentation interactive automatisée et supérieure aux méthodes humaines sur une large gamme de domaines.

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Cette étude évalue la reconnaissance de médicaments en contexte de few-shot learning sous des décalages de domaine visuels, démontrant que si la classification sémantique s'adapte rapidement avec peu d'exemples, la robustesse de la localisation dans des scènes encombrées dépend crucialement de la réalisme des données d'entraînement.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

On the Reliability of Cue Conflict and Beyond

Ce papier présente REFINED-BIAS, un nouveau cadre d'évaluation et un jeu de données conçus pour surmonter les instabilités des méthodes actuelles de conflit d'indices afin de diagnostiquer de manière fiable et interprétable les biais de forme et de texture dans les réseaux de neurones.

Pum Jun Kim, Seung-Ah Lee, Seongho Park, Dongyoon Han, Jaejun Yoo2026-03-12🤖 cs.AI

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Cet article présente une solution pionnière de détection de présence humaine utilisant uniquement le matériel Wi-Fi intégré d'ordinateurs portables commerciaux, grâce à une nouvelle technique de spectre Doppler filtré par portée (RF-DS) et un cadre de traitement adaptatif qui éliminent le besoin de capteurs externes tout en garantissant la confidentialité et une faible complexité computationnelle.

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

L'article présente UltrasoundAgents, un cadre d'agents multiples hiérarchique qui imite le flux de travail clinique du diagnostic échographique mammaire en localisant les lésions, en analysant des attributs locaux spécifiques et en intégrant ces preuves pour un raisonnement traçable et précis, le tout optimisé par une stratégie d'entraînement progressive pour atténuer la propagation des erreurs.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Ce papier propose le DIPE (Distance Invariant Position Encoding), un mécanisme simple qui atténue le phénomène d'effacement visuel dans les modèles multimodaux à long contexte en neutralisant la pénalité de distance inter-modale inhérente au Multimodal RoPE, tout en préservant la structure locale intra-modale.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

Cet article propose BiLaLoRA, une méthode de déhazing d'images réelles qui combine une perte guidée par le texte via CLIP pour l'apprentissage non supervisé et une stratégie d'adaptation LoRA à deux niveaux pour optimiser automatiquement les couches critiques du réseau.

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

Ce papier présente S2D, une nouvelle pipeline qui combine un modèle de diffusion pour corriger les artefacts d'images et une stratégie de reconstruction robuste pour transformer des nuages de points épars en scènes 3D de haute qualité via le Splatting Gaussien 3D, permettant ainsi une reconstruction avec un nombre minimal d'images d'entrée.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Novel Architecture of RPA In Oral Cancer Lesion Detection

Cette étude présente une nouvelle architecture de détection des lésions du cancer oral utilisant deux implémentations RPA optimisées, dont la version OC-RPAv2, qui réduit le temps de prédiction à 0,06 seconde par image grâce à l'utilisation du patron de conception Singleton et du traitement par lots, offrant ainsi une amélioration d'efficacité de 60 à 100 fois par rapport aux méthodes standards.

Revana Magdy, Joy Naoum, Ali Hamdi2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Cet article présente un cadre d'apprentissage par imitation à vie qui améliore continuellement les politiques grâce à une réplay multimodale dans un espace latent et un ajustement incrémental des caractéristiques, établissant ainsi un nouvel état de l'art sur les benchmarks LIBERO avec une réduction significative de l'oubli.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

Le système d'intelligence artificielle générative CBCTRepD comble le fossé des compétences en interprétation des CBCT maxillo-faciaux en produisant des rapports de haute qualité et en améliorant significativement la précision et l'exhaustivité du diagnostic pour les radiologues de tous niveaux d'expérience grâce à une collaboration homme-machine.

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Ce papier propose une méthode d'entraînement par consensus historique, basée sur une sélection itérative de priors à mélange gaussien, qui élimine définitivement l'effondrement postérieur dans les autoencodeurs variationnels en créant une barrière historique stable qui exclut les solutions dégénérées, et ce sans nécessiter de conditions de stabilité explicites ni de contraintes architecturales.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

Ce papier présente Pointy, une architecture légère basée sur les transformateurs qui, entraînée uniquement sur 39 000 nuages de points, surpasse des modèles fondationnels plus massifs et démontre l'efficacité d'une conception architecturale soignée et d'un protocole d'entraînement rigoureux pour les modèles de base sur les nuages de points.

Konrad Szafer, Marek Kraft, Dominik Belter2026-03-12🤖 cs.LG

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Cet article propose SSL-V3, une méthode d'apprentissage auto-supervisé combinant un Vision Transformer et une évaluation de la qualité vidéo sans référence pour améliorer la classification vidéo en ajustant les cartes de caractéristiques via un score de qualité, démontrant ainsi son efficacité sur des ensembles de données de soins de santé.

Jian Sun, Mohammad H. Mahoor2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

Le papier présente Med-DualLoRA, un cadre d'apprentissage fédéré efficace en communication qui améliore l'adaptation locale des modèles fondamentaux pour la détection de maladies en IRM cardiaque 3D en séparant les adaptations globales et locales via des modules LoRA, garantissant ainsi à la fois la confidentialité des données et des performances supérieures sur des données hétérogènes multi-centres.

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs

VCR: Variance-Driven Channel Recalibration for Robust Low-Light Enhancement

Ce papier propose VCR, un cadre novateur d'amélioration d'images en faible luminosité qui utilise la recalibration de canal pilotée par la variance pour résoudre les problèmes d'incohérence entre luminance et chrominance et d'alignement des distributions de couleur, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Zhixin Cheng, Fangwen Zhang, Xiaotian Yin, Baoqun Yin, Haodian Wang2026-03-12💻 cs

← Précédent Suivant →