cs.CV articles | Gist.Science

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Cet article propose TAP, un cadre novateur utilisant les grands modèles de langage et une stratégie d'optimisation préférentielle directe pour découvrir automatiquement et sans entraînement des proxies supérieurs afin d'optimiser la quantification de précision mixte des réseaux de neurones profonds.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Cet article présente EgoCampus, un nouveau jeu de données et un modèle (EgoCampusNet) pour prédire le regard des piétons en extérieur, collectés à l'aide de lunettes Project Aria sur un campus universitaire.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Ce papier présente DriverGaze360, un vaste jeu de données d'attention conducteur à 360° et la méthode DriverGaze360-Net qui, en intégrant une guidance par objets via une segmentation sémantique, permet une prédiction d'attention omnidirectionnelle performante pour les systèmes de conduite autonome.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Le papier présente ViRC, un cadre qui améliore le raisonnement mathématique multimodal en découplant le processus en unités critiques (CRUs) inspirées de la loi de Miller, soutenu par le jeu de données CRUX et une stratégie d'entraînement progressive, permettant au modèle ViRC-7B d'obtenir une amélioration moyenne de 18,8 % par rapport aux modèles de base.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Le papier présente FluenceFormer, un cadre de régression fluence basé sur les transformateurs et guidé par la physique, qui améliore la planification radiothérapeutique automatisée en prédisant des cartes d'intensité de faisceau cohérentes et physiquement réalisables avec une erreur d'énergie réduite à 4,5 %.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Cet article propose l'EPD-Solver, une méthode novatrice combinant un solveur d'EDP parallèle basé sur le théorème des accroissements finis et un affinage par apprentissage par renforcement efficace en paramètres, pour accélérer considérablement l'échantillonnage des modèles de diffusion tout en préservant la qualité de l'image.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Ce papier présente PhyGDPO, un cadre d'optimisation directe des préférences de groupe conscient de la physique, soutenu par un pipeline de construction de données augmentées (PhyAugPipe) et un jeu de données à grande échelle (PhyVidGen-135K), conçu pour générer des vidéos texte-à-vidéo qui respectent fidèlement les lois physiques.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

MorphAny3D est un cadre de morphing 3D sans entraînement qui exploite les représentations latentes structurées (SLAT) via des mécanismes d'attention innovants pour générer des séquences de déformation cohérentes et temporellement lisses, même entre des catégories d'objets différentes.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Cette étude révèle que les modèles fondationnels actuels peinent à identifier les moments clés dans des vidéos de football, car ils dépendent trop d'une seule modalité et échouent à synthétiser efficacement les informations croisées, soulignant ainsi le besoin d'architectures modulaires et de procédures d'entraînement complémentaires.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

Ce travail présente EGAgent, un cadre agentique innovant basé sur des graphes de scènes d'entités qui permet une compréhension vidéo longitudinale avancée et un raisonnement multi-modal sur des flux vidéo continus de plusieurs jours, surpassant les méthodes existantes sur des tâches complexes d'assistance personnelle.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Ce papier propose MiTA, une nouvelle méthode d'attention efficace qui unifie les approches existantes et améliore l'évolutivité des séquences longues en compressant les poids rapides via une stratégie de routage et de sélection des k meilleures activations.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Le papier présente DDP-WM, un modèle du monde innovant basé sur la prédiction de dynamiques désenchevêtrées qui améliore considérablement l'efficacité et les performances des robots autonomes en décomposant l'évolution de l'état latent en dynamiques primaires et mises à jour contextuelles, permettant ainsi un déploiement en temps réel avec une accélération d'inférence jusqu'à 9 fois par rapport aux modèles denses existants.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Le papier présente Rolling Sink, une méthode sans entraînement qui comble l'écart entre l'entraînement à horizon limité et le test à durée illimitée dans les modèles de diffusion vidéo autoregressifs, permettant ainsi de générer des vidéos ultra-longues (de 5 à 30 minutes) avec une fidélité visuelle et une cohérence temporelle supérieures.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Cet article propose un cadre d'apprentissage actif guidé par l'explicabilité qui sélectionne stratégiquement des échantillons médicaux en combinant l'incertitude de classification et l'inadéquation des cartes d'attention par rapport aux régions d'intérêt définies par les experts, améliorant ainsi à la fois la performance prédictive et l'interprétabilité clinique avec moins de données annotées.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Ce travail présente Pailitao-VL, un système de recherche industrielle multimodale en temps réel qui améliore la précision et l'efficacité grâce à une transition vers un paradigme d'encodage par reconnaissance d'ID absolu et à un reranker génératif comparatif, validé par des tests sur la plateforme e-commerce d'Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

Cet article présente DeltaGateNet, un cadre novateur qui améliore la reconnaissance de la fatigue au volant à partir de signaux EEG en modélisant explicitement les dynamiques temporelles bidirectionnelles via un module Delta bidirectionnel et un module de convolution temporelle à porte, surpassant ainsi les méthodes existantes sur plusieurs jeux de données publics.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Cet article présente EA-Swin, un transformateur Swin agnostique aux embeddings capable de détecter les vidéos générées par l'IA avec une précision exceptionnelle (97-99 %) et une forte généralisation, grâce à une architecture innovante et à un nouveau jeu de données de référence de 130 000 vidéos.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard est un cadre novateur utilisant des transformateurs sensibles à la topologie et des mécanismes de confidentialité différentielle pour permettre une recherche d'identité résiliente aux biais et conforme à la protection des données à travers des réseaux de caméras urbaines distribuées.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

Le modèle CARE est une nouvelle fondation pour l'analyse d'images de lames entières qui, grâce à un pré-entraînement auto-supervisé et à un alignement multimodal avec des profils moléculaires, surmonte les limites des modèles existants en segmentant automatiquement les tissus en régions morphologiquement cohérentes pour atteindre des performances supérieures sur de multiples tâches de pathologie avec moins de données.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

← Précédent Suivant →