cs.CV articoli | Gist.Science

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Il paper propone un framework di steganografia d'immagine robusto e provabilmente sicuro basato sull'ottimizzazione iterativa nello spazio latente, che migliora significativamente l'accuratezza dell'estrazione del messaggio sotto compressione e vari processi di elaborazione delle immagini mantenendo al contempo la sicurezza teorica.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen RenWed, 11 Ma💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Il documento presenta EPPINN, un nuovo framework che integra l'apprendimento evidenziale con le reti neurali informate dalla fisica per stimare i parametri di perfusione cerebrale nella risonanza magnetica per ictus ischemico acuto, permettendo una quantificazione dell'incertezza e migliorando sia l'accuratezza che l'affidabilità rispetto ai metodi esistenti.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Il paper propone M3GCLR, un nuovo framework di apprendimento contrastivo basato sulla teoria dei giochi che affronta le limitazioni delle metodologie esistenti per il riconoscimento di azioni scheletriche attraverso un modello di gioco infinito multi-vista e un ottimizzatore dual-loss, ottenendo risultati all'avanguardia su diversi dataset di riferimento.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Il paper propone MIL-PF, un framework scalabile che combina encoder fondazionali congelati con un modulo di aggregazione leggero basato su Multiple Instance Learning per classificare le mammografie in modo efficiente, ottenendo prestazioni all'avanguardia senza la necessità di un costoso riaddestramento end-to-end.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

Il paper presenta SinGeo, un framework innovativo che utilizza un'architettura di apprendimento discriminativo duale e una strategia di curriculum learning per abilitare un singolo modello a raggiungere una geo-localizzazione cross-view robusta e state-of-the-art su diverse condizioni di campo visivo, superando i limiti delle metodologie esistenti.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao WuWed, 11 Ma💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

Il paper introduce EventVGGT, un nuovo framework che supera i limiti delle attuali stime di profondità basate su eventi modellando il flusso come una sequenza video coerente e distillando conoscenze spaziotemporali e geometriche dal modello VGGT attraverso una strategia di distillazione tri-livello, ottenendo così risultati significativamente più accurati e coerenti nel tempo.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui XiongWed, 11 Ma💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

Il paper presenta MIDAS, un framework di steganografia senza copertura basato su diffusione e privo di addestramento che abilita il nascondimento di più immagini con controllo degli accessi specifico per utente, superando i limiti delle soluzioni esistenti in termini di qualità, robustezza e resistenza all'analisi steganografica.

Minyeol Bae, Si-Hyeon LeeWed, 11 Ma💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Questo rapporto presenta la sfida ICDAR 2025 sulla traduzione automatica end-to-end di documenti complessi, analizzando dataset, protocolli di valutazione e risultati ottenuti da 69 squadre, evidenziando come gli approcci basati su modelli di grandi dimensioni stiano definendo un nuovo paradigma promettente per questo settore.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Il paper introduce YOLO-NAS-Bench, il primo benchmark surrogato per la ricerca architettonica di modelli YOLO, che utilizza un meccanismo di auto-evoluzione per affinare un predittore basato su LightGBM, permettendo di scoprire architetture di rilevamento oggetti superiori alle versioni ufficiali con costi di valutazione drasticamente ridotti.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao WangWed, 11 Ma💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Il paper introduce il Fully Convolutional Diffusion Model (FCDM), un'architettura basata su ConvNeXt che dimostra come i modelli convoluzionali moderni possano offrire un'alternativa altamente efficiente e competitiva rispetto ai Transformer per la generazione di immagini, riducendo drasticamente i requisiti computazionali e di tempo di addestramento.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Il paper presenta RiO-DETR, il primo trasformatore di rilevamento orientato in tempo reale che risolve le sfide specifiche degli angoli attraverso design nativi come la stima dell'angolo guidata dal contenuto e la raffinazione periodica disaccoppiata, ottenendo un nuovo compromesso tra velocità e accuratezza su dataset orientati.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan SunWed, 11 Ma💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Il paper introduce PromptDLA, un framework di analisi del layout documentale consapevole del dominio che utilizza prompt descrittivi come indizi per integrare conoscenze specifiche del settore, superando le limitazioni dei metodi attuali e ottenendo prestazioni all'avanguardia su diversi dataset pubblici.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

Il paper presenta CIGPose, un framework basato su un'intervento causale e reti neurali grafiche che elimina le correlazioni spurie legate al contesto visivo per migliorare la robustezza e l'accuratezza della stima della posa del corpo intero, ottenendo nuovi risultati state-of-the-art sul dataset COCO-WholeBody.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming GuoWed, 11 Ma💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

Il paper presenta MetaDAT, un metodo di previsione delle traiettorie che combina un pre-addestramento meta-learning con un aggiornamento adattivo dei dati durante il test per migliorare l'accuratezza e l'efficienza in scenari con cambiamenti distributivi.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru XueWed, 11 Ma💻 cs

Open-World Motion Forecasting

Questo lavoro introduce l'Open-World Motion Forecasting, un nuovo paradigma che supera i limiti degli approcci chiusi permettendo ai veicoli autonomi di prevedere le traiettorie direttamente dalle immagini e di adattarsi continuamente a nuove classi di oggetti senza dimenticare quelle apprese in precedenza, grazie a un framework end-to-end che combina pseudo-etichettatura, modelli visione-linguaggio e strategie di replay innovative.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav ValadaWed, 11 Ma🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Il paper presenta GIIM, un nuovo approccio basato su grafi per la diagnosi medica multi-vista che migliora l'accuratezza e la robustezza dei sistemi CADx modellando simultaneamente le dipendenze intra- e inter-vista e gestendo efficacemente i dati mancanti.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven TruongWed, 11 Ma💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Il paper presenta OncoAgent, un agente AI innovativo che traduce le linee guida cliniche testuali in volumi target tridimensionali per la radioterapia in modo zero-shot e senza riaddestramento, ottenendo prestazioni superiori e una maggiore conformità alle linee guida rispetto ai modelli supervisionati tradizionali.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung KimWed, 11 Ma🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Il paper propone EvoDriveVLA, un innovativo framework di distillazione collaborativa percezione-pianificazione che risolve le instabilità dei modelli Vision-Language-Action per la guida autonoma integrando vincoli percettivi auto-ancorati e ottimizzazione delle traiettorie guidata da un "oracle", ottenendo prestazioni all'avanguardia nelle valutazioni open-loop e closed-loop.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang ZhangWed, 11 Ma🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

Il paper presenta TopoOR, un nuovo paradigma che utilizza una rappresentazione topologica di ordine superiore per modellare le sale operatorie, superando i limiti delle strutture tradizionali preservando le relazioni complesse e multimodali necessarie per la sicurezza chirurgica e ottenendo risultati superiori in compiti critici come il rilevamento di violazioni della sterilità e la previsione delle azioni.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart BastianWed, 11 Ma💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Il paper presenta il Corpus Patrologia Graeca, la prima risorsa OCR e linguistica aperta su larga scala per le edizioni greche del XIX secolo, ottenuta tramite una pipeline avanzata che raggiunge un'accuratezza eccezionale nel riconoscimento del greco politonico degradato e fornisce sei milioni di token annotati per la ricerca filologica e l'addestramento di modelli di linguaggio.

Chahan Vidal-Gorène (CJM, LIPN), Bastien KindtWed, 11 Ma💻 cs

← Precedente Successivo →