cs.CV articoli | Gist.Science

DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

Il paper presenta DianJin-OCR-R1, un modello visione-linguaggio potenziato dal ragionamento che combina capacità di riconoscimento interne con l'uso di strumenti esterni e un processo di "ripresa" visiva per ridurre le allucinazioni e migliorare l'accuratezza nell'OCR rispetto ai modelli tradizionali e ai VLM non ragionanti.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Il paper propone SSL-SLR, un nuovo framework di apprendimento auto-supervisionato per il riconoscimento della lingua dei segni che, superando i limiti dei metodi contrastivi tradizionali grazie a coppie negative libere e una nuova tecnica di aumento dei dati, ottiene prestazioni superiori in termini di accuratezza e trasferibilità tra diverse lingue dei segni.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Il paper presenta RED, una rete di deblurring guidata da eventi che migliora la robustezza e le prestazioni nel ripristino di immagini sfocate attraverso una strategia di perturbazione orientata alla robustezza e un meccanismo di disentanglement delle rappresentazioni specifiche per modalità, permettendo una fusione selettiva che separa le informazioni utili dal rumore causato dalla sottostima degli eventi.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Il paper propone Kernel VICReg, un nuovo framework di apprendimento auto-supervisionato che trasporta l'obiettivo VICReg in uno Spazio di Hilbert a Nucleo Riproducente (RKHS) per catturare dipendenze non lineari e migliorare le prestazioni su dati con strutture complesse o campioni limitati, superando i limiti dei metodi basati su spazio euclideo.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Il paper propone C²Prompt, un metodo innovativo per l'apprendimento continuo federato che supera le limitazioni delle tecniche basate su prompt esistenti migliorando la coerenza della conoscenza a livello di classe attraverso un meccanismo di compensazione della distribuzione locale e uno schema di aggregazione consapevole delle classi, ottenendo così prestazioni all'avanguardia nel mitigare l'oblio temporale e spaziale.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Questo lavoro propone un approccio basato sulla visione per l'esplorazione semantica di oggetti da parte di robot a zampe, che utilizza un'arbitratura delle evidenze semantiche calibrata sulla confidenza, una memoria topologica a crescita controllata e una selezione di sottobiettivi guidata dall'utilità semantica per prendere decisioni di esplorazione stabili ed eseguibili senza dipendere da ricostruzioni geometriche dense.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Il paper presenta DeCLIP, un framework efficiente e privo di replay che risolve il problema dell'apprendimento incrementale multi-etichetta decouplando le rappresentazioni di CLIP tramite prompt specifici per classe e introducendo l'Adaptive Similarity Tempering per mitigare l'oblio catastrofico e ridurre i falsi positivi.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

Il paper presenta BOUND, un nuovo rilevatore di oggetti in ambienti aperti che supera i limiti delle etichette "sconosciuto" piatte inferendo categorie a grana grossa per gli oggetti non visti, migliorando così il processo decisionale in scenari reali come la guida autonoma senza compromettere l'accuratezza sulle classi note.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Il paper introduce LikePhys, un metodo senza addestramento che valuta la comprensione della fisica intuitiva nei modelli di diffusione video misurando la preferenza di verosimiglianza su un benchmark curato, dimostrando che tale capacità migliora con la scalabilità del modello nonostante le attuali difficoltà con dinamiche complesse.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Il paper introduce CanvasMAR, un modello autoregressivo per la previsione video che migliora la qualità e la coerenza della generazione con pochi passi di campionamento, integrando un "canvas" come prior globale strutturato, un curriculum di campionamento da facile a difficile basato sul movimento e una guida classificatore composita.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Il paper presenta 3DThinker, un framework innovativo che permette ai modelli visione-linguaggio di effettuare un ragionamento spaziale tridimensionale basato sull'immaginazione geometrica partendo da viste limitate, senza richiedere dati 3D espliciti o input 3D preliminari.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

Il paper presenta AURASeg, un framework di segmentazione per aree percorribili progettato per robot autonomi che combina un modulo di raffinamento dei bordi assistito da residui e un decodificatore di upscaling guidato dall'attenzione per migliorare la precisione dei contorni e l'efficienza su dispositivi edge.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

Il paper introduce CULTIVate, un nuovo benchmark e framework di valutazione basato su attività sociali per misurare l'allineamento culturale e i bias nei modelli testo-immagine, rivelando che questi sistemi performano meglio per i paesi del Nord globale rispetto a quelli del Sud globale.

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

Il paper propone un framework di ottimizzazione sinergica che combina la decoupling strutturale dei bias e l'allineamento globale delle distribuzioni per migliorare l'equità nei modelli di rilevamento dei deepfake senza comprometterne l'accuratezza.

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

Il paper presenta LaxMotion, un framework che supera i limiti di generalizzazione dei modelli esistenti per la generazione di motion 3D sostituendo la supervisione precisa delle coordinate con un approccio basato sulla coerenza strutturale e su segnali 2D, ottenendo risultati competitivi senza bisogno di supervisione 3D diretta.

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Questo studio introduce un quadro di valutazione basato sulla metrica CRT per analizzare come i modelli di diffusione gestiscano l'iconicità multimodale, distinguendo tra il riconoscimento dei riferimenti culturali e la loro realizzazione visiva, e rivelando che tale comportamento dipende da fattori quali la frequenza dei dati, l'unicità testuale e la popolarità del riferimento.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

Il paper presenta Co-Layout, un nuovo framework che combina modelli linguistici su larga scala e programmazione intera su griglia per ottimizzare congiuntamente la disposizione degli spazi interni e il posizionamento dei mobili, superando le pipeline esistenti in qualità della soluzione ed efficienza computazionale grazie a una strategia di ottimizzazione da grezzo a fine.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Il paper presenta SPARK, un framework di jailbreak che aggira le difese dei modelli testo-video sfruttando prompt apparentemente innocui che combinano ancoraggi di scena neutri, trigger auditivi latenti e modulatori stilistici per indurre la generazione di contenuti non sicuri mantenendo l'intento originale.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

Il paper presenta MRIQT, un modello di diffusione 3D fisicamente consapevole che trasforma le immagini risonanza magnetica ultra-bassa intensità (uLF) neonatali in immagini ad alta qualità, superando le tecniche esistenti e consentendo una valutazione affidabile del cervello neonatale.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Il paper presenta FunnyNodules, un dataset sintetico completamente parametrizzabile di noduli polmonari astratti con annotazioni dettagliate sulle caratteristiche visive e le regole decisionali, progettato per valutare e migliorare i modelli di intelligenza artificiale spiegabile (xAI) in ambito medico garantendo che le previsioni siano basate sulle ragioni corrette.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

← Precedente Successivo →