cs.CV articoli | Gist.Science

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Il paper introduce AFRO, un framework auto-supervisionato che apprende rappresentazioni 3D consapevoli della dinamica robotica senza supervisione sulle azioni o sulla ricostruzione geometrica, migliorando significativamente il successo nelle attività di manipolazione rispetto ai metodi di pre-addestramento esistenti.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Questo lavoro introduce il primo quadro formale per i modelli di mondo audiovisivi, presentando il dataset AVW-4k e il modello AV-CDiT per simulare dinamiche ambientali sincronizzate in audio e video, dimostrando miglioramenti significativi nelle prestazioni di navigazione continua.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Il paper AVGGT propone uno schema di accelerazione senza addestramento per i modelli VGGT e $\pi^3$ , basato su un'analisi dei ruoli dei livelli di attenzione globale che permette di ottenere un significativo aumento della velocità di inferenza (fino a 10 volte) mantenendo o migliorando la precisione in scenari multi-vista densi.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Il paper presenta LiM-YOLO, un rilevatore di navi ottimizzato per immagini satellitari che migliora accuratezza ed efficienza attraverso uno spostamento dei livelli della piramide delle caratteristiche da P3-P5 a P2-P4 e l'uso di normalizzazione a gruppi, risolvendo così le sfide poste dalla grande disparità di scala e dai rapporti d'aspetto elevati dei bersagli marittimi.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Il paper presenta ADHint, un metodo di apprendimento per rinforzo che integra dinamicamente le difficoltà dei campioni e dei roll-out nella pianificazione degli indizi e nella stima del vantaggio, migliorando così l'efficienza dei campioni, la stabilità dell'addestramento e la capacità di generalizzazione del ragionamento.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Il paper propone la Directional Textual Inversion (DTI), un metodo che ottimizza solo la direzione degli embedding su una ipersfera unitaria per correggere l'inflazione della norma che compromette la fedeltà del prompt nella personalizzazione testo-immagine, migliorando al contempo l'interpolazione semantica rispetto alle tecniche tradizionali.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Questo lavoro introduce il benchmark DivGenBench per quantificare il collasso delle modalità di preferenza nei modelli di diffusione e propone D²-Align, un nuovo framework di allineamento che mitiga tale fenomeno correggendo direzionalmente il segnale di ricompensa per preservare la diversità generativa.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Il paper propone SeLop, un metodo di intervento ortogonale a basso rango che, rimuovendo le correlazioni spurie irrilevanti dallo spazio delle rappresentazioni, risolve il problema della generalizzazione nella rilevazione di falsificazioni facciali ottenendo prestazioni all'avanguardia con un numero ridotto di parametri.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Il paper propone un nuovo metodo per rilevare immagini generate dall'IA sfruttando i componenti finali condivisi dalle architetture dei generatori, che, contaminando le immagini reali con tali componenti e addestrando un rilevatore su DINOv3, ottiene un'accuratezza media del 98,83% su generatori mai visti prima.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Il paper presenta CLEAR-Mamba, un framework avanzato basato su MedMamba che integra un layer di condizionamento adattivo (HaC) e un meccanismo di previsione affidabile (RaP) per migliorare l'accuratezza, l'adattabilità e l'affidabilità nella classificazione multi-sequenza di angiografie oftalmiche FFA e ICGA, superando le limitazioni delle metodologie esistenti grazie a un nuovo dataset su larga scala.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Il paper introduce RegionReasoner, un framework di apprendimento per rinforzo che migliora il ragionamento visivo multi-round attraverso un nuovo benchmark (RegionDial-Bench) e un meccanismo di ricompensa che garantisce la coerenza semantica globale e locale insieme a un grounding esplicito basato su regioni.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

Il paper presenta WebAccessVL, un modello visione-linguaggio supervisionato che corregge automaticamente le violazioni delle linee guida di accessibilità WCAG2 nel codice HTML dei siti web, preservando il design originale e riducendo drasticamente gli errori rispetto agli approcci esistenti.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Il paper introduce la Correzione in Tempo di Test (TTC), un metodo privo di addestramento che utilizza il primo frame come riferimento stabile per correggere l'accumulo di errori nella generazione di video lunghi tramite modelli autoregressivi distillati, ottenendo risultati di alta qualità con un costo computazionale trascurabile.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

Il paper presenta RoSE, un metodo innovativo che supera i limiti di allineamento 3D delle tecniche esistenti per la stima delle normali monoculare riformulando il problema come stima di sequenze di ombreggiatura tramite modelli generativi video, ottenendo così prestazioni state-of-the-art su dataset reali.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Il paper propone un framework di budgeting degli spike consapevole dell'energia per l'apprendimento continuo nelle reti neurali a impulsi, che integra replay esperienziale e parametri neuronali adattivi per migliorare l'accuratezza e ridurre il consumo energetico sia su dataset basati su frame che su eventi.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Multimodal Classification via Total Correlation Maximization

Questo articolo propone TCMax, un metodo di classificazione multimodale privo di iperparametri che massimizza la correlazione totale tra le caratteristiche multimodali e le etichette per mitigare la competizione tra le modalità e migliorare le prestazioni rispetto agli approcci esistenti.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Il paper propone B-DENSE, un nuovo framework che migliora l'efficienza dell'inferenza nei modelli di diffusione tramite allineamento denso di traiettorie multi-ramo, permettendo al modello studente di apprendere informazioni strutturali intermedie complete e ottenere una qualità di generazione superiore rispetto alle tecniche di distillazione esistenti.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Il paper presenta CoPeDiT, un modello di diffusione latente basato su transformer che, grazie a una percezione autonoma dello stato di completezza dei dati, risolve in modo unificato e robusto i problemi di sintesi 3D delle risonanze magnetiche cerebrali e cardiache senza dipendere da guide esterne.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

Il paper presenta ChimeraLoRA, un metodo che combina un LoRA condiviso a livello di classe con LoRA specifici per immagine, potenziati da un meccanismo di rafforzamento semantico e combinati tramite una distribuzione di Dirichlet, per generare dataset sintetici diversificati e ricchi di dettagli che migliorano l'accuratezza nella classificazione in scenari con pochi dati.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Il paper presenta OrthoAI, un framework neuro-simbolico che integra segmentazione dentale con supervisione sparsa, inferenza di vincoli biomeccanici basata su conoscenza e valutazione del trattamento per supportare le decisioni cliniche nell'ortodonzia con allineatori trasparenti.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

← Precedente Successivo →