cs.CV articoli | Gist.Science

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Questo studio propone un sistema neurosimbolico che, ricostruendo immagini mediche tramite primitive visive per generare spiegazioni strutturali ad alto livello, supera le architetture deep learning convenzionali nella diagnosi di anomalie istologiche offrendo al contempo maggiore accuratezza e trasparenza.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Questo lavoro propone un framework per i modelli di diffusione in cui il processo generativo si adatta dinamicamente alle esigenze di ciascun campione, permettendo di variare la traiettoria di denoising e ridurre il numero di passaggi di campionamento mantenendo la qualità dell'immagine.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Il documento presenta Prithvi-EO-2.0, un nuovo modello fondazionale geospaziale open-source addestrato su 4,2 milioni di serie temporali globali che supera le prestazioni del suo predecessore e di altri modelli esistenti, offrendo versatilità in applicazioni come la risposta alle emergenze e il monitoraggio ambientale grazie a un approccio di scienza aperta collaborativa.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Il paper presenta iLLaVA, un metodo innovativo che accelera end-to-end i modelli multimodali grandi ottimizzando congiuntamente il codificatore di immagini e l'LLM tramite una strategia di fusione dei token che ricicla le informazioni utili, ottenendo significativi miglioramenti sia nell'efficienza computazionale che nelle prestazioni.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Il paper propone HarmonicEval, una metrica di valutazione automatica senza riferimento che aggrega i punteggi per criterio in modo bottom-up, e introduce il benchmark MMHE con 18.000 giudizi umani per dimostrare che il metodo supera le metriche convenzionali nella valutazione multi-task e multi-criterio dei modelli visione-linguaggio.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Il paper presenta LangSurf, un metodo che allinea con precisione i campi linguistici 3D alle superfici degli oggetti mediante un'addestramento congiunto e un modulo di consapevolezza contestuale gerarchica, superando le prestazioni dello stato dell'arte per la segmentazione semantica open-vocabulary e abilitando compiti avanzati di editing e rimozione in 3D.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Questo lavoro propone un metodo che sfrutta modelli visione-linguaggio preaddestrati per apprendere modelli del mondo simbolici astratti da dimostrazioni brevi, consentendo a sistemi robotici di pianificare e risolvere compiti decisionali a lungo termine con una generalizzazione zero-shot in scenari complessi e non visti in precedenza.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Questo paper propone strategie di riduzione dei dati basate sul clustering nello spazio latente per ottimizzare l'addestramento avversario semi-supervisionato, consentendo di ridurre drasticamente il volume di dati non etichettati e i costi computazionali mantenendo un'elevata robustezza del modello.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Questo articolo propone un modello di diffusione agnostico rispetto al problema, basato sulla stima del termine guidato tramite MAP, che sfrutta score network preaddestrati e un prior gaussiano per risolvere problemi inversi nell'elaborazione delle immagini con una migliore preservazione dei contenuti rispetto agli stati dell'arte.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

Il paper presenta GPC, un framework di controllo generativo che combina clonazione comportamentale, modelli predittivi del mondo e pianificazione online per superare le prestazioni della clonazione comportamentale in compiti di manipolazione robotica sia in simulazione che nel mondo reale.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Il paper presenta VL-Nav, un sistema di navigazione visione-linguaggio neuro-simbolico che combina ragionamento neurale e guida simbolica per decomporre compiti complessi e ottimizzare l'esplorazione, ottenendo risultati di successo superiori nell'83,4% dei casi in ambienti indoor e nell'86,3% in esperimenti reali.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Il paper introduce Prompt-SID, un framework di denoising per immagini singole basato sull'apprendimento di prompt strutturali generati tramite un processo di diffusione latente e integrati in un denoiser transformer, che addestrato in modo auto-supervisionato preserva efficacemente i dettagli strutturali superando i limiti delle metodologie esistenti.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

Il paper presenta LaVCa, un approccio basato su modelli linguistici di grandi dimensioni (LLM) che genera didascalie naturali per descrivere con maggiore precisione e dettaglio la selettività dei voxel nella corteccia visiva umana, superando i limiti dei modelli di codifica tradizionali e rivelando nuove sfumature nella rappresentazione visiva del cervello.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Questo studio presenta un algoritmo che fonde immagini MRI multimodali pre-elaborate e segmentate tramite architetture UNET in 2D e 3D, per poi classificarle con un modello ResNet50, ottenendo un'accuratezza del 99,25% nella sottoclassificazione dei gliomi.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Questo lavoro propone LOOP, un nuovo metodo di apprendimento per rinforzo che combina le tecniche di riduzione della varianza di REINFORCE con la robustezza di PPO per ottimizzare il fine-tuning dei modelli di diffusione testo-immagine, ottenendo un miglior equilibrio tra efficienza nel campionamento e prestazioni finali.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Il paper propone un modello di apprendimento profondo geometrico basato su transformer che, integrando punti di riferimento anatomici in mesh tetraedriche derivanti da risonanza magnetica strutturale, migliora la diagnosi dell'Alzheimer e la previsione della positività all'amiloide cerebrale, riducendo la necessità di scansioni PET costose e invasive.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Il paper introduce Snapmoji, un sistema che genera istantaneamente avatar 3D animabili e personalizzabili su dispositivi mobili a 30-40 FPS, trasformando un selfie in uno stile principale tramite l'adattamento del dominio Gaussiano (GDA) e applicando successivamente uno stile secondario pur preservando l'identità dell'utente.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Il paper presenta SceneEval, un nuovo framework di valutazione e un benchmark di 500 campioni (SceneEval-500) progettati per misurare in modo completo e interpretabile la coerenza semantica e il rispetto delle specifiche testuali nella sintesi di scene 3D interne, evidenziando le lacune attuali nei metodi di generazione esistenti.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Questo paper propone un nuovo approccio per l'apprendimento compatibile con il passato che, rilassando i vincoli di allineamento tramite perturbazioni sui prototipi delle vecchie caratteristiche, preserva la capacità discriminatoria del nuovo modello senza richiedere il costoso ricalcolo delle embedding.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Questo lavoro propone un metodo unificato per la ricostruzione robusta di due mani da immagini monoculare, che combina un codificatore di fusione per allineare eterogenee priorità 2D da modelli fondazionali con un modello di diffusione privo di penetrazione per garantire interazioni 3D fisicamente plausibili e coerenti.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

← Precedente Successivo →