cs.CV articoli | Gist.Science

Remote Sensing Image Classification Using Deep Ensemble Learning

Questo studio propone un modello di apprendimento profondo basato su ensemble che integra CNN e Vision Transformers per la classificazione di immagini telerilevate, superando i limiti delle architetture singole e ottenendo prestazioni superiori su diversi dataset grazie a un'efficiente gestione delle risorse computazionali.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

Il paper presenta Cog2Gen3D, un framework di diffusione guidato dalla cognizione che integra rappresentazioni semantiche e geometriche assolute per generare oggetti 3D fisicamente plausibili e strutturalmente coerenti, superando i limiti di consistenza di scala dei metodi esistenti.

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

Il paper presenta VS3R, un framework innovativo che combina la ricostruzione 3D feed-forward con modelli di diffusione generativi per ottenere una stabilizzazione video robusta e a intero campo visivo, superando i compromessi tra resilienza geometrica e coerenza visiva tipici dei metodi esistenti.

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Il paper presenta MACRO, un agente medico auto-evolutivo che supera i limiti dei sistemi statici scoprendo autonomamente e integrando nuove competenze strumentali composite basate sull'esperienza clinica, migliorando così l'accuratezza e la generalizzazione nell'orchestrazione di strumenti per l'interpretazione di immagini mediche.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

Il paper presenta TumorChain, un framework di ragionamento multimodale intercalato e un vasto dataset TumorCoT da 1,5 milioni di esempi, progettati per migliorare l'accuratezza, la tracciabilità e l'affidabilità dell'analisi clinica dei tumori attraverso un ragionamento passo-passo che integra scansioni CT 3D e testi clinici.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

Il paper presenta PatchCue, un nuovo paradigma che migliora il ragionamento visivo dei modelli visione-linguaggio utilizzando suggerimenti visivi a livello di patch, allineandosi meglio alle abitudini percettive umane e superando le limitazioni dei metodi basati su pixel o punti.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

Il paper presenta MemSeg-Agent, un agente di segmentazione di immagini mediche che sposta l'adattamento dallo spazio dei pesi a quello della memoria, permettendo l'apprendimento few-shot, l'apprendimento federato e l'adattamento al momento del test all'interno di un'unica architettura che riduce l'overhead di comunicazione e migliora la robustezza ai cambiamenti di dominio senza richiedere un fine-tuning.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Questo articolo presenta una valutazione sistematica dell'impatto delle viste sintetiche innovative sul riconoscimento dei luoghi nei video, dimostrando che l'aggiunta di tali viste migliora le statistiche di riconoscimento e che, per aggiunte più ampie, il numero di viste e il tipo di immagine sono fattori più critici rispetto alla magnitudine del cambiamento di prospettiva.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

Il paper introduce CylinderSplat, un nuovo framework feed-forward per la sintesi di nuove viste panoramiche che utilizza una rappresentazione di tripiani cilindrici e un'architettura a due rami per superare le limitazioni geometriche e di distorsione dei metodi esistenti, ottenendo risultati all'avanguardia sia in scenari a vista singola che multipla.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

Il paper presenta PixARMesh, un metodo autoregressivo che ricostruisce mesh 3D complete di scene interne direttamente da una singola immagine RGB, generando layout e geometria in un unico passaggio per produrre mesh coerenti e pronte per l'uso.

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

Il paper presenta InnoAds-Composer, un framework a stadio singolo che genera efficientemente poster di prodotti per l'e-commerce controllando simultaneamente soggetto, testo e stile, risolvendo problemi di fedeltà e coerenza tipici dei metodi precedenti grazie a un routing condizionale ottimizzato e a un modulo di potenziamento delle caratteristiche testuali.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Il paper propone tre tecniche di mitigazione del bias per migliorare l'equità nei Concept Bottleneck Models, ottenendo risultati superiori nel compromesso tra equità e prestazioni rispetto ai lavori precedenti.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

Il paper presenta CollabOD, un framework di rilevamento collaborativo e leggero progettato per migliorare la precisione nella rilevazione di oggetti piccoli nelle immagini UAV preservando i dettagli strutturali e allineando i flussi di caratteristiche eterogenee.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

Il paper propone Art3D, un nuovo framework di sintesi delle disparità artistiche che, abbandonando la pura accuratezza geometrica, mira a ricreare l'esperienza immersiva del cinema 3D professionale decoupling gli intenti globali dagli effetti locali attraverso un'architettura duale e supervisione indiretta.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

Il paper presenta Pano3DComposer, un framework feed-forward efficiente che genera scene 3D composizionali ad alta fedeltà a partire da singole immagini panoramiche, superando i limiti dei metodi attuali grazie a un innovativo predittore di trasformazione oggetto-mondo e un meccanismo di allineamento da grezzo a fine.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

Il paper introduce CORE-Seg, un framework end-to-end che integra il ragionamento cognitivo e la segmentazione medica tramite un adattatore di prompt guidato semanticamente e un meccanismo di ricompensa adattivo, ottenendo risultati all'avanguardia nella segmentazione di lesioni complesse grazie al benchmark ComLesion-14K.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Il paper presenta BlackMirror, un framework innovativo e senza addestramento per il rilevamento di backdoor nei modelli text-to-image in scenari black-box, che individua anomalie semantiche tramite l'allineamento tra istruzioni e risposte visive invece di basarsi sulla similarità delle immagini generate.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

Il paper introduce RAC (Rectified Flow Auto Coder), un'architettura ispirata al Rectified Flow che sostituisce i VAE tradizionali offrendo decodifica multi-passo correggibile, inferenza bidirezionale con riduzione dei parametri e una qualità generativa superiore a costi computazionali inferiori.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Il paper presenta RAID, un vasto dataset annotato per la percezione del rischio alla guida, e un nuovo framework di apprendimento debolmente supervisionato che, sfruttando le intenzioni e le risposte del conducente, identifica le fonti di pericolo ottenendo significativi miglioramenti rispetto agli stati dell'arte.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

Il paper presenta TAR-ViTPose, un nuovo Vision Transformer che migliora la stima della posa umana nei video aggregando e ripristinando le informazioni temporali tra i frame per superare le limitazioni dei metodi basati su immagini statiche.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

← Precedente Successivo →