cs.CV articoli | Gist.Science

M-Gaussian: An Magnetic Gaussian Framework for Efficient Multi-Stack MRI Reconstruction

Il paper presenta M-Gaussian, un innovativo framework che adatta lo 3D Gaussian Splatting alla ricostruzione di risonanza magnetica multi-pila, offrendo un equilibrio ottimale tra alta qualità dell'immagine e velocità di elaborazione grazie a primitive magnetiche fisicamente coerenti e un campo residuo neurale.

Kangyuan Zheng, Xuan Cai, Jiangqi Wang + 6 more2026-03-03🤖 cs.AI

Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models

Il paper presenta un approccio di LoRA guidato meccanicisticamente che, utilizzando Sparse Autoencoders per garantire la coerenza delle risposte a riformulazioni di domande cliniche, riduce significativamente l'instabilità dei modelli medico-visionari mantenendo al contempo un'elevata accuratezza.

Binesh Sadanandan, Vahid Behzadan2026-03-03💻 cs

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

Il paper presenta ReMD, un framework di diffusione fisicamente coerente che utilizza una correzione residua multigrid basata su wavelet per migliorare l'efficienza e la fedeltà fisica nella super-risoluzione dei fluidi, riducendo il numero di passaggi di campionamento necessari rispetto ai metodi esistenti.

Zhihao Li, Shengwei Dong, Chuang Yi + 5 more2026-03-03🤖 cs.AI

Attention to Neural Plagiarism: Diffusion Models Can Plagiarize Your Copyrighted Images!

Questo studio evidenzia come i modelli di diffusione possano plagiare immagini protette da copyright eludendo anche le tecniche di watermarking avanzate, grazie a un metodo basato su gradienti che utilizza "ancore e shim" per generare repliche senza necessità di addestramento aggiuntivo.

Zihang Zou, Boqing Gong, Liqiang Wang2026-03-03💻 cs

Multiview Progress Prediction of Robot Activities

Questo articolo propone un'architettura multi-vista per prevedere l'avanzamento delle attività di manipolazione robotica, superando i limiti dell'occlusione self-occlusione tipici delle singole telecamere e dimostrando la sua efficacia attraverso esperimenti su Mobile ALOHA.

Elena Zoppellari, Federico Becattini, Marco Fiorucci + 1 more2026-03-03💻 cs

EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

Il paper presenta EfficientPosterGen, un framework end-to-end che ottimizza la generazione automatica di poster accademici attraverso il recupero semantico delle informazioni chiave, la compressione del contesto visivo per ridurre i token e un algoritmo deterministico per il rilevamento delle violazioni del layout, garantendo così maggiore efficienza e affidabilità rispetto ai modelli esistenti.

Wenxin Tang, Jingyu Xiao, Yanpei Gong + 6 more2026-03-03🤖 cs.AI

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

Il paper introduce BiCLIP, un framework innovativo per la segmentazione delle immagini mediche che, grazie a un meccanismo di fusione multimodale bidirezionale e a un obiettivo di coerenza di augmentazione, garantisce prestazioni superiori e una maggiore robustezza in scenari clinici reali caratterizzati da scarse annotazioni e degrado delle immagini.

Saivan Talaei, Fatemeh Daneshfar, Abdulhady Abas Abdullah + 1 more2026-03-03💻 cs

FujiView: Multimodal Late-Fusion for Predicting Scenic Visibility

Il paper presenta FujiView, un framework di apprendimento multimodale basato su fusione tardiva che combina immagini webcam e dati meteorologici per prevedere con elevata accuratezza la visibilità del Monte Fuji, definendo un nuovo benchmark per le previsioni ambientali.

Bryceton Bible, Shah Md Nehal Hasnaeen, Hairong Qi2026-03-03💻 cs

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

Il paper presenta FlowPortrait, un framework basato sul reinforcement learning che utilizza un sistema di valutazione allineato all'uomo tramite MLLM e l'ottimizzazione GRPO per generare video di ritratti parlanti guidati dall'audio con sincronizzazione labiale e qualità del movimento superiori.

Weiting Tan, Andy T. Liu, Ming Tu + 3 more2026-03-03🤖 cs.AI

DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops

Questo studio propone un modello fondazionale per il rilevamento delle infestanti nelle colture orticole, integrando un trasformatore visivo DINOv3 pre-addestrato con l'architettura YOLO26, che ha dimostrato significativi miglioramenti nella precisione e nella generalizzazione cross-dominio pur mantenendo prestazioni in tempo reale.

Boyang Deng, Yuzhen Lu2026-03-03🤖 cs.AI

SKINOPATHY AI: Smartphone-Based Ophthalmic Screening and Longitudinal Tracking Using Lightweight Computer Vision

Il documento presenta SKINOPATHY AI, un'applicazione web basata su smartphone che utilizza visione artificiale leggera per offrire cinque moduli di screening oftalmico spiegabili e longitudinali in contesti a risorse limitate, garantendo privacy e funzionando interamente su hardware mobile senza inferenza nel cloud.

S. Kalaycioglu, C. Hong, M. Zhu + 1 more2026-03-03🤖 cs.LG

GazeXPErT: An Expert Eye-tracking Dataset for Interpretable and Explainable AI in Oncologic FDG-PET/CT Scans

Il paper presenta GazeXPErT, un dataset 4D di tracciamento oculare di esperti su scansioni FDG-PET/CT oncologiche che, sincronizzando i pattern di ricerca umana con le immagini, mira a migliorare l'interpretabilità, l'accuratezza e l'integrazione nel flusso di lavoro dei modelli di intelligenza artificiale per la segmentazione e la localizzazione delle lesioni tumorali.

Joy T Wu, Daniel Beckmann, Sarah Miller + 15 more2026-03-03⚡ eess

A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

Questo lavoro propone un protocollo di valutazione basato su metriche di confine e analisi di equità tra sottoinsiemi per affrontare lo squilibrio estremo nella segmentazione di tratti alla lavagna, dimostrando che le funzioni di perdita basate sulla sovrapposizione e l'addestramento ad alta risoluzione migliorano significativamente le prestazioni rispetto ai metodi classici, offrendo al contempo una maggiore affidabilità nei casi peggiori.

Nicholas Korcynski2026-03-03🤖 cs.LG

ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering

Il paper propone ConFoThinking, un framework per il Visual Question Answering che migliora la percezione visiva aggregando i segnali di attenzione in uno strato intermedio e utilizzando cue semantici concisi per identificare e ingrandire le regioni di interesse, superando così le limitazioni dei metodi basati su grounding o su estrazione di attenzione frammentata.

Zhaodong Wu, Haochen Xue, Qi Cao + 5 more2026-03-03💻 cs

Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?

Questo articolo introduce il concetto di "obbedienza" nell'IA generativa, evidenziando il paradosso per cui la creazione di immagini monocromatiche è più difficile di quella di scenari complessi, e presenta VIOLIN, il primo benchmark per valutare tale capacità attraverso un sistema di classificazione gerarchico.

Hongyu Li, Kuan Liu, Yuan Chen + 6 more2026-03-03🤖 cs.AI

Image-Based Classification of Olive Species Specific to Turkiye with Deep Neural Networks

Questo studio dimostra che l'impiego di reti neurali convoluzionali, in particolare EfficientNetB0, consente di classificare con un'accuratezza del 94,5% le diverse varietà di olive coltivate in Turchia, offrendo una soluzione efficace per l'identificazione automatica e il controllo di qualità in agricoltura.

Irfan Atabas, Hatice Karatas2026-03-03💻 cs

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

Il documento descrive l'addestramento del modello video fondazionale Summer-22B su 50 milioni di clip, evidenziando come l'ingegneria dei dataset e la gestione dei dati siano state le sfide principali, superando le variazioni architetturali e dimostrando l'efficacia del trasferimento iperparametrico in contesti vincolati.

Simo Ryu, Chunghwan Han2026-03-03🤖 cs.LG

Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

Il paper propone ST-Lite, un framework di compressione della cache KV senza addestramento che, sfruttando la sparsità uniforme dell'attenzione nelle interfacce grafiche attraverso un'analisi combinata di salienza spaziale e semantica della traiettoria, riduce drasticamente l'uso di memoria e accelera l'elaborazione degli agenti GUI a lungo termine mantenendo alte prestazioni.

Bowen Zhou, Zhou Xu, Wanli Li + 2 more2026-03-03🤖 cs.LG

Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning

Il paper propone LoDA, un metodo per l'apprendimento continuo basato su LoRA che migliora la condivisione e l'isolamento delle conoscenze attraverso una decomposizione dei sottospazi guidata dal task e un'ottimizzazione allineata al gradiente, superando i limiti delle tecniche esistenti che trascurano le direzioni condivise e le direzioni specifiche efficaci.

Lingfeng He, De Cheng, Huaijie Wang + 3 more2026-03-03🤖 cs.LG

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

Il paper propone SKeDA, un framework di watermarking generativo per modelli di diffusione testo-video che garantisce alta fedeltà e robustezza attraverso il campionamento basato su chiavi mescolate (SKe) per tollerare la perdita di sincronizzazione e l'attenzione differenziale (DA) per resistere alle distorsioni temporali.

Yang Yang, Xinze Zou, Zehua Ma + 2 more2026-03-03🤖 cs.AI

← Precedente Successivo →