cs.CV articoli | Gist.Science

RBF Weighted Hyper-Involution for RGB-D Object Detection

Il paper propone un modello di rilevamento di oggetti RGB-D in tempo reale che integra una nuova iper-involuzione pesata da funzioni radiali di base (RBF) dinamiche e un livello di fusione addestrabile basato sul campionamento, ottenendo prestazioni superiori rispetto ai metodi esistenti su NYU Depth V2 e SUN RGB-D.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Il paper propone un sistema di rilevamento delle allucinazioni visive strutturali in immagini di personaggi cartonesi generati da modelli Text-to-Image, che utilizza un modello Vision-Language potenziato dall'apprendimento in contesto con informazioni sulla posa (PA-ICVL) per ottenere miglioramenti significativi rispetto ai metodi basati solo su immagini RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Il paper presenta Fuse4Seg, un innovativo framework di fusione di immagini mediche multi-modale basato su ottimizzazione bi-livello che, allineando direttamente la fusione alla segmentazione tramite gradienti semantici e vincoli di frequenza, supera le prestazioni degli stati dell'arte mantenendo al contempo la fedeltà fisica e l'interpretabilità clinica.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

Il paper presenta PACE, un metodo di fine-tuning efficiente nei parametri che combina regolarizzazione della consistenza con perturbazioni moltiplicative per ridurre le norme dei gradienti e allineare i modelli, migliorando così la generalizzazione su diversi compiti visivi e testuali rispetto alle tecniche esistenti.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Il paper introduce FALCON, un approccio di preaddestramento auto-supervisionato unificato per il riconoscimento delle azioni dei droni che, integrando la mascheratura orientata agli oggetti e la ricostruzione futura a doppio orizzonte, risolve lo squilibrio spaziale tipico dei video aerei migliorando significativamente l'accuratezza e riducendo i tempi di inferenza rispetto ai metodi supervisionati.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

Il paper presenta AuthFace, un nuovo framework che migliora il ripristino autentico dei volti ciechi (BFR) sfruttando un prior generativo orientato al volto, ottenuto tramite il fine-tuning di un modello di diffusione testo-immagine su un dataset di 1,5K immagini ad alta risoluzione curato da fotografi professionisti e integrato con una perdita di caratteristiche facciali latenti sensibile al tempo per ridurre gli artefatti.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

Questo studio propone un metodo di ricostruzione dei dati sismici basato sull'apprendimento auto-supervisionato e sulla coerenza interna, che utilizza una rete leggera priva di dataset esterni per ottenere ricostruzioni di alta qualità in condizioni di acquisizione irregolare.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Il paper presenta PPLLaVA, un modello innovativo che risolve il collo di bottiglia computazionale dei Video LLM riducendo drasticamente i token visivi attraverso una strategia di pooling guidata dai prompt, mantenendo al contempo alte prestazioni su compiti di comprensione video complessi.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Il paper presenta Ditto, un framework di sintesi di teste parlanti basato su diffusione che, attraverso l'ottimizzazione dell'architettura e l'uso di segnali condizionali diversificati, risolve i problemi di velocità e controllo dei modelli esistenti, consentendo un'inferenza in tempo reale con movimenti e espressioni facciali altamente controllabili.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Il paper presenta LEO, un'architettura semplice ed efficace che ottimizza la fusione di diversi encoder visivi tramite un approccio leggero basato su proiezioni indipendenti e intercalamento di sequenze, ottenendo prestazioni superiori su numerosi benchmark e una forte capacità di generalizzazione nel dominio della guida autonoma.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

FeatureGS è un metodo che migliora la ricostruzione 3D tramite Gaussian Splatting introducendo una funzione di perdita geometrica basata su caratteristiche eigenvalue, ottenendo una maggiore accuratezza geometrica, una drastica riduzione degli artefatti e un'efficienza di memoria superiore rispetto alle tecniche esistenti.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Il paper introduce PoI, un framework che migliora la regressione delle coordinate della scena combinando la sintesi di nuove viste con 3DGS e un modello di diffusione, filtrando poi progressivamente i pixel inaffidabili tramite l'errore di reproiezione per garantire supervisione 3D accurata e raggiungere prestazioni all'avanguardia nel localizzazione visiva.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Questo sondaggio offre una panoramica strutturata delle tecniche, dei dataset e delle sfide etiche legate all'uso dei modelli linguistici su larga scala per assistere i ricercatori in tutte le fasi del ciclo di vita scientifico, dalla scoperta alla valutazione.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

Il paper introduce SCOTT, un'architettura di tokenizzazione convoluzionale combinata con un framework MIM-JEPA, che dimostra come sia possibile apprendere rappresentazioni visive robuste in contesti a dati limitati, superando la dipendenza dal paradigma dei "big data" e ottenendo prestazioni competitive rispetto ai metodi supervisionati e a quelli basati su pre-addestramento su larga scala.

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

Il paper introduce NAMI, un modello Transformer basato su flussi rettificati progressivi e pontati che migliora l'efficienza di generazione delle immagini riducendo i tempi di inferenza del 64% senza compromettere la qualità, grazie a un'architettura a cascata spaziale e multi-risoluzione.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

Il paper presenta ECLARE, un metodo di super-risoluzione efficiente e auto-apprendente che migliora la risoluzione anisotropa dei volumi MR clinici stimando il profilo della slice e apprendendo direttamente dai dati acquisiti, superando così le limitazioni delle tecniche esistenti senza subire problemi di spostamento di dominio.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Il paper introduce EarthScape, un dataset multimodale pronto per l'IA che integra modelli digitali del terreno, immagini aeree e dati vettoriali per automatizzare la mappatura geologica superficiale, dimostrando che le caratteristiche del terreno offrono il segnale predittivo più affidabile rispetto agli input spettrali o altimetrici grezzi.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Questo articolo introduce un nuovo set di test basati su misurazioni psicofisiche della visione di basso livello per valutare la capacità delle metriche di qualità immagine e video di catturare fenomeni percettivi fondamentali, rivelando limiti e comportamenti specifici di 34 metriche esistenti.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Il paper presenta FindAnything, un framework di mappatura open-vocabulary che integra informazioni visive e linguistiche in sottomappe volumetriche centrate sugli oggetti, consentendo una comprensione semantica efficiente e scalabile in tempo reale anche su dispositivi con risorse limitate come i MAV.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

Il paper propone GenCLIP, un nuovo framework per la rilevazione di anomalie zero-shot che migliora la generalizzazione e la stabilità attraverso l'uso di prompt multi-livello, un'architettura a doppio ramo per bilanciare specificità e generalità, e un meccanismo adattivo di filtraggio dei prompt testuali.

Donghyeong Kim, Chaewon Park, Suhwan Cho + 4 more2026-03-09💻 cs

← Precedente Successivo →