cs.CV articoli | Gist.Science

SFATTI: Spiking FPGA Accelerator for Temporal Task-driven Inference -- A Case Study on MNIST

Questo articolo presenta SFATTI, un acceleratore FPGA per reti neurali spiking ottimizzato per l'inferenza a bassa latenza e consumo energetico su dispositivi edge, dimostrando la sua efficacia attraverso uno studio di caso sul dataset MNIST utilizzando il framework open-source Spiker+.

Alessio Caviglia, Filippo Marostica, Alessio Carpegna + 2 more2026-02-25💻 cs

Low-Latency Event-Based Velocimetry for Quadrotor Control in a Narrow Pipe

Questo lavoro presenta il primo sistema di controllo in ciclo chiuso per quadricotteri in grado di hoverare in tubi stretti, che sfrutta una velocimetria basata su eventi a bassa latenza e una rete neurale ricorrente per stimare le perturbazioni aerodinamiche in tempo reale e prevenire collisioni con le pareti.

Leonard Bauersfeld, Davide Scaramuzza2026-02-25💻 cs

FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

Il paper presenta FedGIN, un framework di apprendimento federato che integra un modulo di augmentazione non lineare dell'intensità globale per migliorare la segmentazione degli organi su immagini multimodali (MRI e CT) senza condividere dati grezzi, ottenendo significativi miglioramenti nelle prestazioni rispetto ai modelli locali e centralizzati.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25🤖 cs.AI

Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

Questo articolo propone la NS-FPN, una rete neurale leggera che migliora la rilevazione e segmentazione di piccoli target a infrarossi integrando moduli di purificazione delle frequenze basse e campionamento a spirale per sopprimere il rumore e ridurre i falsi allarmi.

Maoxun Yuan, Duanni Meng, Ziteng Xi + 4 more2026-02-25🤖 cs.AI

Learned Regularization for Microwave Tomography

Il documento presenta SSD-Reg, un nuovo framework ibrido fisico-informato che integra modelli di diffusione come regolarizzazione appresa all'interno di uno schema variazionale per migliorare la ricostruzione tomografica a microonde, superando le limitazioni dei metodi convenzionali e delle reti neurali tradizionali senza richiedere dati di addestramento accoppiati.

Bowen Tong, Hao Chen, Shaorui Guo + 1 more2026-02-25⚡ eess

Trajectory-aware Shifted State Space Models for Online Video Super-Resolution

Questo articolo presenta TS-Mamba, un nuovo metodo per la super-risoluzione video online che combina modelli di spazio di stato (SSM) a bassa complessità con una modellazione delle traiettorie temporali per aggregare informazioni spaziotemporali a lungo raggio, ottenendo prestazioni all'avanguardia e una riduzione significativa della complessità computazionale.

Qiang Zhu, Xiandong Meng, Yuxian Jiang + 5 more2026-02-25💻 cs

MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

Il paper presenta MoSA, un modello innovativo che genera video umani coerenti dal punto di vista del movimento decouplando la sintesi della struttura 3D da quella dell'aspetto, migliorando così il controllo sui movimenti complessi e le interazioni uomo-ambiente grazie a un nuovo dataset su larga scala e a meccanismi di vincolo specifici.

Haoyu Wang, Hao Tang, Donglin Di + 5 more2026-02-25💻 cs

Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction

Il paper propone DeReF, un nuovo framework multimodale per la previsione della sopravvivenza al cancro che supera i limiti delle tecniche di fusione esistenti integrando un decoupling modale, una strategia di riorganizzazione casuale delle caratteristiche e un'attenzione incrociata regionale per migliorare l'interazione informativa e la generalizzazione dei modelli esperti.

Huayi Wang, Haochao Ying, Yuyang Xu + 5 more2026-02-25💻 cs

Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling

Il paper propone un nuovo framework che apprende rappresentazioni unificate robuste per la previsione della frequenza cardiaca, affrontando l'eterogeneità dei dati tramite dropout casuale delle feature e apprendimento contrastivo, e validando il metodo su un nuovo dataset benchmark (PARROTAO) con risultati significativamente superiori rispetto agli stati dell'arte.

Zhengdong Huang, Zicheng Xie, Wentao Tian + 3 more2026-02-25🤖 cs.LG

EHWGesture -- A dataset for multimodal understanding of clinical gestures

Il paper presenta EHWGesture, un nuovo dataset multimodale e sincronizzato che registra oltre 1.100 esecuzioni di cinque gesti clinici tramite sensori RGB-D, event camera e motion capture, fornendo un benchmark completo per la classificazione, il rilevamento e la valutazione della qualità delle azioni gestuali.

Gianluca Amprimo, Alberto Ancilotto, Alessandro Savino + 5 more2026-02-25🤖 cs.AI

PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models

Il paper introduce PCPO, un framework che risolve l'instabilità nell'allineamento dei modelli di generazione immagini tramite un'assegnazione proporzionale del credito, garantendo una convergenza accelerata e una qualità delle immagini superiore rispetto agli stati dell'arte.

Jeongjae Lee, Jong Chul Ye2026-02-25🤖 cs.AI

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Questo lavoro presenta RobustVLA, un metodo che migliora la robustezza dei modelli Vision-Language-Action contro perturbazioni multi-modali attraverso l'ottimizzazione offline del rumore nelle azioni e la formulazione della robustezza come problema di bandit multi-braccio, ottenendo significativi guadagni nelle prestazioni sia in simulazione che su robot reali.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation

Il paper presenta DeLTa, un nuovo framework che combina stime di profondità e pose 6D con la pianificazione guidata dal linguaggio e una singola dimostrazione per abilitare la manipolazione robotica precisa e generalizzabile di oggetti trasparenti sconosciuti in compiti a lungo termine.

Taeyeop Lee, Gyuree Kang, Bowen Wen + 5 more2026-02-25💻 cs

Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models

Il paper propone Spatial-DISE, un benchmark unificato e un dataset scalabile basati su una tassonomia cognitiva che valuta la capacità di ragionamento spaziale intrinseco ed estrinseco (statico e dinamico) nei modelli visione-linguaggio, rivelando un significativo divario rispetto alle competenze umane.

Xinmiao Huang, Qisong He, Zhenglin Huang + 5 more2026-02-25💻 cs

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Il paper introduce UniGenBench++, un benchmark unificato e multilingue per la valutazione semantica fine-granulare dei modelli di generazione testo-immagine, basato su 600 prompt diversificati e su un pipeline di valutazione automatizzata che ne rivela punti di forza e debolezze.

Yibin Wang, Zhimin Li, Yuhang Zang + 8 more2026-02-25💻 cs

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

Il paper presenta egoEMOTION, il primo dataset che combina segnali visivi egocentrici e fisiologici con autovalutazioni di emozioni e personalità per definire nuovi benchmark di riconoscimento affettivo in scenari reali.

Matthias Jammot, Björn Braun, Paul Streli + 2 more2026-02-25💻 cs

Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Questo lavoro introduce un nuovo framework multimodale che integra dati acustici e visivi per localizzare con precisione gli eventi chirurgici nello spazio 3D, migliorando la comprensione contestuale delle scene operatorie dinamiche e gettando le basi per sistemi chirurgici intelligenti.

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof + 3 more2026-02-25⚡ eess

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

Il paper presenta SpecAware, un modello fondazionale consapevole del contenuto spettrale che unifica l'apprendimento multi-sensore per la mappatura iperspettrale tramite un'architettura basata su iperreti e un nuovo dataset di pre-addestramento su larga scala, superando le limitazioni legate all'eterogeneità dei canali spettrali tra diversi sensori.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

Il paper presenta VCFlow, un'architettura di decodifica visiva ispirata ai processi cognitivi che, modellando l'organizzazione ventrale-dorsale del sistema visivo e utilizzando l'apprendimento contrastivo, permette una ricostruzione video rapida e scalabile da segnali fMRI senza necessità di addestramento specifico per il soggetto.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Questo lavoro presenta il primo metodo di rilevamento dei cambiamenti scenici online, pose-agnostico e privo di etichette, che fonde più viste tramite una nuova funzione di perdita auto-supervisionata e aggiornamenti rapidi basati su 3D Gaussian Splatting, superando le prestazioni degli approcci offline esistenti con un'efficienza in tempo reale superiore a 10 FPS.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

← Precedente Successivo →