cs.CV articoli | Gist.Science

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Il paper propone NO-CTR, una nuova rappresentazione di funzioni tensoriali continue basata su operatori neurali che supera i limiti dei prodotti discreti lineari consentendo una modellazione più fedele e universale di dati complessi su griglie regolari, irregolari e oltre le griglie.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

Il paper presenta FireRed-OCR, un framework innovativo che trasforma modelli VLM generici in esperti di parsing strutturale ad alte prestazioni attraverso una fabbrica di dati "Geometria + Semantica" e una strategia di training progressiva a tre stadi, ottenendo risultati all'avanguardia nel benchmark OmniDocBench v1.5.

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

Il paper presenta Tiny-DroNeRF, un modello NeRF ottimizzato per microcontrollori a bassissimo consumo su nano-droni che, combinato con un approccio di apprendimento federato, permette la ricostruzione 3D densa di ambienti complessi nonostante le severe limitazioni di memoria e potenza di calcolo.

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Questo lavoro presenta un metodo di previsione della traiettoria dei droni basato esclusivamente su eventi, che estrae la velocità di rotazione delle eliche dai dati grezzi e la fonde in un filtro di Kalman consapevole delle RPM, ottenendo risultati superiori rispetto agli approcci basati su apprendimento e ai filtri di Kalman convenzionali senza ricorrere a immagini RGB o dati di addestramento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Il paper propone il "3D Field of Junctions" (3D FoJ), un nuovo prior strutturale privo di addestramento che ottimizza giunzioni di cunei 3D per denoisare e ricostruire volumi in problemi inversi con basso rapporto segnale-rumore, superando i metodi classici e neurali in applicazioni come la tomografia a raggi X, la criotomografia elettronica e la pulizia di nuvole di punti lidar.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Questo articolo propone e valuta un nuovo metodo di aumento dei dati basato sull'interpolazione di classi miste tramite CycleGAN (C2GMA) per generare immagini non visibili a partire da quelle visibili, migliorando significativamente l'accuratezza della classificazione nel dominio SAR rispetto alle strategie tradizionali.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

Il paper presenta Dite-HRNet, una rete neurale leggera ad alta risoluzione che integra convoluzioni dinamiche e modellazione contestuale adattiva per migliorare l'estrazione di caratteristiche multi-scala e la dipendenza spaziale a lungo raggio, ottenendo prestazioni superiori rispetto allo stato dell'arte sui dataset COCO e MPII per la stima della posa umana.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving

Il paper propone CO^3, un metodo di apprendimento rappresentazionale 3D non supervisionato per la guida autonoma che combina apprendimento contrastivo cooperativo tra LiDAR veicolari e infrastrutturali con la previsione del contesto della forma, superando le limitazioni dei metodi precedenti e ottenendo risultati all'avanguardia sui dataset Once e KITTI.

Runjian Chen, Yao Mu, Runsen Xu + 5 more2026-03-02💻 cs

A Fault Detection Scheme Utilizing Convolutional Neural Network for PV Solar Panels with High Accuracy

Questo articolo propone uno schema di rilevamento dei guasti per pannelli solari fotovoltaici basato su una rete neurale convoluzionale (CNN) addestrata, che raggiunge un'accuratezza del 91,1% nella classificazione binaria e dell'88,6% nella classificazione multi-classe, superando le prestazioni di studi precedenti.

Maryam Paparimoghadamborazjani, Amin Kazemi2026-03-02🤖 cs.LG

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Il paper affronta il problema dell'iper-ottimizzazione della ricompensa nei modelli di diffusione identificando i bias induttivi temporali e di primacy come cause principali, proponendo quindi l'algoritmo TDPO-R che sfrutta il bias induttivo temporale e resetta i neuroni attivi del critic per mitigare tale fenomeno e migliorare l'allineamento con le preferenze umane.

Ziyi Zhang, Sen Zhang, Yibing Zhan + 3 more2026-03-02🤖 cs.LG

Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

Il paper presenta Uni-ISP, un nuovo approccio che unifica l'apprendimento degli ISP per diverse fotocamere mobili tramite embedding specifici del dispositivo e un dataset reale da 4K, migliorando significativamente le prestazioni e abilitando nuove applicazioni.

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

Il paper propone R2GenCSR, un nuovo framework efficiente per la generazione di referti radiologici basato su LLM che utilizza Mamba come backbone visivo a complessità lineare e un meccanismo di recupero contestuale per migliorare la rappresentazione delle caratteristiche e la qualità dei report.

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

Il paper propone Shuffle Mamba, un nuovo framework per la fusione di immagini multi-modale che utilizza una strategia di scansione casuale ispirata al Bayesianismo per eliminare i pregiudizi dei metodi Mamba tradizionali, garantendo un campo ricettivo globale imparziale e risultati superiori rispetto allo stato dell'arte.

Ke Cao, Xuanhua He, Tao Hu + 3 more2026-03-02💻 cs

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Questo lavoro propone il primo metodo per l'oblio delle etichette nel Vertical Federated Learning, utilizzando un meccanismo di mixup a livello di rappresentazione per generare embedding sintetici che consentono la rimozione efficace delle informazioni sensibili senza compromettere le prestazioni sui dati rimanenti.

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

Il paper presenta Stereo-Talker, un sistema innovativo di sintesi video 3D guidato dall'audio che genera video parlanti fotorealistici con sincronizzazione labiale precisa e gesti espressivi, sfruttando un approccio a due stadi che integra prioristiche di modelli linguistici su larga scala e un meccanismo Mixture-of-Experts guidato da prior per garantire coerenza temporale e controllo continuo del punto di vista.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

Il paper propone SDPO, un nuovo framework di apprendimento per rinforzo che allinea i modelli di diffusione a pochi passi agli obiettivi specifici tramite un campionamento a doppio stato e un'apprendimento della differenza di ricompensa densa, superando così le limitazioni dei metodi RL esistenti in termini di qualità del campione e stabilità dell'ottimizzazione.

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

Il paper presenta TREND, un metodo di apprendimento non supervisionato per la rappresentazione 3D nel LiDAR che sfrutta il forecasting temporale e il rendering differenziabile per migliorare significativamente le prestazioni nei compiti di rilevamento degli oggetti rispetto alle tecniche esistenti.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

Il paper presenta CLAP, un metodo di pre-addestramento non supervisionato che combina campionamento basato sulla curvatura e apprendimento di prototipi per unire efficacemente immagini e nuvole di punti in uno spazio di caratteristiche comune, ottenendo significativi miglioramenti nelle prestazioni della percezione 3D rispetto agli stati dell'arte.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

Il paper introduce GenVidBench, il più grande dataset al mondo per la rilevazione di video generati dall'IA, composto da 6,78 milioni di clip provenienti da 11 generatori all'avanguardia e progettato per superare le limitazioni attuali nello sviluppo di modelli di rilevamento generalizzati ed efficaci.

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

Questo paper propone un metodo all'avanguardia per la costanza del colore multi-illuminante che, superando i limiti degli approcci esistenti, stima e fonde adattivamente mappe di illuminazione multi-grana derivate da immagini a diverse scale tramite una rete convoluzionale a tre rami e un modulo di fusione attentivo.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

← Precedente Successivo →