cs.CV articoli | Gist.Science

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Il paper presenta ARSGaussian, un metodo innovativo per la sintesi di nuove viste in ambito di telerilevamento aereo che integra nuvole di punti LiDAR e modelli di distorsione geometrica nel 3D Gaussian Splatting per risolvere problemi di fluttuazione e sovracrescita, migliorando la precisione geometrica e rilasciando il nuovo dataset AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen Wang2026-03-11💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Il paper introduce CuriousBot, un sistema robotico mobile che supera i limiti delle attuali metodologie basate sulla sola percezione attiva, utilizzando un grafo relazionale di oggetti 3D per abilitare un'esplorazione interattiva efficace e generalizzabile in ambienti complessi.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li2026-03-11🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Il paper presenta gli iMarkers, nuovi marcatori fiduciali invisibili agli umani ma rilevabili da robot e dispositivi AR, che risolvono il problema estetico dei marcatori tradizionali offrendo flessibilità di produzione, algoritmi di rilevamento open-source e robustezza in scenari robotici diversificati.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger Voos2026-03-11💻 cs

LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation

Il paper introduce LayoutDreamer, un framework basato su 3D Gaussian Splatting che genera scene 3D composizionali di alta qualità e fisicamente plausibili partendo da prompt testuali, superando i limiti delle metodologie esistenti grazie a un grafico di scena diretto e a un'ottimizzazione adattiva del layout.

Yang Zhou, Zongjin He, Qixuan Li + 1 more2026-03-11🤖 cs.AI

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Questo lavoro di ricerca offre una panoramica completa e strutturata delle tecniche, dei dataset e delle prospettive future per migliorare la generalizzabilità del rilevamento tramite Wi-Fi, affrontando le sfide legate ai cambiamenti di dominio attraverso un'analisi di oltre 200 pubblicazioni e l'introduzione di una nuova piattaforma per la condivisione dei dati.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Recognition-Synergistic Scene Text Editing

Il paper presenta RS-STE, un nuovo approccio che integra in modo sinergico il riconoscimento e l'editing del testo in scene reali all'interno di un unico framework basato su transformer, ottenendo prestazioni all'avanguardia su dati sintetici e reali grazie a una strategia di addestramento auto-supervisionato ciclico.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei2026-03-11💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Questo articolo presenta un nuovo framework semi-supervisionato per la segmentazione di immagini biomediche che combina modelli di diffusione e co-training teacher-student per generare e raffinare pseudo-etichette, superando le tecniche attuali in scenari con dati annotati limitati.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi2026-03-11💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Il paper introduce BR-Gen, un nuovo dataset su larga scala di immagini manipolate localmente, e NFA-ViT, un modello Transformer che amplifica le tracce di falsificazione per migliorare la rilevazione di alterazioni AI in contesti complessi.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai Sun2026-03-11💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Il paper introduce M4-SAR, un nuovo dataset su larga scala e un benchmark standardizzato per la rilevazione di oggetti tramite fusione ottica-SAR, accompagnati dal framework E2E-OSDet che dimostra come l'integrazione di queste due modalità migliori significativamente l'accuratezza della rilevazione rispetto all'uso di singoli sensori.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei Luo2026-03-11💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

Il paper presenta MARRS, un nuovo framework che utilizza rappresentazioni continue e un'architettura basata su VAE, fusione condizionata e modulazione adattiva per generare sintesi di reazioni umane coordinate e dettagliate, superando i limiti dei metodi autoregressivi con quantizzazione vettoriale.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Questo articolo presenta la prima revisione sistematica sull'integrazione dei modelli fondazionali nell'intelligenza artificiale incarnata per i robot di servizio mobili, analizzando come tali tecnologie affrontino le sfide tecniche e abilitino applicazioni pratiche in ambiti domestici e sanitari, pur sollevando questioni etiche e prospettando direzioni future per un deployment sicuro e affidabile.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Il paper introduce EasyText, un framework basato su Diffusion Transformer che, grazie a nuove tecniche di codifica posizionale e a un vasto dataset multilingue, permette la generazione controllata e precisa di testo in diverse lingue.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Il paper presenta SpikeSMOKE, un'architettura di reti neurali spiking per il rilevamento 3D di oggetti da singola immagine che, grazie a un innovativo meccanismo di codifica a gate multi-scala (CSGC) e a blocchi residui leggeri, migliora significativamente le prestazioni rispetto ai modelli esistenti riducendo al contempo il consumo energetico e la complessità computazionale.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Il paper introduce FieldLVLM, un nuovo framework che migliora la comprensione dei dati di campo scientifici da parte dei Large Vision-Language Models attraverso una strategia di generazione linguistica consapevole del campo e un adattamento multimodale con compressione dei dati, ottenendo risultati superiori su benchmark specifici.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

Il paper propone MGCR-Net, una rete di ricostruzione visione-linguaggio condizionata da grafi multimodali che sfrutta modelli linguistici su larga scala e meccanismi di attenzione su grafi per migliorare l'interazione semantica e le prestazioni nel rilevamento dei cambiamenti nelle immagini satellitari.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Il paper propone SFDA-PFT, un metodo efficiente di adattamento di dominio senza sorgente che utilizza la traduzione personalizzata delle caratteristiche nello spazio latente per migliorare il riconoscimento delle espressioni facciali adattando i modelli pre-addestrati ai dati target neutri senza richiedere dati sorgente o sintesi di immagini.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Il paper introduce EgoCross, un benchmark completo per valutare la capacità di generalizzazione cross-dominio dei Modelli Linguistici Multimodali nella risposta a domande su video in prima persona, coprendo scenari complessi come chirurgia, industria, sport estremi e visione animale e rivelando le attuali limitazioni dei modelli esistenti.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Il paper presenta YOPO, un metodo end-to-end basato su transformer che unifica rilevamento e stima della posa 9D a livello di categoria da singole immagini RGB, ottenendo prestazioni all'avanguardia su tre benchmark senza richiedere dati aggiuntivi come profondità o modelli CAD.

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

Il paper presenta CoRe-GS, un framework di Gaussian Splatting che ottimizza selettivamente solo le regioni di interesse (POI) attraverso un approccio "coarse-to-refined" e un filtraggio basato sul colore, riducendo drasticamente i tempi di calcolo e migliorando la qualità della ricostruzione per applicazioni robotiche in tempo reale.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Il paper presenta VocSegMRI, un framework multimodale che integra segnali video, audio e fonologici tramite fusione cross-attention e apprendimento contrastivo per ottenere una segmentazione precisa e robusta delle strutture articolatorie nella risonanza magnetica in tempo reale, raggiungendo prestazioni state-of-the-art sul dataset USC-75.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs

← Precedente Successivo →