cs articoli | Gist.Science

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Questo articolo presenta un innovativo sistema di navigazione "Visual Teach-and-Repeat" basato su una camera a eventi che, sfruttando la correlazione incrociata nel dominio di Fourier e la compressione delle immagini, raggiunge una latenza di elaborazione estremamente bassa (2,88 ms) e permette una navigazione autonoma precisa e robusta in diverse condizioni di illuminazione su percorsi di oltre 3000 metri.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Questo studio dimostra che i moderni modelli video-LLM traggono significativi benefici dall'integrazione di encoder audio per compiti che richiedono comprensione del parlato, rivelando al contempo come le attuali benchmark visive sottostimino l'importanza dell'audio a causa della loro dipendenza da indizi puramente visivi.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Il paper propone FINS, un framework leggero che ricostruisce efficientemente in pochi secondi superfici implicite e campi SDF ad alta fedeltà partendo da una singola immagine, superando i metodi esistenti in velocità e precisione e dimostrando la propria efficacia in compiti di robotica come il seguire superfici.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Il paper presenta RetoVLA, un'architettura che riutilizza i token di registro per migliorare il ragionamento spaziale nei modelli Vision-Language-Action senza aumentare il numero di parametri, ottenendo un significativo incremento del successo nelle attività robotiche reali.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Il paper propone QuantVGGT, il primo framework di quantizzazione post-allenamento per i transformer VGGT su larga scala, che supera le sfide specifiche legate alle distribuzioni di attivazione e alla selezione dei campioni di calibrazione attraverso tecniche innovative di quantizzazione e campionamento, ottenendo riduzioni significative della memoria e accelerazioni nell'inferenza hardware mantenendo un'alta accuratezza nella ricostruzione 3D.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Questo lavoro presenta un framework autonomo per l'attracco di UAV e robot quadrupedi in ambienti complessi privi di GPS, che combina un modello ibrido appreso tramite reinforcement learning per stabilizzare il torso del quadrupede e una strategia di controllo UAV a tre fasi con vincoli di sicurezza, permettendo con successo l'atterraggio su scale e pendii accidentati.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Il paper introduce MATR, un Transformer consapevole del movimento che risolve i conflitti tra query di rilevamento e tracciamento nei framework MOT basati su DETR, ottenendo risultati all'avanguardia su diversi dataset attraverso la previsione esplicita dei movimenti degli oggetti.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Il paper propone GS-2M, un framework di ottimizzazione consapevole del materiale che, sfruttando la 3D Gaussian Splatting e una nuova strategia di supervisione della ruvidità basata sulla variazione fotometrica multi-vista, ricostruisce mesh ad alta fedeltà con superfici riflettenti senza ricorrere a componenti neurali complessi.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Questo articolo presenta un quadro teorico basato sulla persuasione bayesiana per valutare e addestrare i grandi modelli linguistici come persuasori strategici, dimostrando che sia i modelli all'avanguardia che quelli più piccoli possono raggiungere guadagni persuasivi significativi attraverso l'apprendimento per rinforzo.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

Il paper propone SAC-Loco, un quadro di locomozione per robot quadrupedi che integra un controllo di compliance regolabile e un meccanismo di recupero sicuro, coordinati da un critico di sicurezza appreso, per garantire stabilità e adattamento a disturbi esterni senza necessità di sensori di forza espliciti.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Il paper presenta FAMDA, un framework di adattamento di dominio non supervisionato che sfrutta i modelli fondazionali visivi come insegnanti in un paradigma di auto-addestramento per generare etichette pseudo di alta qualità, permettendo così di addestrare reti studente efficienti e compatte che raggiungono prestazioni all'avanguardia nella previsione densa multi-task per applicazioni robotiche.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Il paper presenta QuantSparse, un framework unificato che combina quantizzazione del modello e sparsificazione dell'attenzione tramite distillazione multi-scala e riparametrizzazione di ordine superiore, ottenendo su HunyuanVideo-13B una significativa riduzione dello storage e un'accelerazione dell'inferenza senza compromettere la qualità della generazione video.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Il paper presenta DualFlow, un framework unificato ed efficiente basato su Rectified Flow che genera motion 3D realistici e sincronizzati per due persone, condizionati da testo, musica o sequenze di movimento precedenti, migliorando significativamente la coerenza semantica e la coordinazione temporale rispetto agli stati dell'arte.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

Il paper propone ELHPlan, un nuovo framework per la pianificazione collaborativa multi-agente basato su "Action Chains" che bilancia adattabilità ed efficienza, ottenendo tassi di successo comparabili agli stati dell'arte con un consumo di token ridotto del 60-70%.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Il paper presenta PHASE-Net, un modello di rete neurale leggero e teoricamente fondato sulle equazioni di Navier-Stokes che integra attenzione armonica spaziale e dinamica temporale per migliorare l'accuratezza e la robustezza della misurazione della fotopletismografia remota (rPPG) in condizioni di movimento e variazioni di illuminazione.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Il paper presenta LMOD+, un ampio dataset e benchmark multimodale per l'oftalmologia che espande significativamente le risorse precedenti per valutare le prestazioni dei modelli linguistici multimodali su diagnosi, stadiazione e rilevamento di bias, fornendo al contempo una valutazione sistematica di 24 modelli all'avanguardia.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Il paper propone un approccio categorico unificante basato sulla dualità per semplificare drasticamente le dimostrazioni delle presentazioni come monadi di codensità di importanti monadi in logica e semantica, derivando al contempo nuove presentazioni non banali per monadi dei filtri, di Vietoris e di aspettazione.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Questo lavoro propone un sistema di localizzazione relativa multi-robot UGV-UAV che combina dati UWB e radar con sensori inerziali ed encoder in un framework di ottimizzazione a grafo, superando i metodi esistenti in robustezza e offrendo codice e dataset open-source per la riproducibilità e il benchmarking.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

Questo paper introduce XPPG-PCA, un metodo automatico, non supervisionato e privo di riferimento per la valutazione oggettiva della gravità dei disturbi del linguaggio che, superando i limiti delle tecniche esistenti, offre una soluzione robusta e generalizzabile per l'uso clinico.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Il documento propone una nuova funzione di barriera di controllo parabolica dinamica (DPCBF) che, adattando i vincoli di sicurezza in base alla distanza e alla velocità relativa, supera i limiti di fattibilità dei metodi tradizionali basati sui coni di collisione, permettendo a robot non olonomi di navigare con successo in ambienti dinamici densamente affollati.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

← Precedente Successivo →