cs articoli | Gist.Science

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Questo lavoro presenta un framework autonomo per l'attracco di UAV e robot quadrupedi in ambienti complessi privi di GPS, che combina un modello ibrido appreso tramite reinforcement learning per stabilizzare il torso del quadrupede e una strategia di controllo UAV a tre fasi con vincoli di sicurezza, permettendo con successo l'atterraggio su scale e pendii accidentati.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Il paper introduce MATR, un Transformer consapevole del movimento che risolve i conflitti tra query di rilevamento e tracciamento nei framework MOT basati su DETR, ottenendo risultati all'avanguardia su diversi dataset attraverso la previsione esplicita dei movimenti degli oggetti.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Il paper propone GS-2M, un framework di ottimizzazione consapevole del materiale che, sfruttando la 3D Gaussian Splatting e una nuova strategia di supervisione della ruvidità basata sulla variazione fotometrica multi-vista, ricostruisce mesh ad alta fedeltà con superfici riflettenti senza ricorrere a componenti neurali complessi.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Questo articolo presenta un quadro teorico basato sulla persuasione bayesiana per valutare e addestrare i grandi modelli linguistici come persuasori strategici, dimostrando che sia i modelli all'avanguardia che quelli più piccoli possono raggiungere guadagni persuasivi significativi attraverso l'apprendimento per rinforzo.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

Il paper propone SAC-Loco, un quadro di locomozione per robot quadrupedi che integra un controllo di compliance regolabile e un meccanismo di recupero sicuro, coordinati da un critico di sicurezza appreso, per garantire stabilità e adattamento a disturbi esterni senza necessità di sensori di forza espliciti.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Il paper presenta FAMDA, un framework di adattamento di dominio non supervisionato che sfrutta i modelli fondazionali visivi come insegnanti in un paradigma di auto-addestramento per generare etichette pseudo di alta qualità, permettendo così di addestrare reti studente efficienti e compatte che raggiungono prestazioni all'avanguardia nella previsione densa multi-task per applicazioni robotiche.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Il paper presenta QuantSparse, un framework unificato che combina quantizzazione del modello e sparsificazione dell'attenzione tramite distillazione multi-scala e riparametrizzazione di ordine superiore, ottenendo su HunyuanVideo-13B una significativa riduzione dello storage e un'accelerazione dell'inferenza senza compromettere la qualità della generazione video.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Il paper presenta DualFlow, un framework unificato ed efficiente basato su Rectified Flow che genera motion 3D realistici e sincronizzati per due persone, condizionati da testo, musica o sequenze di movimento precedenti, migliorando significativamente la coerenza semantica e la coordinazione temporale rispetto agli stati dell'arte.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

Il paper propone ELHPlan, un nuovo framework per la pianificazione collaborativa multi-agente basato su "Action Chains" che bilancia adattabilità ed efficienza, ottenendo tassi di successo comparabili agli stati dell'arte con un consumo di token ridotto del 60-70%.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Il paper presenta PHASE-Net, un modello di rete neurale leggero e teoricamente fondato sulle equazioni di Navier-Stokes che integra attenzione armonica spaziale e dinamica temporale per migliorare l'accuratezza e la robustezza della misurazione della fotopletismografia remota (rPPG) in condizioni di movimento e variazioni di illuminazione.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Il paper presenta LMOD+, un ampio dataset e benchmark multimodale per l'oftalmologia che espande significativamente le risorse precedenti per valutare le prestazioni dei modelli linguistici multimodali su diagnosi, stadiazione e rilevamento di bias, fornendo al contempo una valutazione sistematica di 24 modelli all'avanguardia.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Il paper propone un approccio categorico unificante basato sulla dualità per semplificare drasticamente le dimostrazioni delle presentazioni come monadi di codensità di importanti monadi in logica e semantica, derivando al contempo nuove presentazioni non banali per monadi dei filtri, di Vietoris e di aspettazione.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Questo lavoro propone un sistema di localizzazione relativa multi-robot UGV-UAV che combina dati UWB e radar con sensori inerziali ed encoder in un framework di ottimizzazione a grafo, superando i metodi esistenti in robustezza e offrendo codice e dataset open-source per la riproducibilità e il benchmarking.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

Questo paper introduce XPPG-PCA, un metodo automatico, non supervisionato e privo di riferimento per la valutazione oggettiva della gravità dei disturbi del linguaggio che, superando i limiti delle tecniche esistenti, offre una soluzione robusta e generalizzabile per l'uso clinico.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Il documento propone una nuova funzione di barriera di controllo parabolica dinamica (DPCBF) che, adattando i vincoli di sicurezza in base alla distanza e alla velocità relativa, supera i limiti di fattibilità dei metodi tradizionali basati sui coni di collisione, permettendo a robot non olonomi di navigare con successo in ambienti dinamici densamente affollati.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Il paper propone REVEL, un nuovo compito di manipolazione video interattiva in streaming che permette di modificare qualsiasi elemento in qualsiasi momento, e DragStream, un metodo senza addestramento che risolve i problemi di deriva latente e interferenza contestuale per garantire risultati visivamente coerenti nei modelli di diffusione video autoregressivi.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Questo articolo presenta un sistema di verifica del parlante basato su w2v-BERT 2.0 e LoRA che raggiunge risultati all'avanguardia, integrando successivamente la distillazione della conoscenza con la potatura strutturata per ridurre le dimensioni del modello dell'80% con una minima perdita di prestazioni.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

Il paper introduce PAD-TRO, un nuovo metodo di ottimizzazione diretta delle traiettorie basato su modelli di diffusione che, mediante un meccanismo di proiezione senza gradienti integrato nel processo inverso, garantisce la fattibilità dinamica e supera significativamente le prestazioni degli approcci esistenti nella navigazione di droni in ambienti con ostacoli.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Membership Inference Attacks on Tokenizers of Large Language Models

Questo studio presenta la prima analisi delle fughe di informazioni tramite i tokenizzatori dei modelli linguistici di grandi dimensioni, dimostrando la loro vulnerabilità agli attacchi di inferenza di appartenenza e proponendo una difesa adattiva per mitigare questo rischio di privacy precedentemente trascurato.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

Questo lavoro presenta e convalida un sistema robotico guidato da visione che integra la ricostruzione 3D delle piante e la modellazione fisica delle vibrazioni per eseguire con precisione l'impollinazione automatizzata in ambienti controllati, ottenendo un tasso di successo del 92,5% nell'afferrare i fusti senza danneggiare i fiori.

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

← Precedente Successivo →