cs papers | Gist.Science

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Dit paper introduceert FINS, een lichtgewicht framework dat met behulp van een enkele afbeelding en vooraf getrainde fundamentele modellen binnen enkele seconden hoogwaardige impliciete oppervlakken en SDF-velden reconstrueert voor robottoepassingen zoals bewegingsgeneratie.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Dit paper introduceert RetoVLA, een efficiënt Vision-Language-Action-model dat bestaande register-tokens hergebruikt om de ruimtelijke redeneercapaciteit te verbeteren zonder de parametergrootte te vergroten, wat resulteert in een aanzienlijke stijging van het succespercentage bij robotmanipulatie.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Dit paper introduceert QuantVGGT, het eerste kwantisatiekader voor Visual Geometry Grounded Transformers (VGGTs) dat middels Dubbel-Gegladde Fijne-Korrelige Kwantisatie en Ruis-gefilterde Divers Steekproeven de hoge reken- en geheugenkosten van deze modellen aanzienlijk verlaagt zonder in te leveren op reconstructieprecisie.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Deze paper presenteert een autonoom raamwerk voor het koppelen van drones met vierpotige robots in complexe, GPS-loze omgevingen, waarbij een door deep reinforcement learning aangedreven houdingsstabilisatie van de robot en een drietrapsbesturingsstrategie met beperkingsbewuste regeling worden gebruikt om veilig te landen op ongelijk terrein zoals trappen en steile hellingen.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Deze paper introduceert MATR, een Motion-Aware Transformer die de associatie- en detectieprestaties van multi-object tracking in complexe scènes aanzienlijk verbetert door objectbewegingen expliciet te voorspellen en query-conflicten te verminderen, wat resulteert in state-of-the-art resultaten op diverse benchmarks.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

GS-2M is een materiaalbewust optimalisatiekader dat 3D Gaussian Splatting gebruikt om vanuit multi-view beelden hoogwaardige, reflecterende oppervlakken om te zetten in nauwkeurige 3D-meshes door gezamenlijke optimalisatie van geometrie en materiaal, zonder afhankelijk te zijn van zware neurale componenten.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Deze paper introduceert een op Bayesiaanse overtuigingsleer gebaseerd raamwerk om de strategische overtuigingskracht van taalmodellen te evalueren en te trainen, waarbij blijkt dat zowel geavanceerde als kleinere modellen door versterkingslering aanzienlijke verbeteringen in overtuigingsresultaten kunnen boeken.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

In dit paper wordt een veiligheidsbewust raamwerk voor veerkrachtig lopen van viervoeters gepresenteerd dat, via een leerproces met een leraar-leerling-structuur en een veiligheidscriticus, aanpasbare compliantie en robuuste stabiliteit garandeert bij externe krachten zonder expliciete krachtsensoren.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Dit paper introduceert FAMDA, een effectief zelftrainingskader dat Vision Foundation Models gebruikt als leraren om robuuste en efficiënte multi-task dense prediction-modellen te creëren die de prestaties van bestaande methoden voor domeinadaptatie in robotica significant verbeteren.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Het paper introduceert QuantSparse, een geïntegreerd framework dat modelquantisatie en attentiesparsificatie combineert via innovatieve technieken zoals Multi-Scale Salient Attention Distillation en Second-Order Sparse Attention Reparameterization om de rekenefficiëntie van video-diffusietransformators aanzienlijk te verbeteren zonder in te leveren op de kwaliteit.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Dit paper introduceert DualFlow, het eerste geünificeerde framework dat rectified flow en retrieval-augmented generation combineert om realistische, semantisch onderbouwde en ritmisch gesynchroniseerde interactieve bewegingen voor twee personen te genereren op basis van diverse modaliteiten zoals tekst, muziek en eerdere bewegingen.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

Dit paper introduceert ELHPlan, een nieuw framework voor efficiënte langetermijntaakplanning in multi-agent systemen dat door middel van intentie-gebonden actieketens een evenwicht vindt tussen aanpassingsvermogen en rekenefficiëntie, wat resulteert in vergelijkbare succespercentages met slechts 30-40% van de tokens van bestaande methoden.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Dit artikel introduceert PHASE-Net, een lichtgewicht en theoretisch onderbouwde deep learning-architectuur die, gebaseerd op de Navier-Stokes-vergelijkingen, robuuste en efficiënte niet-contact fysiologische monitoring mogelijk maakt door middel van een Axial Swapper, een Adaptieve Ruimtelijke Filter en een Gated TCN.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Deze paper introduceert LMOD+, een uitgebreide multimodale dataset en benchmark met 32.633 gevallen voor ophthalmologie die is ontwikkeld om multimodale grote taalmodellen te evalueren op taken zoals ziekteopsporing, -stadiëring en demografische voorspelling, met als doel de ontwikkeling van AI-toepassingen ter bestrijding van wereldwijde oogziekten te versnellen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Dit paper introduceert een verenigende categorische aanpak voor codensiteitsmonaden gebaseerd op dualiteit, die niet alleen de bewijzen voor bestaande resultaten aanzienlijk vereenvoudigt, maar ook nieuwe presentaties oplevert voor onder andere filtermonaden en het verwachtingsmonad.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Dit artikel presenteert een robuust systeem voor relatieve lokalisatie tussen een UAV en een UGV dat Ultra-Wideband- en radardata combineert met conventionele sensoren via een factorgraf-optimatieframework, wat resulteert in een nauwkeurigere oplossing dan bestaande methoden en volledig openbaar beschikbaar is voor reproducible onderzoek.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

Dit artikel introduceert XPPG-PCA, een nieuwe, referentievrije en ongesuperviseerde methode voor het objectief evalueren van de ernst van spraakpathologieën die, zoals getest op Nederlandse datasets, robuust presteert zonder afhankelijk te zijn van transcripties of gezonde spraakvoorbeelden.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Dit artikel introduceert een Dynamische Parabool Control Barrier Function (DPCBF) voor niet-holonomische robots die, door de veiligheidsset dynamisch aan te passen aan afstand en relatieve snelheid, de beperkingen en onhaalbaarheid van bestaande botsingskegel-methoden in dichte, dynamische omgevingen effectief oplost.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Dit paper introduceert REVEL, een nieuwe taak voor interactieve videomanipulatie, en presenteert DragStream, een trainingsvrije methode die drift en contextuele storingen in autoregressieve videodiffusiemodellen effectief oplost om vloeiende drag-bewegingen op elk moment mogelijk te maken.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Deze paper presenteert een state-of-the-art spreker-verificationssysteem dat w2v-BERT 2.0 combineert met LoRA-finetuning en kennisdistillatie-gestuurde gestructureerde pruning om de modelgrootte met 80% te verkleinen terwijl de prestaties nauwelijks afnemen.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

← Vorige Volgende →