cs papers | Gist.Science

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Deze paper introduceert de Cumulative Consensus Score (CCS), een labelvrije en modelonafhankelijke methode die testtijd-data-augmentatie en ruimtelijke consistentie van voorspellingen gebruikt om de betrouwbaarheid van objectdetectiemodellen in de praktijk continu te evalueren zonder grondwaarheid-annotaties.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Dit paper introduceert WHU-STree, een uitgebreid, multi-modaal dataset voor straatbomen die synchroniseerde puntwolken en afbeeldingen bevat van twee steden, en die dient als benchmark voor diverse taken zoals boomsoortclassificatie en individuele boomsegmentatie om de efficiëntie van stedelijke boominventarisatie te verbeteren.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Deze paper introduceert een asynchroon versterkingsleerframework met een tijdelijke coderingsmodule dat de perceptie en besturing van autonome vliegende voertuigen ontkoppelt, waardoor robuuste navigatie met een hoge frequentie mogelijk is ondanks vertragingen in sensorupdates, wat succesvol is geverifieerd in simulaties en een echte vluchttest.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

GeoAware-VLA is een effectieve aanpak die de generalisatie van Vision-Language-Action-modellen naar onbekende cameraviewpoints verbetert door het integreren van ingebouwde geometrische priors via een bevroren visueel model, wat leidt tot aanzienlijke successverbeteringen in zowel simulatie als de fysieke wereld.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

In deze studie wordt de Object-Adaptive Impact Point Predictor (OIPP) voorgesteld, een systeem dat met behulp van een nieuw, divers dataset en een object-geadaptieve encoder de landingspositie van uiteenlopende vliegende objecten nauwkeurig voorspelt om een viervoetige robot in staat te stellen deze te vangen.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Dit paper introduceert LibriTTS-VI, het eerste publieke corpus voor numerieke stemindrukcontrole, en stelt nieuwe methoden voor om het probleem van 'impression leakage' op te lossen door het ontkoppelen van sprekeridentiteit en stemindruk, wat leidt tot een aanzienlijke verbetering in de controleerbaarheid van de gegenereerde spraak.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

Dit artikel introduceert een robuust raamwerk voor compositional generalisatie in algemene robots dat scene graphs combineert met diffusie-imitatieleren en een vision-language model om complexe, langdurige taken succesvoller uit te voeren dan bestaande methoden.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

Dit paper introduceert DroFiT, een lichtgewicht single-microfoon netwerk dat een frequentie-georiënteerde Transformer combineert met een hybride encoder-decoder en TCN om spraakversterking in real-time mogelijk te maken op hulpbronbeperkte UAV-platforms, zelfs bij ernstige drone-ruis.

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Deze paper presenteert een snelle, op gebeurtenissen gebaseerde visuele teach-and-repeat-navigatiesysteem dat via kruiscorrelatie in het Frequentiedomein een verwerkingslatentie van slechts 2,88 ms bereikt en autonoom navigatie over meer dan 3 kilometer in diverse omstandigheden mogelijk maakt met een afwijking van minder dan 15 cm.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Deze studie toont aan dat bestaande videobenchmarks audio vaak negeren, maar dat het integreren van spraakencoders in moderne Video-LLMs wel degelijk leidt tot significante verbeteringen bij taken die luisteren vereisen.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Dit paper introduceert FINS, een lichtgewicht framework dat met behulp van een enkele afbeelding en vooraf getrainde fundamentele modellen binnen enkele seconden hoogwaardige impliciete oppervlakken en SDF-velden reconstrueert voor robottoepassingen zoals bewegingsgeneratie.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Dit paper introduceert RetoVLA, een efficiënt Vision-Language-Action-model dat bestaande register-tokens hergebruikt om de ruimtelijke redeneercapaciteit te verbeteren zonder de parametergrootte te vergroten, wat resulteert in een aanzienlijke stijging van het succespercentage bij robotmanipulatie.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Dit paper introduceert QuantVGGT, het eerste kwantisatiekader voor Visual Geometry Grounded Transformers (VGGTs) dat middels Dubbel-Gegladde Fijne-Korrelige Kwantisatie en Ruis-gefilterde Divers Steekproeven de hoge reken- en geheugenkosten van deze modellen aanzienlijk verlaagt zonder in te leveren op reconstructieprecisie.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Deze paper presenteert een autonoom raamwerk voor het koppelen van drones met vierpotige robots in complexe, GPS-loze omgevingen, waarbij een door deep reinforcement learning aangedreven houdingsstabilisatie van de robot en een drietrapsbesturingsstrategie met beperkingsbewuste regeling worden gebruikt om veilig te landen op ongelijk terrein zoals trappen en steile hellingen.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Deze paper introduceert MATR, een Motion-Aware Transformer die de associatie- en detectieprestaties van multi-object tracking in complexe scènes aanzienlijk verbetert door objectbewegingen expliciet te voorspellen en query-conflicten te verminderen, wat resulteert in state-of-the-art resultaten op diverse benchmarks.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

GS-2M is een materiaalbewust optimalisatiekader dat 3D Gaussian Splatting gebruikt om vanuit multi-view beelden hoogwaardige, reflecterende oppervlakken om te zetten in nauwkeurige 3D-meshes door gezamenlijke optimalisatie van geometrie en materiaal, zonder afhankelijk te zijn van zware neurale componenten.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Deze paper introduceert een op Bayesiaanse overtuigingsleer gebaseerd raamwerk om de strategische overtuigingskracht van taalmodellen te evalueren en te trainen, waarbij blijkt dat zowel geavanceerde als kleinere modellen door versterkingslering aanzienlijke verbeteringen in overtuigingsresultaten kunnen boeken.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

In dit paper wordt een veiligheidsbewust raamwerk voor veerkrachtig lopen van viervoeters gepresenteerd dat, via een leerproces met een leraar-leerling-structuur en een veiligheidscriticus, aanpasbare compliantie en robuuste stabiliteit garandeert bij externe krachten zonder expliciete krachtsensoren.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Dit paper introduceert FAMDA, een effectief zelftrainingskader dat Vision Foundation Models gebruikt als leraren om robuuste en efficiënte multi-task dense prediction-modellen te creëren die de prestaties van bestaande methoden voor domeinadaptatie in robotica significant verbeteren.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Het paper introduceert QuantSparse, een geïntegreerd framework dat modelquantisatie en attentiesparsificatie combineert via innovatieve technieken zoals Multi-Scale Salient Attention Distillation en Second-Order Sparse Attention Reparameterization om de rekenefficiëntie van video-diffusietransformators aanzienlijk te verbeteren zonder in te leveren op de kwaliteit.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

← Vorige Volgende →