cs papers | Gist.Science

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Deze paper introduceert een unificerend, semantisch onderbouwd raamwerk voor medische beeldsegmentatie dat, door het leren van een domein-agnostische probabilistische variëteit van anatomische regelmatigheden, zowel bron-gebaseerde als bron-vrije domeinadaptatie mogelijk maakt zonder expliciete kruis-domeinafstemming en zo state-of-the-art resultaten bereikt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Het paper introduceert Video-EM, een trainingsvrij, gebeurtenisgericht raamwerk dat lange video's omzet in een compacte, tijdsgebonden episodische geheugenreeks door middel van een zelfreflecterende LLM-agent, waardoor bestaande Video-LLMs effectiever langdurige videovragen kunnen beantwoorden zonder extra training.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Dit paper introduceert UniUGG, het eerste geïntegreerde raamwerk dat een LLM en een latente diffusiemodel combineert om zowel 3D-generatie als ruimtelijk visueel vraag-antwoord (VQA) mogelijk te maken door middel van een geometrisch-semantische leerstrategie.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

Het paper introduceert UniCast, een parameter-efficiënt multimodaal framework dat bestaande tijdreeksfoundationmodellen uitbreidt met instance-geconditioneerde prompting en dynamische modale routing om de voorspellingsnauwkeurigheid te verbeteren door contextuele aanpassing op instanceniveau.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

Dit paper introduceert PhysGM, een voorspellend framework dat op basis van één afbeelding direct zowel 3D-Gaussische representaties als fysische eigenschappen voorspelt, waardoor realistische 4D-simulaties in slechts één minuut mogelijk zijn zonder tijdrovende optimalisatie.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Dit paper introduceert een efficiënt diffusion-gebaseerd raamwerk voor 3D-houdingsbepaling dat gebruikmaakt van een hiërarchische tijdelijke pruning-strategie om de rekentijd aanzienlijk te verminderen en de inferentiesnelheid te verhogen, terwijl het tegelijkertijd state-of-the-art prestaties behaalt.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice introduceert een nieuwe slice-gebaseerde representatie en een Slice Interaction Network om 3D-objectdetectie uit puntwolken te versnellen en de parameter-efficiëntie te verbeteren, terwijl de nauwkeurigheid op grote datasets zoals Waymo, nuScenes en Argoverse 2 behouden blijft.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

AmphiKey is een hybride post-kwantum en klassiek beveiligingsprotocol voor slimme netwerken dat twee modi biedt: een geverifieerde modus met sterke authenticiteit en een onontkenbare modus voor privacy, waarbij de prestaties op zowel krachtige servers als beperkte apparaten zoals de Raspberry Pi zijn geoptimaliseerd.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Dit paper introduceert MDM-MixMFL, een nieuw federatief leerframework voor MRI-segmentatie dat modale ontkoppeling en een memorisatiemechanisme gebruikt om de uitdagingen van heterogene en onvolledige multimodale data in gedistribueerde medische scenario's aan te pakken.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Deze paper introduceert UltraUPConvNet, een computerefficiënt multi-task framework dat gebaseerd is op UPerNet en ConvNeXt en tegelijkertijd weefselsegmentatie en ziektevoorspelling in ultrasone beelden uitvoert met state-of-the-art prestaties.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Traffic-MLLM is een nieuw raamwerk voor verkeersredenering dat in plaats van expliciete casusretrieval een gestructureerde casusruimte leert door middel van curieuze, op RND gebaseerde regularisatie, wat leidt tot verbeterde prestaties in dynamische en zeldzame verkeerssituaties.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

Dit paper introduceert ActivePose, een actief systeem dat Vision-Language Models en 'robotische imaginatie' combineert om 6D-objectposities en -tracking te verbeteren door real-time ambiguïteiten op te lossen via Next-Best-View-cameraacties en een diffusiemodel voor zichtbehoud.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Bio-inspired tail oscillation enables robot fast crawling on deformable granular terrains

Deze studie toont aan dat een door modderkippen geïnspireerde robot met een actief oscillerende staart de voortbeweging op vervormbare granulaire ondergronden aanzienlijk verbetert door de bodem te verfluidiseren en de weerstand te verminderen.

Shipeng Liu, Meghana Sagare, Shubham Patil, Feifei Qian2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Dit artikel introduceert SAGA, een nieuwe methode voor lineaire attention die door middel van selectieve adaptieve gating de prestaties en efficiëntie van Transformer-modellen bij hoge resoluties verbetert door de beperkingen van uniforme compressie te overwinnen.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Deze paper introduceert de Cumulative Consensus Score (CCS), een labelvrije en modelonafhankelijke methode die testtijd-data-augmentatie en ruimtelijke consistentie van voorspellingen gebruikt om de betrouwbaarheid van objectdetectiemodellen in de praktijk continu te evalueren zonder grondwaarheid-annotaties.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Dit paper introduceert WHU-STree, een uitgebreid, multi-modaal dataset voor straatbomen die synchroniseerde puntwolken en afbeeldingen bevat van twee steden, en die dient als benchmark voor diverse taken zoals boomsoortclassificatie en individuele boomsegmentatie om de efficiëntie van stedelijke boominventarisatie te verbeteren.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Deze paper introduceert een asynchroon versterkingsleerframework met een tijdelijke coderingsmodule dat de perceptie en besturing van autonome vliegende voertuigen ontkoppelt, waardoor robuuste navigatie met een hoge frequentie mogelijk is ondanks vertragingen in sensorupdates, wat succesvol is geverifieerd in simulaties en een echte vluchttest.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

GeoAware-VLA is een effectieve aanpak die de generalisatie van Vision-Language-Action-modellen naar onbekende cameraviewpoints verbetert door het integreren van ingebouwde geometrische priors via een bevroren visueel model, wat leidt tot aanzienlijke successverbeteringen in zowel simulatie als de fysieke wereld.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

In deze studie wordt de Object-Adaptive Impact Point Predictor (OIPP) voorgesteld, een systeem dat met behulp van een nieuw, divers dataset en een object-geadaptieve encoder de landingspositie van uiteenlopende vliegende objecten nauwkeurig voorspelt om een viervoetige robot in staat te stellen deze te vangen.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Dit paper introduceert LibriTTS-VI, het eerste publieke corpus voor numerieke stemindrukcontrole, en stelt nieuwe methoden voor om het probleem van 'impression leakage' op te lossen door het ontkoppelen van sprekeridentiteit en stemindruk, wat leidt tot een aanzienlijke verbetering in de controleerbaarheid van de gegenereerde spraak.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

← Vorige Volgende →