cs.CV papers | Gist.Science

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

HelixTrack is een volledig gebeurtenisgestuurde methode die propellerachtige objecten traceert en hun toerental schat met microseconde-latenstie door homografie-gebaseerde terugprojectie en Kalman-filtering, en wordt geëvalueerd op het nieuwe TQE-dataset.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

In dit paper stellen de auteurs BridgeDiff voor, een diffusion-gebaseerd framework dat de kloof tussen menselijke waarnemingen en platte kledingreconstructie overbrugt door middel van een kledingvoorwaarde-module en een platte-structuurbeperking-module om state-of-the-art virtuele pasvormresultaten te bereiken.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

RAE-NWM is een nieuw navigatiemodel dat dynamiek in een dichte visuele representatieruimte modelleert in plaats van in een gecomprimeerde latente ruimte, waardoor de structurele stabiliteit en actie-accuraatheid voor visuele navigatie worden verbeterd.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Dit paper introduceert Geometric Semantic Decoupling (GSD), een parameterloze module die semantische shortcuts in VFM-gebaseerde detectoren elimineert om zo de generalisatievermogen voor het detecteren van AI-genereerde afbeeldingen en video's aanzienlijk te verbeteren.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Deze paper introduceert Poly-DETR, een lichtgewicht transformer-model dat instantiesegmentatie omvormt tot regressie van polygonen via polaire representatie, waardoor het de afhankelijkheid van dichte pixelmaskers elimineert en aanzienlijk betere prestaties en lagere geheugenvraag bereikt dan bestaande methoden, vooral bij hoge resoluties en regelmatige objecten.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Dit onderzoek presenteert een veelzijdige aanpak voor autonoom rijden die gebruikmaakt van diep learning en computer vision voor taken zoals verkeersbord- en voertuigdetectie, rijstrookherkenning en gedragskloon, met als doel de robuustheid en betrouwbaarheid van zelfrijdende systemen te verbeteren.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Dit paper introduceert DiP, een nieuw raamwerk voor multimodaal graafrepresentationeel leren dat dynamische informatiepaden en modality-specifieke pseudo-nodes gebruikt om adaptieve, expressieve en efficiënte berichtoverdracht te realiseren, wat leidt tot superieure prestaties op diverse benchmarks.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Deze paper introduceert een nieuw raamwerk voor visueel-taalnavigatie dat gebruikmaakt van webvideo's en impliciete geometrische representaties om agents te trainen in realistische omgevingen, wat leidt tot state-of-the-art prestaties en robuuste zero-shot navigatie.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

ForgeDreamer is een nieuw raamwerk voor industriële tekst-naar-3D-generatie dat kennisinterferentie en geometrische onnauwkeurigheid oplost door een ensemble van multi-expert LoRA-modellen en een cross-view hypergraaf aan te bieden voor verbeterde semantische generalisatie en fabricage-precisie.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Deze paper introduceert nieuwe trainingsstrategieën en verliesfuncties die de leer-efficiëntie van 3D Gaussian Splatting aanzienlijk verbeteren door de lijsten van Gaussians per pixel te verkorten, zonder in te leveren op de weergavekwaliteit.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Het paper introduceert SVOR, een robuust framework dat door middel van drie kerninnovaties – MUSE, DA-Seg en een curriculum-tweestaps training – videoobjecten effectief verwijdert onder realistische, imperfecte omstandigheden zoals schaduwen en maskers met defecten, waardoor het de state-of-the-art prestaties verbetert.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Dit artikel introduceert een nieuwe, feed-forward methode voor open-wereld convexe decompositie van 3D-vormen door het leren van continue feature-velden die via een zelftoezichtende, puur geometrische doelstelling worden geclusterd tot hoogwaardige convexe lichamen.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender is een nieuw raamwerk dat de cognitieve eigenschappen van gegenereerde afbeeldingen, zoals emotionele reactie en onthoudbaarheid, continu en multidimensionaal beïnvloedt door de verbinding tussen cognitieve ruimte en semantische manifold te benutten tijdens het text-naar-image generatieproces.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Het paper introduceert MDTrack, een nieuw multimodaal objectvolgsysteem dat modale verschillen adresseert door modale fusion via een Mixture of Experts en ontkoppelde temporele propagatie met State Space Models, wat leidt tot state-of-the-art prestaties op vijf benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

DenoiseSplat is een feed-forward methode voor 3D Gaussian Splatting die robuuste 3D-scèneherconstructie mogelijk maakt uit ruisige multi-view beelden door te trainen op een groot schaalbaar benchmark met synthetische ruis, zonder gebruik te maken van 3D-ground truth.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Dit paper introduceert See, Plan, Rewind (SPR), een vooruitgangsgevoelig vision-language-action-framework dat robuuste robotmanipulatie bereikt door taken te onderbreken in verifieerbare mijlpalen en automatisch terug te keren naar een herstelpunt bij fouten, wat resulteert in state-of-the-art prestaties en generalisatie op uitdagende benchmarks.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

IntroSVG is een nieuw kader dat de kwaliteit van tekst-naar-SVG-generatie verbetert door een introspectieve generator-critic-structuur te gebruiken die visuele feedback van het gerenderde resultaat integreert via een iteratief 'genereren-beoordelen-verfijnen'-proces.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Het artikel introduceert CLoE, een consistentiegedreven raamwerk dat de segmentatieprestaties bij ontbrekende medische beeldmodaliteiten verbetert door experts op besluit- en regienniveau tot overeenstemming te brengen en modale betrouwbaarheid dynamisch te wegen.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

NLiPsCalib is een efficiënt kalibratiekader dat gebruikmaakt van Near-Light Photometric Stereo en controllable lichtbronnen om de 3D-reconstructie van gebogen visuo-tactiele sensoren te verbeteren zonder dure of arbeidsintensieve procedures.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Deze paper introduceert SpaceSense-Bench, een groot-schalig meer-modale benchmark met 136 satellietmodellen en nauwkeurige ground-truth annotaties gegenereerd in Unreal Engine 5, die dient om spacecraft-perceptie en pose-schatting te evalueren en aantoont dat het vergroten van de trainingsdiversiteit cruciaal is voor het verbeteren van prestaties op nieuwe doelen.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

← Vorige Volgende →