cs.CV papers | Gist.Science

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Het artikel introduceert Progressive Split-Mamba (PS-Mamba), een hiërarchisch framework dat de beperkingen van bestaande State Space Modellen voor beeldherstel overwint door topologie-bewuste partitie en kruis-schaal shortcuts te combineren voor zowel lokale structuurbehoud als efficiënte globale coherentie.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Dit paper introduceert SAGE, het eerste end-to-end multi-modale groot taalmodel dat ruwe puntwolken direct verwerkt door ze als discrete tokens te behandelen, waardoor het afhankelijkheid van vooraf getrainde 3D-encoders elimineert en superieure prestaties levert in termen van rekenefficiëntie, generalisatie en robuustheid.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Dit paper introduceert MM-Zero, het eerste RL-gebaseerde framework dat Vision Language Models zonder enige trainingsdata zelf kan laten evolueren door middel van een unieke drie-rollen architectuur (voorsteller, coder en solver) die samenwerken om visuele concepten te genereren en redeneervermogen te verbeteren.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Dit artikel introduceert een geometrie-bewust metrisch leerframework dat gebruikmaakt van rotatie- en schaal-invariante hoekdescriptoren van statische handkeypoints om de prestaties van cross-linguale few-shot herkenning van gebarentaal aanzienlijk te verbeteren, zelfs in scenario's met beperkte data.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Dit paper introduceert TubeMLLM, een fundamenteel model dat multimodale grote taalmodellen combineert met topologische priors en een nieuw benchmark (TubeMData) om de topologische consistentie en zero-shot generalisatie bij de modellering van vaatachtige anatomie aanzienlijk te verbeteren.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Dit artikel introduceert een nieuwe verliesfunctie voor een gedistribueerd convolutioneel neuronaal netwerk (DisCNN) dat zich specifiek richt op het extraheren van kenmerken van één positieve klasse door negatieve monsters naar de oorsprong te projecteren, wat resulteert in een lichtgewicht model met uitstekende generalisatie voor objectdetectie in complexe achtergronden.

Liang Sun2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Dit paper introduceert UniField, een unificerend framework voor MRI-versterking dat gebruikmaakt van voorgeöefende 3D-foundationmodellen en een veldbewust spectrale correctiemechanisme om de generalisatie over verschillende veldsterktes te verbeteren, ondersteund door een nieuw, grootschalig dataset.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

HelixTrack is een volledig gebeurtenisgestuurde methode die propellerachtige objecten traceert en hun toerental schat met microseconde-latenstie door homografie-gebaseerde terugprojectie en Kalman-filtering, en wordt geëvalueerd op het nieuwe TQE-dataset.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

In dit paper stellen de auteurs BridgeDiff voor, een diffusion-gebaseerd framework dat de kloof tussen menselijke waarnemingen en platte kledingreconstructie overbrugt door middel van een kledingvoorwaarde-module en een platte-structuurbeperking-module om state-of-the-art virtuele pasvormresultaten te bereiken.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

RAE-NWM is een nieuw navigatiemodel dat dynamiek in een dichte visuele representatieruimte modelleert in plaats van in een gecomprimeerde latente ruimte, waardoor de structurele stabiliteit en actie-accuraatheid voor visuele navigatie worden verbeterd.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Dit paper introduceert Geometric Semantic Decoupling (GSD), een parameterloze module die semantische shortcuts in VFM-gebaseerde detectoren elimineert om zo de generalisatievermogen voor het detecteren van AI-genereerde afbeeldingen en video's aanzienlijk te verbeteren.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Deze paper introduceert Poly-DETR, een lichtgewicht transformer-model dat instantiesegmentatie omvormt tot regressie van polygonen via polaire representatie, waardoor het de afhankelijkheid van dichte pixelmaskers elimineert en aanzienlijk betere prestaties en lagere geheugenvraag bereikt dan bestaande methoden, vooral bij hoge resoluties en regelmatige objecten.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Dit onderzoek presenteert een veelzijdige aanpak voor autonoom rijden die gebruikmaakt van diep learning en computer vision voor taken zoals verkeersbord- en voertuigdetectie, rijstrookherkenning en gedragskloon, met als doel de robuustheid en betrouwbaarheid van zelfrijdende systemen te verbeteren.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Dit paper introduceert DiP, een nieuw raamwerk voor multimodaal graafrepresentationeel leren dat dynamische informatiepaden en modality-specifieke pseudo-nodes gebruikt om adaptieve, expressieve en efficiënte berichtoverdracht te realiseren, wat leidt tot superieure prestaties op diverse benchmarks.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Deze paper introduceert een nieuw raamwerk voor visueel-taalnavigatie dat gebruikmaakt van webvideo's en impliciete geometrische representaties om agents te trainen in realistische omgevingen, wat leidt tot state-of-the-art prestaties en robuuste zero-shot navigatie.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

ForgeDreamer is een nieuw raamwerk voor industriële tekst-naar-3D-generatie dat kennisinterferentie en geometrische onnauwkeurigheid oplost door een ensemble van multi-expert LoRA-modellen en een cross-view hypergraaf aan te bieden voor verbeterde semantische generalisatie en fabricage-precisie.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Deze paper introduceert nieuwe trainingsstrategieën en verliesfuncties die de leer-efficiëntie van 3D Gaussian Splatting aanzienlijk verbeteren door de lijsten van Gaussians per pixel te verkorten, zonder in te leveren op de weergavekwaliteit.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Het paper introduceert SVOR, een robuust framework dat door middel van drie kerninnovaties – MUSE, DA-Seg en een curriculum-tweestaps training – videoobjecten effectief verwijdert onder realistische, imperfecte omstandigheden zoals schaduwen en maskers met defecten, waardoor het de state-of-the-art prestaties verbetert.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Dit artikel introduceert een nieuwe, feed-forward methode voor open-wereld convexe decompositie van 3D-vormen door het leren van continue feature-velden die via een zelftoezichtende, puur geometrische doelstelling worden geclusterd tot hoogwaardige convexe lichamen.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender is een nieuw raamwerk dat de cognitieve eigenschappen van gegenereerde afbeeldingen, zoals emotionele reactie en onthoudbaarheid, continu en multidimensionaal beïnvloedt door de verbinding tussen cognitieve ruimte en semantische manifold te benutten tijdens het text-naar-image generatieproces.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

← Vorige Volgende →