cs.CV Arbeiten | Gist.Science

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Die Arbeit stellt SAGE vor, das erste End-to-End-Modell für mehrmodiale große Sprachmodelle, das rohe Punktwolken direkt ohne vortrainierte 3D-Encoder verarbeitet, indem es diese durch einen leichten Tokenizer als „Fremdsprache" in den Wortschatz des LLM integriert und durch eine semantisch ausgerichtete Präferenzoptimierung überlegene Leistung bei 3D-Fragestellungen und Recheneffizienz erzielt.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Die Arbeit stellt MM-Zero vor, ein RL-basiertes Framework, das erstmals die datenlose Selbstentwicklung von Vision-Language-Modellen durch ein dreiteiliges Rollenkonzept (Proposer, Coder, Solver) ermöglicht, das abstrakte visuelle Konzepte generiert, in ausführbaren Code übersetzt und multimodale Schlussfolgerungen trifft.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Die vorgestellte Arbeit entwickelt einen geometrie-bewussten metrischen Lernansatz, der auf inter-joint Winkeln basiert, um die Herausforderungen der domänenbedingten Verschiebung bei der few-shot Erkennung von Gebärdensprachen über verschiedene Sprachen hinweg zu überwinden und dabei eine deutlich höhere Genauigkeit als herkömmliche Koordinaten-basierte Methoden zu erzielen.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Das Paper stellt TubeMLLM vor, ein multimodales Fundamentmodell, das durch die Integration topologischer Vorwissen in eine gemeinsame Aufmerksamkeitsarchitektur und die Nutzung eines neuen Benchmarks (TubeMData) die topologische Konsistenz bei der Modellierung von Gefäßstrukturen in der medizinischen Bildgebung deutlich verbessert und dabei herausragende Zero-Shot-Leistung sowie Robustheit gegenüber Domänenverschiebungen und Bildstörungen aufweist.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Diese Arbeit stellt eine neuartige Verlustfunktion für ein verteiltes Convolutional Neural Network (DisCNN) vor, das durch die Abbildung positiver Proben auf einen kompakten Raum und negativer Proben auf den Ursprung spezifische Merkmale extrahiert, wodurch eine leichte Architektur mit hervorragender Generalisierungsfähigkeit für die Objekterkennung in komplexen Hintergründen ermöglicht wird.

Liang Sun2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Die Arbeit stellt UniField vor, ein einheitliches, feldbewusstes Framework zur Verbesserung von MRT-Bildern, das durch die Nutzung von 3D-Grundmodellen, einen spektralen Korrekturmechanismus und einen neu veröffentlichten großen Datensatz die Generalisierungsfähigkeit und Bildqualität über verschiedene Magnetfeldstärken hinweg signifikant verbessert.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

Die Arbeit stellt HelixTrack vor, eine rein ereignisbasierte Methode zur Echtzeit-Verfolgung und RPM-Schätzung von Propeller-artigen Objekten unter Ego-Bewegung, die durch die Einführung des TQE-Datensatzes und eine neuartige Homographie-basierte Phasen-Schätzung bestehende Grenzen überwindet.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Das Paper stellt BridgeDiff vor, ein diffusionsbasiertes Framework, das durch die Garment Condition Bridge Module und das Flat Structure Constraint Module die Lücke zwischen menschlichen Beobachtungen und der Synthese flacher Kleidungsstücke schließt, um konsistente und strukturell stabile virtuelle Anproben zu ermöglichen.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Die Arbeit stellt RAE-NWM vor, ein Navigations-Weltmodell, das die Dynamik in einem dichten visuellen Repräsentationsraum (DINOv2) anstelle eines komprimierten latenten Raums modelliert und dabei einen Conditional Diffusion Transformer mit einem entkoppelten Kopf sowie einem zeitgesteuerten Gate-Modul nutzt, um die strukturelle Stabilität und die Genauigkeit der Aktionsvorhersage für die visuelle Navigation zu verbessern.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Die vorgestellte Arbeit identifiziert das Problem des „semantischen Rückfalls" bei KI-generierten Bilderkennungssystemen und schlägt mit dem parametrenfreien Modul „Geometric Semantic Decoupling" (GSD) eine Lösung vor, die durch das Entfernen semantischer Komponenten die Generalisierungsfähigkeit und Robustheit gegenüber unbekannten Manipulationen signifikant verbessert.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Das Paper stellt Poly-DETR vor, einen Transformer-basierten Ansatz, der die Instanzsegmentierung durch eine spärliche Polygon-Regressionsmethode mittels Polarrepräsentation neu formuliert und dabei sowohl die Recheneffizienz bei hochauflösenden Eingaben verbessert als auch eine überlegene Leistung gegenüber maskenbasierten Methoden in domänenspezifischen Szenarien erzielt.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Diese Studie präsentiert einen umfassenden Multi-Modell-Ansatz, der vortrainierte und benutzerdefinierte neuronale Netze für die Verkehrsschilderkennung, Fahrzeug- und Spurerkennung sowie Verhaltensnachahmung integriert, um die Robustheit und Zuverlässigkeit autonomer Fahrsysteme durch fortschrittliche Deep-Learning-Techniken und diverse Datensätze zu verbessern.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Die vorgestellte Arbeit stellt DiP vor, ein neuartiges Framework für das multimodale Graph-Lernen, das durch modalspezifische Pseudo-Knoten und dynamische Informationspfade eine adaptive, ausdrucksstarke und lineare Komplexität aufweisende Nachrichtenweitergabe über Modalitäten hinweg ermöglicht und dabei bestehende Basismodelle in verschiedenen Benchmarks übertrifft.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Diese Arbeit stellt ein neuartiges Framework vor, das große Mengen an Web-Videos mit impliziten Geometriedarstellungen kombiniert, um Vision-and-Language-Navigation in realistischen Umgebungen zu skalieren und gleichzeitig den Bedarf an fragiler 3D-Rekonstruktion zu umgehen.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Die Arbeit stellt ForgeDreamer vor, ein neues Framework für die industrielle Text-zu-3D-Generierung, das durch einen Multi-Expert-LoRA-Ensemble-Mechanismus und eine Cross-View-Hypergraph-Geometrie-Verbesserung sowohl Domänenanpassungsprobleme als auch geometrische Konsistenzmängel überwindet und so eine präzise Fertigung ermöglicht.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Die vorgestellte Arbeit verbessert die Effizienz des Trainings von 3D-Gaussian-Splatting durch neuartige Strategien und Verlustfunktionen, die die Listen der pro Pixel rendernden Gaußschen Verteilungen verkürzen, ohne dabei die Wiedergabequalität zu beeinträchtigen.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Die Arbeit stellt SVOR vor, ein robustes Framework, das durch drei innovative Designelemente – MUSE, DA-Seg und ein zweistufiges Curriculum-Training – die Herausforderungen realer Bedingungen wie Schatten, abrupte Bewegungen und fehlerhafte Masken bei der Video-Objektentfernung bewältigt und dabei neue State-of-the-Art-Ergebnisse erzielt.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Diese Arbeit stellt ein neuartiges, lernbasiertes Verfahren zur Zerlegung beliebiger 3D-Objekte in konvexe Körper vor, das durch das Lernen von Feature-Feldern erstmals ein feed-forward-Modell für die offene Welt ermöglicht und dabei sowohl hohe Qualität als auch eine breite Generalisierungsfähigkeit über verschiedene Repräsentationen hinweg erreicht.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender ist ein Framework, das durch die Interpolation von Geschwindigkeitsfeldern zwischen kognitiven Ankerpunkten eine kontinuierliche und multidimensionale Steuerung kognitiver Bildattribute wie Valenz, Erregung, Dominanz und Merkfähigkeit während der Text-zu-Bild-Generierung ermöglicht.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Die Arbeit stellt MDTrack vor, einen neuartigen Multimodal-Objektverfolger, der durch modalspezifische Expertenfusion und eine entkoppelte zeitliche Propagation mittels separater State-Space-Modelle sowie Cross-Attention-Mechanismen den aktuellen Stand der Technik auf fünf Benchmarks erreicht.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

← Zurück Weiter →