cs.CV Arbeiten | Gist.Science

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Die Arbeit stellt UniUGG vor, das erste einheitliche Framework für das Verständnis und die Generierung von 3D-Daten, welches durch einen räumlichen Decoder auf Basis eines latenten Diffusionsmodells und eine geometrisch-semantische Lernstrategie hochwertige 3D-Szenen erzeugt und räumliche VQA-Aufgaben löst.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

Das Paper stellt PhysGM vor, ein feed-forward Framework, das mithilfe des neuen PhysAssets-Datensatzes und Direct Preference Optimization aus einem einzigen Bild sofort physikalisch plausible 4D-Simulationen mit hoher Wiedergabetreue erzeugt und dabei die Nachteile herkömmlicher, optimierungsintensiver Methoden überwindet.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Diese Arbeit stellt einen effizienten, diffusionsbasierten Rahmen für die 3D-Menschliche-Pose-Schätzung vor, der durch eine hierarchische zeitliche Beschneidungsstrategie (HTP) den Rechenaufwand erheblich reduziert und gleichzeitig eine state-of-the-art Leistung erzielt.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Die Arbeit stellt PointSlice vor, eine neuartige, auf horizontalen Schnitten basierende Methode zur 3D-Objekterkennung aus Punktwolken, die durch eine effiziente 2D-Datenrepräsentation und ein Slice-Interaktions-Netzwerk (SIN) eine überlegene Balance zwischen Detektionsgenauigkeit und Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Voxel- und Säulen-basierten Ansätzen erreicht.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Der Artikel stellt ein neues Paradigma namens MixMFL sowie ein darauf aufbauendes Framework namens MDM-MixMFL vor, das durch Modality-Decoupling und einen Modality-Memorizing-Mechanismus die Herausforderungen der Heterogenität bei dezentralen, multimodalen MRI-Bildsegmentierungsaufgaben in verteilten Krankenhäusern löst.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Diese Studie stellt ein neuartiges, auf externer visueller Beobachtung basierendes System vor, das mithilfe von Computer-Vision-Methoden wie YOLO und Spurverfolgung ablenkungs- und beeinträchtigungsbedingtes Fahrverhalten bei nicht vernetzten Fahrzeugen in Echtzeit erkennt, um zur Reduzierung von Verkehrsunfällen beizutragen.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Die Studie stellt UltraUPConvNet vor, einen rechen-effizienten Multi-Task-Deep-Learning-Ansatz auf Basis von UPerNet und ConvNeXt, der gleichzeitig die Gewebesegmentierung und die Krankheitsvorhersage in Ultraschallbildern mit state-of-the-art-Leistung und geringerem Rechenaufwand ermöglicht.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Die Arbeit stellt Traffic-MLLM vor, ein retrieval-freies Framework für multimodales Verkehrsreasoning, das durch curiosity-gesteuertes, überwachtes Lernen auf einer multi-quelligenen Datenbasis eine generalisierbare Fallraum-Repräsentation erlernt und damit die Robustheit von autonomen Fahrsystemen in langschwanzigen Szenarien verbessert.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Die Arbeit stellt SAGA vor, eine Methode zur selektiven adaptiven Gating, die die Effizienz und Ausdruckskraft linearer Aufmerksamkeit für Vision-Transformer verbessert, indem sie durch lernbare Gatter die uniforme Kompression von Key-Value-Informationen vermeidet und so sowohl die Rechenleistung als auch die Genauigkeit bei der Verarbeitung hochauflösender Bilder signifikant steigert.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Die Arbeit stellt den Cumulative Consensus Score (CCS) vor, eine modellunabhängige und annotierungsfreie Metrik, die durch Messung der räumlichen Konsistenz von Bounding-Box-Vorhersagen über Testzeit-Augmentierungen hinweg die Zuverlässigkeit von Objektdetektoren im Einsatz überwacht und dabei eine hohe Übereinstimmung mit etablierten Qualitätsmaßen aufweist.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Die Studie stellt WHU-STree vor, ein umfassendes, multimodales Benchmark-Datenset mit synchronisierten Punktwolken und hochauflösenden Bildern aus zwei Städten, das über 21.000 annotierte Straßenbäume umfasst und als Grundlage für die Automatisierung der Bestandsaufnahme sowie die Erforschung von Multi-Modalitäts- und Domänenanpassungsmethoden dient.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

Das Paper stellt MICA vor, ein auf Wahrnehmung und Sprache basierendes Multi-Agenten-System für industrielle Umgebungen, das durch adaptive Schrittfusion und eine Sicherheitsprüfung zuverlässige, datenschutzkonforme Assistenz auch bei begrenzten Ressourcen bietet.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Die Arbeit stellt das ORIC-Framework vor, das die Erkennungsleistung von Large Vision-Language-Modellen bei kontextueller Inkongruität untersucht, einen entsprechenden Benchmark erstellt und durch gezieltes Fine-Tuning die Zuverlässigkeit dieser Modelle in atypischen Szenarien verbessert.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Die Autoren stellen ein neuartiges, ereignisbasiertes Visual-Teach-and-Repeat-System vor, das durch Frequenzbereich-Kreuzkorrelation eine Latenz von nur 2,88 ms erreicht und damit autonome Roboternavigation über 3000 Meter bei Tag und Nacht mit einer Spurabweichung unter 15 cm ermöglicht.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Die Studie zeigt, dass aktuelle Video-LLM-Benchmarks das Hören vernachlässigen, und demonstriert, dass die Integration von Sprach- und Audio-Encodern die Leistung bei sprachbasierten Aufgaben signifikant verbessert, während visuell zentrierte Benchmarks kaum beeinflusst werden.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Das Paper stellt QuantVGGT vor, ein bahnbrechendes Post-Training-Quantisierungsframework für Visual Geometry Grounded Transformers, das durch eine dual geglättete Feinquantisierung und rauschgefiltertes, vielfältiges Sampling die Herausforderungen schwerer Verteilungen und instabiler Kalibrierung bei Milliarden-modellen löst und dabei eine 3,7-fache Speicherreduktion bei über 98 % der ursprünglichen Genauigkeit ermöglicht.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Die Arbeit stellt den Motion-Aware Transformer (MATR) vor, ein End-to-End-Modell für das Multi-Object-Tracking, das durch die explizite Vorhersage von Objektbewegungen zur Aktualisierung von Track-Queries Kollisionen reduziert und damit auf mehreren Benchmark-Datensätzen neue State-of-the-Art-Ergebnisse erzielt.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Die Arbeit stellt GS-2M vor, einen materialbewussten Optimierungsrahmen auf Basis von 3D-Gaussian-Splatting, der durch eine neuartige Rauheitsüberwachung und das gemeinsame Optimieren von geometrischen Attributen hochfidele, dreieckige Mesh-Rekonstruktionen selbst bei stark reflektierenden Oberflächen ermöglicht, ohne dabei auf komplexe neuronale Komponenten angewiesen zu sein.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

← Zurück Weiter →