cs.CV Arbeiten | Gist.Science

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Die vorgestellte Studie demonstriert, wie multimodale Large Language Models als trainingfreie Bildgeneratoren genutzt werden können, um durch synthetische Defektbilder die Datenknappheit bei der Inspektion von Stromleitungen zu überwinden und die Klassifikationsgenauigkeit für Isolatorschäden signifikant zu steigern.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Die Arbeit stellt TALON vor, ein Test-time-Adaptions-Framework für die On-the-Fly-Kategorienentdeckung, das durch semantisch bewusste Prototypen-Updates und stabile Encoder-Anpassungen die starren hash-basierten Ansätze überwindet, um neue Kategorien effektiv zu lernen und die Fragmentierung von Klassen zu verhindern.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Diese Arbeit stellt einen neuartigen Ansatz für die Objektziel-Navigation vor, der durch die Integration eines feinabgestimmten lokalen LLMs in ein hybrides topologisch-gitterbasiertes Kartensystem von einer rein reaktiven zu einer semantisch gesteuerten, kartenbasierten KI übergeht und so die Erkundungseffizienz und Erfolgsraten in unbekannten Umgebungen signifikant verbessert.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Das Paper stellt DSH-Bench vor, ein umfassendes Benchmark mit hierarchischer Taxonomie, Schwierigkeits- und Szenarioanalyse sowie einem neuen Konsistenzmaß, das die Evaluierung und Weiterentwicklung von subjektgetriebenen Text-zu-Bild-Modellen durch detaillierte Diagnosen und eine höhere Übereinstimmung mit menschlichen Bewertungen verbessert.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

TrianguLang ist ein neuer, feed-forward Ansatz für die 3D-Lokalisierung, der mittels geometrieaware semantischer Aufmerksamkeit (GASA) präzise und geometrisch konsistente Objektsuchergebnisse aus reinem Text ohne Kamerakalibrierung oder Optimierung liefert und damit den Stand der Technik in Effizienz und Genauigkeit verbessert.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Die vorgestellte Arbeit führt die adaptive MLP-Pruning-Methode (AMP) ein, die durch ein label-freies Entropiekriterium und eine binäre Suche die Parameter und FLOPs großer Vision-Transformer wie CLIP und DINOv2 um etwa 40 % reduziert, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Die Arbeit stellt SAMoE-VLA vor, ein autonomes Fahrmodell, das durch eine szenenadaptive Mixture-of-Experts-Architektur und einen bedingten cross-modalen kausalen Aufmerksamkeitsmechanismus die Instabilität herkömmlicher tokenbasierter Ansätze überwindet und gleichzeitig State-of-the-Art-Ergebnisse auf Benchmark-Datensätzen erzielt.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Der Artikel stellt FoleyFlow vor, ein neues Modell zur koordinierten Video-zu-Audio-Generierung, das durch einen Maskierungsansatz zur semantischen und rhythmischen Ausrichtung sowie einen dynamischen bedingten Fluss für eine zeitlich präzise Synchronisation übertrifft bestehende Methoden.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

Die Arbeit stellt UniGround vor, eine trainingsfreie Methode für das universelle 3D-Visual-Grounding, die durch zweistufiges, auf Topologie und semantischer Kodierung basierendes Reasoning neue State-of-the-Art-Ergebnisse auf Benchmarks wie ScanRefer und EmbodiedScan erzielt und dabei ohne 3D-Überwachung robust auf unbekannte Szenen verallgemeinert.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

Die Arbeit stellt FLED-GS vor, ein schnelles Framework zur gleichzeitigen Verbesserung von Helligkeit und Schärfung in 3D-Szenen bei schwacher Beleuchtung, das durch einen alternierenden Zyklus aus 2D-Entwackelung und noise-bewusstem 3D-Gaussian-Splatting-Rekonstruktionsprozess eine überlegene Leistung bei deutlich kürzeren Trainings- und Renderzeiten im Vergleich zu bestehenden Methoden erzielt.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

Die Studie stellt VesselFusion vor, ein Diffusionsmodell, das mithilfe einer grob-zu-feinen Darstellung und einer abstimmungsbasierten Aggregation natürliche und stabile Gefäßzentrenlinien aus 3D-CT-Bildern extrahiert und dabei konventionelle deterministische Ansätze in Bezug auf Genauigkeit und Natürlichkeit der Ergebnisse übertrifft.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Das Paper stellt MV-Fashion vor, ein groß angelegtes, mehrsichtiges Videodataset mit realistischen Garment-Dynamiken und detaillierten Annotationen, das speziell entwickelt wurde, um die Lücke in der Modeforschung zu schließen und als Grundlage für Aufgaben wie virtuelles Anziehen und Größenbestimmung zu dienen.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

Die Arbeit stellt Edged USLAM vor, ein hybrides visuell-inertiales SLAM-System, das durch eine kantenaufmerksame Front-End-Verarbeitung und lernbasierte Tiefenpriors die Robustheit von Ereigniskameras in schwierigen Umgebungen wie schneller Bewegung oder schlechter Beleuchtung verbessert und dabei eine überlegene Stabilität und geringere Drift im Vergleich zu reinen ereignisbasierten oder rein lernbasierten Ansätzen bietet.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Das Paper stellt MERLIN vor, ein robustes multimodales Sprachmodell für elektromagnetische Signale, das durch die Einführung des Datensatzes EM-100k, des Benchmarks EM-Bench und eines speziellen Trainingsframeworks die Herausforderungen von Datenknappheit, fehlender Evaluierung und niedrigen Signal-Rausch-Verhältnissen (SNR) im elektromagnetischen Bereich adressiert.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Die Arbeit stellt ALOOD vor, eine neuartige Methode zur Erkennung von Out-of-Distribution-Objekten in LiDAR-Daten, die durch die Ausrichtung von Objektdetektor-Features auf Sprachrepräsentationen eines Vision-Language-Modells eine Zero-Shot-Klassifizierung ermöglicht und so die Sicherheit autonomer Fahrsysteme erhöht.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

Die Arbeit stellt Fusion-Poly vor, ein neuartiges Framework für das 3D-Objekttracking, das asynchrone LiDAR- und Kameradaten durch eine räumlich-zeitliche Fusionsstrategie integriert, um die Verfolgungshäufigkeit zu erhöhen und mit 76,5 % AMOTA einen neuen State-of-the-Art auf dem nuScenes-Datensatz zu erreichen.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Die Arbeit stellt MM-TS vor, eine Methode für das kontrastive Lernen mit langschwanzigen Daten, die durch dynamische Temperatur- und Margin-Schedules in multimodalen Settings die Leistung verbessert und den InfoNCE-Loss mit dem Max-Margin-Ansatz vereint.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Diese Studie stellt zwei neue Fusionsstrategien vor, die eine registrationsbewusste Bildverarbeitung und eine Zuverlässigkeits-gesteuerte Aufmerksamkeitsfusion nutzen, um die Erkennung von unbemannten Luftfahrzeugen (UAVs) durch die Integration heterogener thermischer und visueller Sensordaten signifikant zu verbessern.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

Das Paper stellt Video2LoRA vor, ein skalierbares und effizientes Framework zur semantisch gesteuerten Videogenerierung, das mittels eines Hypernetzwerks personalisierte LoRA-Gewichte aus Referenzvideos vorhersagt, um ohne separates Training kohärente Ergebnisse mit geringem Speicherbedarf zu erzielen.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

Die Arbeit stellt SAVE vor, eine Methode zur sprachbewussten Video-Repräsentation, die durch eine dedizierte Sprachkomponente und eine frühe Vision-Audio-Alignment mittels soft-ALBEF die Leistung beim Video-Text-Retrieval auf fünf Benchmarks gegenüber dem aktuellen Stand der Technik signifikant verbessert.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

← Zurück Weiter →