cs.CV Arbeiten | Gist.Science

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Diese Arbeit stellt ein digitaler Zwilling-gestütztes robotisches Sortiersystem vor, das multimodale Wahrnehmung und visuelle Sprachmodelle (VLMs) integriert, um deformierbare Textilien und Fremdkörper in automatisierten Recyclingumgebungen präzise zu klassifizieren und zu handhaben.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Die Studie stellt ICHOR vor, einen selbstüberwachten Ansatz auf Basis von Masked Autoencodern, der mithilfe einer großen, multizentrischen Datensammlung von 11.405 ASL-CBF-Scans robuste Repräsentationen für die Verbesserung diagnostischer Klassifizierung und Qualitätsvorhersage in der zerebralen Durchblutungsmessung lernt und dabei bestehende Methoden übertrifft.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

CATNet ist ein adaptives Framework, das durch eine spatio-temporale Synchronisation, eine waveletbasierte Rauschunterdrückung und eine adaptive Merkmalsauswahl die Herausforderungen von Zeitverzögerungen und Rauschen in der kooperativen Wahrnehmung überwindet und so die Robustheit unter komplexen Verkehrsbedingungen verbessert.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Das Paper stellt Wiki-R1 vor, ein Curriculum-Reinforcement-Learning-Framework, das durch kontrollierte Datengenerierung und eine gezielte Stichprobenstrategie multimodale Sprachmodelle schrittweise an die Anforderungen von wissensbasierten visuellen Frage-Antwort-Aufgaben anpasst und dabei neue State-of-the-Art-Ergebnisse auf den Benchmarks Encyclopedic VQA und InfoSeek erzielt.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Diese Studie zeigt, dass für das optimale Out-of-Distribution-Probing von Vision-Transformern je nach Stärke der Verteilungsverschiebung entweder die Aktivierungen des Feedforward-Netzwerks oder die normalisierten Ausgaben des Multi-Head-Self-Attention-Moduls verwendet werden sollten, um die Leistungstiefs tieferer Schichten zu überwinden.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Die Arbeit stellt WebChain vor, das derzeit größte Open-Source-Datenset mit menschlich annotierten Web-Interaktionstrajektorien, und nutzt es zur Entwicklung einer Dual-Mid-Training-Methode, die durch die Entkopplung von räumlicher Verankerung und Planung einen neuen State-of-the-Art bei Web-Agenten erreicht.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Die Arbeit stellt Fusion4CA vor, eine Methode zur Verbesserung der 3D-Objekterkennung durch umfassende Ausnutzung von Kameradaten mittels kontrastiver Ausrichtung, eines Hilfszweigs und adaptiver Module, die auf dem nuScenes-Datensatz und in simulierten Mondumgebungen eine signifikante Genauigkeitssteigerung bei minimalem Rechenaufwand erzielt.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

Die Arbeit stellt SpectralCache vor, ein trainingsfreies und plug-and-play Caching-Framework für Diffusion-Transformer, das durch die Berücksichtigung von zeitlichen, tiefen- und frequenzbasierten Nicht-Uniformitäten den Inferenzprozess um den Faktor 2,46 beschleunigt, ohne dabei die Bildqualität signifikant zu beeinträchtigen.

Guandong Li2026-03-06💻 cs

Dark3R: Learning Structure from Motion in the Dark

Das Paper stellt Dark3R vor, ein Framework, das durch Wissensdistillation von großen 3D-Modellen und Training auf verrauschten Rohbildern Struktur aus Bewegung sowie neue Blickwinkel auch bei extremen Lichtverhältnissen (SNR unter -4 dB) ermöglicht, wo herkömmliche Methoden versagen.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

OpenFrontier ist ein trainingsfreies Navigationsframework, das visuelle Sprachmodelle nutzt, um durch die Identifizierung semantischer Grenzzonen (Frontiers) als Ankerpunkte effiziente und generalisierbare Navigation in offenen Umgebungen ohne dichte 3D-Kartierung oder Feinabstimmung zu ermöglichen.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Die Autoren stellen mit ORSet einen neuen omnidirektionalen Datensatz und mit ORTrack ein darauf abgestimmtes Framework vor, um die Einschränkungen des Sichtfelds bei herkömmlichen Mehrfachobjektverfolgungsaufgaben zu überwinden und die Verfolgung von Objekten basierend auf Sprachbeschreibungen in 360-Grad-Umgebungen zu ermöglichen.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

Die Arbeit stellt Fusion-CAM vor, einen neuartigen Rahmen, der gradienten- und regionenbasierte Class Activation Maps durch einen adaptiven Fusionsmechanismus kombiniert, um robustere und diskriminierendere visuelle Erklärungen für tiefe neuronale Netze zu liefern.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

Die Autoren stellen CliReg vor, einen deterministischen Algorithmus zur Validierung von Schleifen in der 3D-LiDAR-SLAM, der die RANSAC-basierte Verifikation durch eine Suche nach maximalen Cliquen in einem Kompatibilitätsgraphen ersetzt und dadurch eine robustere und genauere Schleifenschließung auch unter schwierigen Bedingungen ermöglicht.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

Diese Arbeit stellt ein auf Multi-Object-Tracking und YOLOv11 basierendes Videosystem vor, das zur frühzeitigen Erkennung von Fischkrankheiten und zur Überwachung des Tierwohls in der Aquakultur durch die Analyse von Schwimmrichtung und -geschwindigkeit dient.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Die Arbeit stellt MobileFetalCLIP vor, einen effizienten 11,4-Millionen-Parameter-Studenten-Modell, das durch eine neuartige selektive repulsive Wissensdistillation trainiert wird und damit einen 304-Millionen-Parameter-Lehrer bei der Analyse fetaler Ultraschallbilder übertrifft, was eine Echtzeit-Anwendung auf mobilen Geräten in ressourcenarmen Umgebungen ermöglicht.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

RelaxFlow ist ein trainingsfreies Framework, das durch die Entkopplung von Kontrollgranularitäten und die Anwendung eines Relaxationsmechanismus textgesteuerte amodale 3D-Generierung ermöglicht, bei der verdeckte Bereiche präzise vervollständigt werden, ohne die visuelle Integrität der sichtbaren Eingabe zu beeinträchtigen.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

Die Arbeit stellt SAIL vor, einen neuartigen Ansatz für das schwach überwachte dichte Videocaptioning, der semantisch bewusste Masken durch cross-modale Ausrichtung und eine LLM-basierte Erweiterung mit synthetischen Untertiteln nutzt, um die zeitliche Lokalisierung und Beschreibung von Ereignissen in Videos signifikant zu verbessern.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Die Arbeit stellt CompACT vor, einen diskreten Tokenizer, der Beobachtungen auf nur 8 Token komprimiert und damit die Rechenkosten für die Planung in Weltmodellen drastisch senkt, ohne die Leistungsfähigkeit zu beeinträchtigen.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

Das Paper stellt NaiLIA vor, ein multimodales Suchverfahren für Nageldesigns, das dichte Absichtsbeschreibungen und Farbpaletten-Abfragen integriert, um die Herausforderungen bei der präzisen Bildsuche zu bewältigen, und durch ein neues Benchmark-Dataset sowie experimentelle Ergebnisse seine Überlegenheit gegenüber Standardmethoden nachweist.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder ist ein Echtzeitsystem, das durch die Nutzung von physikalischen Simulationen als Zwischenschritt erstmals videobasierte Generierung ermöglicht, die die physikalischen Konsequenzen von 3D-Aktionen auf starre Objekte, deformierbare Körper, Flüssigkeiten und körnige Materialien aus einer einzigen Eingabebildquelle realistisch simuliert.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

← Zurück Weiter →