cs.CV Arbeiten | Gist.Science

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

OpenFrontier ist ein trainingsfreies Navigationsframework, das visuelle Sprachmodelle nutzt, um durch die Identifizierung semantischer Grenzzonen (Frontiers) als Ankerpunkte effiziente und generalisierbare Navigation in offenen Umgebungen ohne dichte 3D-Kartierung oder Feinabstimmung zu ermöglichen.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Die Autoren stellen mit ORSet einen neuen omnidirektionalen Datensatz und mit ORTrack ein darauf abgestimmtes Framework vor, um die Einschränkungen des Sichtfelds bei herkömmlichen Mehrfachobjektverfolgungsaufgaben zu überwinden und die Verfolgung von Objekten basierend auf Sprachbeschreibungen in 360-Grad-Umgebungen zu ermöglichen.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

Die Arbeit stellt Fusion-CAM vor, einen neuartigen Rahmen, der gradienten- und regionenbasierte Class Activation Maps durch einen adaptiven Fusionsmechanismus kombiniert, um robustere und diskriminierendere visuelle Erklärungen für tiefe neuronale Netze zu liefern.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

Die Autoren stellen CliReg vor, einen deterministischen Algorithmus zur Validierung von Schleifen in der 3D-LiDAR-SLAM, der die RANSAC-basierte Verifikation durch eine Suche nach maximalen Cliquen in einem Kompatibilitätsgraphen ersetzt und dadurch eine robustere und genauere Schleifenschließung auch unter schwierigen Bedingungen ermöglicht.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

Diese Arbeit stellt ein auf Multi-Object-Tracking und YOLOv11 basierendes Videosystem vor, das zur frühzeitigen Erkennung von Fischkrankheiten und zur Überwachung des Tierwohls in der Aquakultur durch die Analyse von Schwimmrichtung und -geschwindigkeit dient.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Die Arbeit stellt MobileFetalCLIP vor, einen effizienten 11,4-Millionen-Parameter-Studenten-Modell, das durch eine neuartige selektive repulsive Wissensdistillation trainiert wird und damit einen 304-Millionen-Parameter-Lehrer bei der Analyse fetaler Ultraschallbilder übertrifft, was eine Echtzeit-Anwendung auf mobilen Geräten in ressourcenarmen Umgebungen ermöglicht.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

RelaxFlow ist ein trainingsfreies Framework, das durch die Entkopplung von Kontrollgranularitäten und die Anwendung eines Relaxationsmechanismus textgesteuerte amodale 3D-Generierung ermöglicht, bei der verdeckte Bereiche präzise vervollständigt werden, ohne die visuelle Integrität der sichtbaren Eingabe zu beeinträchtigen.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

Die Arbeit stellt SAIL vor, einen neuartigen Ansatz für das schwach überwachte dichte Videocaptioning, der semantisch bewusste Masken durch cross-modale Ausrichtung und eine LLM-basierte Erweiterung mit synthetischen Untertiteln nutzt, um die zeitliche Lokalisierung und Beschreibung von Ereignissen in Videos signifikant zu verbessern.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Die Arbeit stellt CompACT vor, einen diskreten Tokenizer, der Beobachtungen auf nur 8 Token komprimiert und damit die Rechenkosten für die Planung in Weltmodellen drastisch senkt, ohne die Leistungsfähigkeit zu beeinträchtigen.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

Das Paper stellt NaiLIA vor, ein multimodales Suchverfahren für Nageldesigns, das dichte Absichtsbeschreibungen und Farbpaletten-Abfragen integriert, um die Herausforderungen bei der präzisen Bildsuche zu bewältigen, und durch ein neues Benchmark-Dataset sowie experimentelle Ergebnisse seine Überlegenheit gegenüber Standardmethoden nachweist.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder ist ein Echtzeitsystem, das durch die Nutzung von physikalischen Simulationen als Zwischenschritt erstmals videobasierte Generierung ermöglicht, die die physikalischen Konsequenzen von 3D-Aktionen auf starre Objekte, deformierbare Körper, Flüssigkeiten und körnige Materialien aus einer einzigen Eingabebildquelle realistisch simuliert.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

Die vorgestellte Arbeit stellt den Longest Stable Prefix (LSP)-Scheduler vor, eine trainingsfreie und modellunabhängige Methode, die durch die atomare Absorption zusammenhängender, stabiler Präfixe die Fragmentierung des KV-Caches vermeidet und die Inferenzgeschwindigkeit von Diffusionssprachmodellen um bis zu 3,4-fach steigert, ohne dabei die Ausgabequalität zu beeinträchtigen.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

EdgeDAM ist ein leichtgewichtiges, detektionsgesteuertes Tracking-Framework, das durch einen dualen Puffer-Speichermechanismus und eine vertrauensbasierte Umschaltstrategie die Robustheit bei Verdeckungen und Ablenkungen auf mobilen Endgeräten verbessert, ohne dabei die Echtzeitfähigkeit zu beeinträchtigen.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Die Studie „HALP" zeigt, dass Halluzinationen in Vision-Language-Modellen bereits vor der Textgenerierung durch das Analysieren interner Repräsentationen in einem einzigen Vorwärtsdurchlauf mit hoher Genauigkeit erkannt werden können, was effiziente Eingriffe wie frühes Abbrechen oder selektives Routing ermöglicht.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

Diese Studie demonstriert, dass ein auf Mip-NeRF basierendes Modell mit einem adaptiven gewichteten MSE-Verlust und synthetischen LWIR-Hyperspektralbildern erfolgreich 3D-Szenen rekonstruieren und damit die Detektion von Gaswolken auch bei nur wenigen Trainingsaufnahmen verbessern kann.

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Die Arbeit stellt den MM-Lifelong-Datensatz mit 181,1 Stunden natürlicher Aufnahmen vor und schlägt den rekursiven multimodalen Agenten (ReMA) vor, um die aktuellen Grenzen von End-to-End-Modellen und Agenten bei der Verarbeitung langfristiger, ungeskripteter Videodaten zu überwinden.

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Die Arbeit stellt CalibAtt vor, eine trainingsfreie Methode, die durch das Identifizieren und Überspringen redundanter Aufmerksamkeitsverbindungen während einer Offline-Kalibrierung die Text-zu-Video-Generierung um bis zu 1,58-fach beschleunigt, ohne dabei die Qualität oder die Ausrichtung auf den Text zu beeinträchtigen.

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

Das Paper stellt FaceCam vor, ein System, das durch eine gesichtsspezifische, skalenbewusste Darstellung und innovative Datengenerierungsstrategien hochwertige Porträtvideos mit präziser Kamerasteuerung aus monokularen Eingaben erzeugt, ohne dabei auf 3D-Priors angewiesen zu sein.

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

Die Autoren stellen eine neuartige, transformer-basierte Inpainting-Methode vor, die als nachgelagerter Bildverarbeitungsschritt in spärlichen Multi-Kamera-Setups fehlende Texturen für Echtzeit-3D-Streaming konsistent und detailreich rekonstruiert und dabei einen optimalen Kompromiss zwischen Qualität und Geschwindigkeit bietet.

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

Die Autoren stellen eine neuartige Matrix-Kodierungsmethode namens „Volley Revolver" vor, die es ermöglicht, eine convolutional Neural Network für die Klassifizierung handschriftlicher Bilder effizient und datenschutzkonform unter Verwendung von homomorpher Verschlüsselung durchzuführen, wobei 32 verschlüsselte MNIST-Bilder auf einer öffentlichen Cloud in etwa 287 Sekunden verarbeitet werden.

John Chiang2026-03-05💻 cs

← Zurück Weiter →