cs.CV Arbeiten | Gist.Science

EdgeDAM: Real-time Object Tracking for Mobile Devices

EdgeDAM ist ein leichtgewichtiges, detektionsgesteuertes Tracking-Framework, das durch einen dualen Puffer-Speichermechanismus und eine vertrauensbasierte Umschaltstrategie die Robustheit bei Verdeckungen und Ablenkungen auf mobilen Endgeräten verbessert, ohne dabei die Echtzeitfähigkeit zu beeinträchtigen.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Die Studie „HALP" zeigt, dass Halluzinationen in Vision-Language-Modellen bereits vor der Textgenerierung durch das Analysieren interner Repräsentationen in einem einzigen Vorwärtsdurchlauf mit hoher Genauigkeit erkannt werden können, was effiziente Eingriffe wie frühes Abbrechen oder selektives Routing ermöglicht.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

Diese Studie demonstriert, dass ein auf Mip-NeRF basierendes Modell mit einem adaptiven gewichteten MSE-Verlust und synthetischen LWIR-Hyperspektralbildern erfolgreich 3D-Szenen rekonstruieren und damit die Detektion von Gaswolken auch bei nur wenigen Trainingsaufnahmen verbessern kann.

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Die Arbeit stellt den MM-Lifelong-Datensatz mit 181,1 Stunden natürlicher Aufnahmen vor und schlägt den rekursiven multimodalen Agenten (ReMA) vor, um die aktuellen Grenzen von End-to-End-Modellen und Agenten bei der Verarbeitung langfristiger, ungeskripteter Videodaten zu überwinden.

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Die Arbeit stellt CalibAtt vor, eine trainingsfreie Methode, die durch das Identifizieren und Überspringen redundanter Aufmerksamkeitsverbindungen während einer Offline-Kalibrierung die Text-zu-Video-Generierung um bis zu 1,58-fach beschleunigt, ohne dabei die Qualität oder die Ausrichtung auf den Text zu beeinträchtigen.

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

Das Paper stellt FaceCam vor, ein System, das durch eine gesichtsspezifische, skalenbewusste Darstellung und innovative Datengenerierungsstrategien hochwertige Porträtvideos mit präziser Kamerasteuerung aus monokularen Eingaben erzeugt, ohne dabei auf 3D-Priors angewiesen zu sein.

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

Die Autoren stellen eine neuartige, transformer-basierte Inpainting-Methode vor, die als nachgelagerter Bildverarbeitungsschritt in spärlichen Multi-Kamera-Setups fehlende Texturen für Echtzeit-3D-Streaming konsistent und detailreich rekonstruiert und dabei einen optimalen Kompromiss zwischen Qualität und Geschwindigkeit bietet.

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

Die Autoren stellen eine neuartige Matrix-Kodierungsmethode namens „Volley Revolver" vor, die es ermöglicht, eine convolutional Neural Network für die Klassifizierung handschriftlicher Bilder effizient und datenschutzkonform unter Verwendung von homomorpher Verschlüsselung durchzuführen, wobei 32 verschlüsselte MNIST-Bilder auf einer öffentlichen Cloud in etwa 287 Sekunden verarbeitet werden.

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

Die Arbeit stellt ein neuartiges, quantenbasiertes Kamera-System vor, das mithilfe von Double Deep Q-Learning die Privatsphäre und den Nutzen von Bildern steuert, indem diese bis zur Messung in reversiblen Quantenzuständen gespeichert werden.

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

Der Artikel stellt GeoTop vor, ein mathematisch fundiertes Framework, das Topologische Datenanalyse und Lipschitz-Killing-Krümmungen vereint, um die Unterscheidung zwischen gutartigen und bösartigen Strukturen in der diagnostischen Bildgebung durch die Kombination topologischer Invarianz mit geometrischer Sensitivität zu verbessern und dabei sowohl die Genauigkeit als auch die Interpretierbarkeit zu steigern.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Diese Arbeit stellt eine neue Methode für die offene Vokabular-Tarnobjekt-Instanzsegmentierung vor, die Diffusionsmodelle nutzt, um durch die Fusion von visuellen und textuellen Merkmalen getarnte Objekte auch in unbekannten Klassen präzise zu segmentieren.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

Die Arbeit stellt Export3D vor, eine Methode zur einmaligen, 3D-bewussten Porträtanimation, die durch einen neuartigen Tri-Plane-Generator und ein kontrastives Vor-Training Ausdrücke und Kameraperspektiven steuern kann, ohne dabei bei ausdruckskontrollierter Animation über verschiedene Identitäten hinweg unerwünschte Gesichtsmerkmale zu übertragen.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

Die Arbeit stellt FireANTs vor, einen training-freien, GPU-beschleunigten multi-skalierten adaptiven Riemannschen Optimierungsalgorithmus für die dichte diffeomorphe Bildregistrierung, der im Vergleich zu bestehenden Methoden eine deutlich schnellere Verarbeitung, einen geringeren Speicherbedarf und eine hohe Robustheit über verschiedene Modalitäten hinweg bietet.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Das Paper stellt Merlin vor, ein dreidimensionales Vision-Language-Foundation-Modell, das mithilfe eines mehrstufigen Vortrainings auf einem großen Datensatz aus CT-Scans, Diagnosedaten und radiologischen Berichten trainiert wurde und bei der automatisierten Analyse von Bauch-CTs verschiedene diagnostische, prognostische und qualitative Aufgaben besser bewältigt als bestehende 2D-Modelle.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Die Arbeit stellt TrashFuzz vor, einen Black-Box-Fuzzing-Ansatz, der durch die realistische Manipulation der Positionen alltäglicher Straßenseitenobjekte gemäß regulatorischer Richtlinien gezielt Wahrnehmungsfehler autonomer Fahrzeuge erzeugt und damit Verkehrsverstöße im Apollo-System provoziert.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

Das Paper stellt FINE vor, eine neuartige Vortrainierungsmethode für Diffusionsmodelle, die Wissen in wiederverwendbare „Learngenes" zerlegt, um Modelle unterschiedlicher Größen effizient und ohne wiederholtes Vortraining initialisieren zu können.

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

Scaling Laws For Diffusion Transformers

Diese Studie etabliert erstmals Skalierungsgesetze für Diffusionstransformer (DiT), die es ermöglichen, auf Basis von Rechenbudgets optimale Modellgrößen und Datenmengen vorherzusagen sowie die Generationsleistung und Datenqualität kosteneffizient zu bewerten.

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

TextMaster ist ein einheitliches Framework für realistische Textbearbeitung, das durch die Kombination von hochauflösenden Glypheninformationen, einem Wahrnehmungsverlust und einem neuartigen Stil-Injektionsmechanismus präzise Schriftarten und kontrollierbare Layouts in verschiedenen Bildbereichen ermöglicht.

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

Die Arbeit stellt FlowCLAS vor, ein hybrides Framework, das Normalizing Flows durch einen kontrastiven Lernansatz mit Outlier Exposure verbessert, um die Leistung bei der Anomalie-Segmentierung in dynamischen Roboterszenen zu steigern und die Lücke zu diskriminativen Methoden zu schließen.

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Die Arbeit stellt VideoMindPalace vor, ein neuartiges Framework, das mithilfe von handgestützter Objektverfolgung, Aktivitätszonen und Umgebungslandkarten semantische Graphen zur strukturierten Analyse langer Videos erstellt, um die räumlich-zeitliche Kohärenz und das menschenähnliche Schlussfolgern von Large Vision Language Models zu verbessern.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

← Zurück Weiter →