cs.CV Arbeiten | Gist.Science

GS-ProCams: Gaussian Splatting-based Projector-Camera Systems

Das Paper stellt GS-ProCams vor, ein bahnbrechendes Framework für Projektions-Kamera-Systeme, das auf 3D-Gaussian-Splatting basiert und im Vergleich zu bisherigen NeRF-Methoden eine view-agnostische Projektionsabbildung ohne zusätzliche Hardware bei drastisch reduziertem Speicherbedarf und um ein Vielfaches höherer Inferenzgeschwindigkeit ermöglicht.

Qingyue Deng, Jijiang Li, Haibin Ling + 1 more2026-02-18💻 cs

DARB-Splatting: Generalizing Splatting with Decaying Anisotropic Radial Basis Functions

Die Arbeit stellt DARB-Splatting vor, eine Methode, die die 3D-Gaussian-Splatting-Technik durch die Verwendung einer Klasse von zerfallenden anisotropen radialen Basisfunktionen (DARBFs) verallgemeinert und dabei vergleichbare Rekonstruktionsqualität bei ähnlicher Effizienz erreicht.

Hashiru Pramuditha, Vinasirajan Viruthshaan, Vishagar Arunan + 4 more2026-02-18🤖 cs.AI

SSL4EO-S12 v1.1: A Multimodal, Multiseasonal Dataset for Pretraining, Updated

Dieses Paper stellt SSL4EO-S12 v1.1 vor, ein multimodales und multitemporales Erdbeobachtungsdatenset, das durch die Korrektur von Geolokalisierungsfehlern, die Optimierung der Datenstruktur und die Erweiterung um Höhen-, Landbedeckungs- und Vegetationsdaten für das Vortraining großskaliger Fundamentmodelle optimiert wurde.

Benedikt Blumenstiel, Nassim Ait Ali Braham, Conrad M Albrecht + 2 more2026-02-18💻 cs

VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow

Die Arbeit stellt VITAL vor, eine Methode zur Generierung besser verständlicher Merkmalsvisualisierungen in neuronalen Netzen durch die Kombination von Statistiken realer Bildmerkmale und relevanter Informationsflüsse, um die oft unklaren Ergebnisse bestehender Verfahren zu überwinden.

Ada Gorgun, Bernt Schiele, Jonas Fischer2026-02-18💻 cs

Digital Twin Generation from Visual Data: A Survey

Diese Übersichtsarbeit untersucht den aktuellen Stand der Technik zur Generierung digitaler Zwillinge aus visuellen Daten, analysiert verschiedene Methoden wie 3D-Gaussian-Splatting und fundamentale Modelle, diskutiert Herausforderungen wie Okklusionen und Beleuchtungsänderungen sowie zukünftige Forschungsrichtungen für Anwendungen in Robotik, Medien und Bauwesen.

Andrew Melnik, Benjamin Alt, Giang Nguyen + 7 more2026-02-18💻 cs

Multispectral airborne laser scanning for tree species classification: a benchmark of machine learning and deep learning algorithms

Diese Studie präsentiert einen Benchmark von maschinellen Lern- und Deep-Learning-Algorithmen zur Klassifizierung von Baumarten mittels hochauflösender multispektraler ALS-Daten und zeigt, dass ein Point-Transformer-Modell auf der Grundlage von 5000 Trainingssegmenten mit einer Gesamtgenauigkeit von 92,0 % die besten Ergebnisse erzielt.

Josef Taher, Eric Hyyppä, Matti Hyyppä + 46 more2026-02-18💻 cs

Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

Das Paper stellt MINT vor, ein Framework, das durch Präferenzoptimierung spezialisiertes multimodales biomedizinisches Wissen von einem Upstream-Modell auf downstreame unimodale Large Language Models überträgt, um deren Leistung bei Aufgaben wie der Vorhersage seltener genetischer Krankheiten und der Klassifizierung von Gewebetypen signifikant zu verbessern.

Zhanliang Wang, Da Wu, Quan Nguyen + 2 more2026-02-18🧬 q-bio

APCoTTA: Continual Test-Time Adaptation for Semantic Segmentation of Airborne LiDAR Point Clouds

Die Arbeit stellt APCoTTA vor, ein neuartiges Framework für die kontinuierliche Testzeit-Adaptierung zur semantischen Segmentierung von airborne LiDAR-Punktwolken, das durch gezielte Schichtauswahl, Entropie-basierte Konsistenzregularisierung und Parameter-Interpolation die Leistungsfähigkeit unter Domänenverschiebungen verbessert und gleichzeitig katastrophales Vergessen verhindert, wobei zwei neue Benchmarks zur Evaluierung bereitgestellt werden.

Yuan Gao, Shaobo Xia, Sheng Nie + 3 more2026-02-18💻 cs

MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark

Die Autoren stellen MMS-VPR, ein groß angelegtes multimodales Datenset und Benchmark für die visuelle Ortsidentifikation in fußgängerfreundlichen Straßenumgebungen in China, sowie die dazugehörige Benchmark-Plattform MMS-VPRlib vor, die eine standardisierte Evaluierung verschiedener Modalitäten und Methoden ermöglicht.

Yiwei Ou, Xiaobin Ren, Ronggui Sun + 3 more2026-02-18🤖 cs.AI

cadrille: Multi-modal CAD Reconstruction with Reinforcement Learning

Die Arbeit stellt cadrille vor, ein multi-modales CAD-Rekonstruktionsmodell, das durch eine zweistufige Pipeline aus überwachtem Feinabstimmen und Reinforcement-Learning-basiertem Training mit GRPO neue State-of-the-Art-Ergebnisse auf mehreren Datensätzen erzielt.

Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov + 6 more2026-02-18🤖 cs.LG

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization with Large Language and Video Models

Die Arbeit stellt „Prompts-to-Summaries" vor, ein datenfreies, null-Shot-System, das durch die Orchestrierung von Video-Sprach- und großen Sprachmodellen über Textanfragen flexible und trainingsfreie Videosummarys erzeugt, die in Benchmarks mit überwachten Methoden konkurrieren können.

Mario Barbara, Alaa Maalouf2026-02-18💻 cs

DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

Das Paper stellt DreamAnywhere vor, ein modulares System zur schnellen Generierung und Prototypisierung von 360°-Panorama-3D-Szenen aus Text, das durch die Trennung von Hintergrund und Objekten sowie deren Umwandlung in detaillierte 3D-Modelle eine überlegene Kohärenz bei neuen Ansichten und eine intuitive Bearbeitung für Anwendungen wie Low-Budget-Filmproduktionen ermöglicht.

Edoardo Alberto Dominici, Jozef Hladky, Floor Verhoeven + 9 more2026-02-18💻 cs

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Die vorgeschlagene dreistufige Methode ermöglicht die Generierung geometrisch und texturkonsistenter 3D-Szenen aus einem einzelnen RGB-Bild, indem sie durch Inpainting verdeckte Objekte vervollständigt, über Pseudo-Stereo-Ansichten die räumliche Geometrie erfasst und durch Layout-Optimierung eine präzise Ausrichtung der 3D-Assets mit dem Eingabebild sicherstellt.

Xiang Tang, Ruotong Li, Xiaopeng Fan2026-02-18💻 cs

FedX: Explanation-Guided Pruning for Communication-Efficient Federated Learning in Remote Sensing

Das Paper stellt FedX vor, eine neue Strategie für das föderierte Lernen im Bereich der Fernerkundung, die mithilfe erklärbarer KI-Methoden unwichtige Modellkomponenten identifiziert und beschneidet, um die Kommunikationskosten bei gleichzeitiger Verbesserung der Generalisierungsfähigkeit erheblich zu senken.

Barış Büyüktaş, Jonas Klotz, Begüm Demir2026-02-18💻 cs

ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

Das Paper stellt ZeroScene vor, ein Zero-Shot-Framework, das auf Basis eines einzelnen Bildes mittels großer visueller Modelle und Diffusionsprozesse sowohl kohärente 3D-Szenen rekonstruieren als auch konsistente Texturen bearbeiten kann.

Xiang Tang, Ruotong Li, Xiaopeng Fan2026-02-18💻 cs

A Fully Interpretable Statistical Approach for Roadside LiDAR Background Subtraction

Die vorgestellte Arbeit stellt eine vollständig interpretierbare statistische Methode zur Hintergrundsubtraktion in roadside LiDAR-Daten vor, die mittels eines Gaußschen Verteilungsgitters und eines Filteralgorithmus eine präzise und hardwareeffiziente Objekterkennung für automatisiertes Fahren ermöglicht.

Aitor Iglesias, Nerea Aranjuelo, Patricia Javierre + 3 more2026-02-18💻 cs

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Die Arbeit stellt ein Framework zur Synthese von über einer Million visuell zentrierter Probleme vor, das durch eine zweistufige Generierung komplexer Aufgaben und das Training von Qwen2.5-VL-7B nicht nur bestehende Open-Source-Modelle übertrifft, sondern auch signifikante Verbesserungen bei rein textbasierten, auditiven und embodied-Aufgaben sowie neue Erkenntnisse für den gesamten VLM-Post-Training-Prozess liefert.

David Acuna, Chao-Han Huck Yang, Yuntian Deng + 6 more2026-02-18💬 cs.CL

Lacking Data? No worries! How synthetic images can alleviate image scarcity in wildlife surveys: a case study with muskox (Ovibos moschatus)

Diese Studie zeigt, dass synthetische Bilder die Trainingsdatenknappheit bei der muskoxenbasierten Wildtierüberwachung effektiv überwinden und die Leistung von KI-Objekterkennungsmodellen in Szenarien mit wenigen oder keinen realen Trainingsdaten verbessern können.

Simon Durand, Samuel Foucher, Alexandre Delplanque + 2 more2026-02-18💻 cs

Terminal Velocity Matching

Die Arbeit stellt Terminal Velocity Matching (TVM) vor, eine Verallgemeinerung von Flow Matching, die durch Regularisierung am Endzeitpunkt, architektonische Anpassungen für Diffusion Transformer und eine optimierte Attention-Implementierung state-of-the-art-Ergebnisse für ein- und mehrstufige generative Modelle auf ImageNet erzielt.

Linqi Zhou, Mathias Parger, Ayaan Haque + 1 more2026-02-18📊 stat

Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs

Die Arbeit stellt TGIF vor, einen leichten, textgesteuerten Modul zur dynamischen Fusion von Bildmerkmalen aus verschiedenen Encoderebenen, der Halluzinationen in Multimodal Large Language Models reduziert, ohne den Vision-Encoder zu aktualisieren.

Chenchen Lin, Sanbao Su, Rachel Luo + 4 more2026-02-18🤖 cs.AI

← Zurück Weiter →