cs.CV Arbeiten | Gist.Science

Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

Die Arbeit schlägt einen effizienten, unsupervised-Anomalie-Detektionsansatz vor, der DINOv3-Embeddings mittels eines räumlichen autoregressiven CNN-Modells nutzt, um räumliche Abhängigkeiten explizit zu erfassen und dabei Speicherbedarf sowie Inferenzzeit im Vergleich zu bestehenden Methoden signifikant zu reduzieren.

Ertunc Erdil, Nico Schulthess, Guney Tombak + 1 more2026-03-04💻 cs

The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

Das Dresdner D4D-Dataset bietet eine umfassende Benchmark aus über 300.000 Bildern und 369 Punktwolken von 98 laparoskopischen Aufnahmen an Schweinekadavern, die durch gepaarte Endoskopie- und Strukturiertlicht-Daten eine quantitative Evaluierung von nicht-rigiden 4D-Rekonstruktions- und SLAM-Methoden in realistischen chirurgischen Szenarien ermöglicht.

Reuben Docea, Rayan Younis, Yonghao Long + 10 more2026-03-04💻 cs

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

Die Arbeit stellt VIRGi vor, eine Methode zur schnellen und fotorealistischen Neukolorierung von 3D-Gaussian-Splatting-Szenen, die durch eine Trennung von diffuser und view-abhängiger Farbe sowie eine effiziente MLP-Fine-Tuning-Strategie auf Basis eines einzigen bearbeiteten Bildes in nur zwei Sekunden realisiert wird.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

Die Arbeit stellt den Ultra Resolution Geometry Transformer (URGT) vor, ein einheitliches Multi-Patch-Transformer-Modell, das durch die Verarbeitung hochauflösender Bilddaten in Patches mit globaler Aufmerksamkeitsmechanik und einer GridMix-Sampling-Strategie präzise Tiefen- und Normalenschätzungen ermöglicht und dabei den aktuellen Stand der Technik auf dem UnrealStereo4K-Datensatz übertrifft.

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

Die Studie stellt BRIGHT vor, das erste auf Kollaboration von Generalisten und Spezialisten basierende Fundamentmodell für die Brustpathologie, das auf einer riesigen Datensammlung trainiert wurde und durch umfassende Validierung in 24 klinischen Aufgaben die Leistungsfähigkeit bestehender generalistischer Modelle in der Brustonkologie übertrifft.

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

Die Arbeit stellt EduVQA vor, ein neues Benchmark-Dataset und Evaluierungsframework, das speziell entwickelt wurde, um die Qualität und pädagogische Ausrichtung von KI-generierten Videos für den Mathematikunterricht bei jungen Lernenden zu bewerten.

Baoliang Chen, Xinlong Bu, Lingyu Zhu + 2 more2026-03-04💻 cs

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Das Paper stellt TikZilla vor, ein Modell-Familie auf Basis kleiner Qwen-LLMs, die durch die Nutzung eines hochwertigen, vierfach vergrößerten Datensatzes (DaTikZ-V4) und eines zweistufigen Trainings mit überwachtem Fine-Tuning sowie bestärkendem Lernen (RL) mit semantischen Bild-Rückmeldungen die Text-zu-TikZ-Generierung so weit verbessern, dass sie GPT-4o übertrifft und mit GPT-5 gleichzieht.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference

Das Paper stellt TinyIceNet vor, ein hocheffizientes, auf FPGA implementiertes neuronales Netzwerk zur Echtzeit-Segmentierung von Meereis aus Sentinel-1 SAR-Daten, das durch Hardware-Algorithmus-Co-Design eine signifikante Energieeinsparung bei hoher Genauigkeit für den Einsatz an Bord von Satelliten ermöglicht.

Mhd Rashed Al Koutayni, Mohamed Selim, Gerd Reis + 2 more2026-03-04🤖 cs.AI

AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis

Die Arbeit stellt AWDiff vor, ein auf Diffusionsmodellen basierendes Framework zur Synthese von Lungensonografie-Bildern, das durch die Integration der a trous-Wavelet-Transformation und semantische Konditionierung mit BioMedCLIP feine diagnostische Strukturen erhält und gleichzeitig die Datenknappheit für maschinelles Lernen überwindet.

Maryam Heidari, Nantheera Anantrasirichai, Steven Walker + 2 more2026-03-04💻 cs

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Die Arbeit stellt RL3DEdit vor, ein effizientes Reinforcement-Learning-Framework, das durch die Nutzung von VGGT als Belohnungssignal die Konsistenz über mehrere Ansichten bei der 3D-Szenenbearbeitung sicherstellt und dabei die Herausforderung des Fehlens von 3D-konsistenten Trainingsdaten umgeht.

Jiyuan Wang, Chunyu Lin, Lei Sun + 8 more2026-03-04🤖 cs.AI

Kling-MotionControl Technical Report

Kling-MotionControl ist ein einheitliches, DiT-basiertes Framework, das durch eine strategische Aufteilung der Bewegungssteuerung für Körper, Gesicht und Hände sowie durch Identitätsanpassung und Beschleunigungstechniken hochrealistische, präzise und generalisierbare Charakteranimationen ermöglicht.

Kling Team, Jialu Chen, Yikang Ding + 21 more2026-03-04💻 cs

Conditioned Activation Transport for T2I Safety Steering

Die Arbeit stellt den „Conditioned Activation Transport" (CAT) vor, einen Rahmen, der mithilfe eines geometrischen Konditionierungsmechanismus und nichtlinearer Transportkarten die Sicherheit von Text-zu-Bild-Modellen verbessert, indem er Eingriffe gezielt auf unsichere Aktivierungsbereiche beschränkt und so die Bildqualität bei harmlosen Prompts erhält.

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński + 3 more2026-03-04🤖 cs.AI

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Die Arbeit stellt MoD-DPO vor, einen einfachen und effektiven Rahmen zur Reduzierung von cross-modalen Halluzinationen in omni-modalen Sprachmodellen durch modality-entschlüsselte Präferenzoptimierung, der die Wahrnehmungsgenauigkeit verbessert und die Überabhängigkeit von textuellen Priors verringert.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

Chain of World: World Model Thinking in Latent Motion

Das Paper stellt CoWVLA vor, ein neues Vision-Language-Action-Modell, das durch die Entkopplung von Struktur- und Bewegungslatenten sowie die Kombination von Weltmodell-Prädiktion mit diskreter Aktionsvorhersage effizienteres und robusteres robotisches Lernen ermöglicht.

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Der Bericht stellt ACE-Brain-0 vor, ein universelles multimodales Sprachmodell, das räumliche Intelligenz als gemeinsame Grundlage nutzt und durch ein Scaffold-Specialize-Reconcile-Verfahren sowie GRPO-Optimierung eine state-of-the-art Leistung über diverse Embodiments hinweg ermöglicht.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Die Arbeit stellt COP-GEN vor, einen latenten Diffusions-Transformer, der die inhärente Mehrdeutigkeit in der Erdbeobachtung durch die Modellierung multimodaler Daten als stochastische Verteilungen adressiert und so eine flexible, deterministische Zusammenbrüche vermeidende Generierung und Übersetzung zwischen verschiedenen Sensormodalitäten ermöglicht.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Die Studie stellt mit UniG2U-Bench einen umfassenden Benchmark vor, der zeigt, dass zwar generative Fähigkeiten in bestimmten Bereichen wie der räumlichen Intelligenz das multimodale Verständnis verbessern, Unified Models jedoch insgesamt oft hinter ihren reinen Vision-Language-Modellen zurückbleiben und neue Trainingsdaten sowie Paradigmen benötigen, um ihr volles Potenzial zu entfalten.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

Das Paper stellt DuoMo vor, eine generative Methode, die mithilfe von zwei Diffusionsmodellen menschliche Bewegungen in Weltkoordinaten aus unbeschränkten Videos mit verrauschten oder unvollständigen Beobachtungen rekonstruiert und dabei einen neuen State-of-the-Art in Bezug auf Genauigkeit und globale Konsistenz erreicht.

Yufu Wang, Evonne Ng, Soyong Shin + 8 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR ist ein neuartiges Feedforward-Architektur-Modell, das durch einen hybriden Speichermechanismus aus parametrischem Test-Time-Training und nicht-parametrischer Sliding-Window-Attention eine hochpräzise, global konsistente 3D-Rekonstruktion für extrem lange Videos ohne Nachoptimierung ermöglicht und dabei den bisherigen Stand der Technik deutlich übertrifft.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Diese Studie untersucht durch kontrollierte Vorabtrainings-Experimente im Transfusion-Framework, wie native multimodale Modelle durch die Kombination von RAE-Vision-Repräsentationen, komplementären Daten und einer MoE-Architektur, die die Skalierungsasymmetrie zwischen Sprache und Vision ausgleicht, zu effektiver Weltmodellierung und Synergieeffekten führen.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

← Zurück Weiter →