cs.CV Arbeiten | Gist.Science

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

Das Paper stellt HeroGS vor, ein einheitliches Framework mit hierarchischer Führung auf Bild-, Feature- und Parameter-Ebene, das durch die Umwandlung spärlicher Supervision in pseudo-dichte Anleitung sowie adaptive Verdichtung und geometrische Konsistenz robuste 3D-Gaussian-Splatting-Rekonstruktionen auch unter Bedingungen mit wenigen Ansichten ermöglicht.

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

Die Autoren stellen mit ET-Turb einen groß angelegten synthetischen Datensatz vor, der durch die Einführung einer kontinuierlichen belichtungszeitabhängigen Modulationsübertragungsfunktion (ET-MTF) realistischere atmosphärische Turbulenz-Effekte modelliert und damit die Generalisierungsfähigkeit von Bildwiederherstellungsmodellen im Vergleich zu bestehenden Ansätzen signifikant verbessert.

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

UETrack: A Unified and Efficient Framework for Single Object Tracking

UETrack ist ein einheitliches und effizientes Framework für die Verfolgung einzelner Objekte, das durch eine Token-Pooling-basierte Mixture-of-Experts-Architektur und eine zieladaptive Destillationstechnik eine überlegene Geschwindigkeits-Genauigkeits-Balance über mehrere Modalitäten hinweg auf verschiedenen Hardware-Plattformen ermöglicht.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

Das Paper stellt FACE vor, ein neuartiges autoregressives Framework, das durch die Generierung von 3D-Meshes auf Ebene einzelner Dreiecksflächen anstelle von Vertex-Koordinaten die Sequenzlänge drastisch reduziert und somit eine hocheffiziente, hochqualitative Mesh-Generierung ermöglicht.

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

Die Arbeit stellt InterCoG vor, ein neuartiges Text-Bild-Rahmenwerk mit verflochtener Chain-of-Grounding-Reasoning, das durch eine sequenzielle Kombination aus textbasiertem Positionsverständnis, visueller Verankerung und Beschreibungsumformulierung präzise Bildbearbeitungen in komplexen Szenen ermöglicht, unterstützt durch das neue GroundEdit-45K-Datenset und entsprechende Evaluierungsmethoden.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Die Arbeit stellt BiCAM vor, eine bidirektionale Methode zur Erzeugung von Klassifikationsaktivierungskarten für Vision Transformer, die sowohl positive als auch negative Beiträge berücksichtigt, um interpretierbare Erklärungen zu verbessern und Adversarial Examples effizient zu erkennen.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

Die Arbeit stellt PromptStereo vor, ein neues stereo-matching-Verfahren, das durch die Integration von Struktur- und Bewegungshinweisen in einen Prompt Recurrent Unit (PRU) die iterative Verfeinerung von Monokular-Depth-Modellen verbessert und damit state-of-the-art Zero-Shot-Generalisierung bei hoher Geschwindigkeit erreicht.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Das Paper stellt Nano-EmoX, ein kompaktes multimodales Sprachmodell mit 2,2 Milliarden Parametern, und das Curriculum-Training P2E vor, die gemeinsam eine kognitiv inspirierte Hierarchie nutzen, um von der Wahrnehmung bis zur Empathie sechs affektive Aufgaben in einem einheitlichen Rahmen zu vereinen und dabei state-of-the-art-Leistung bei hoher Effizienz zu erzielen.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Die Arbeit stellt SimRecon vor, ein Framework, das durch einen "Wahrnehmung-Generierung-Simulation"-Pipeline mit zwei speziellen Brückenmodulen (Active Viewpoint Optimization und Scene Graph Synthesizer) aus realen Videos visuell getreue und physikalisch plausible, objektspezifische 3D-Szenen für Simulationen rekonstruiert.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

Die Arbeit stellt OnlineX vor, ein Feed-Forward-Framework, das durch ein neuartiges Paradigma der entkoppelten Zustandsentwicklung von aktiv zu stabil sowohl visuelle als auch semantische 3D-Szenen in Echtzeit aus Streaming-Bildern rekonstruiert und dabei das Problem der kumulativen Drift löst.

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Die Arbeit stellt HiFi-Inpaint vor, ein neuartiges Framework für referenzbasierte Inpainting-Aufgaben, das durch die Einführung von Shared Enhancement Attention und Detail-Aware Loss sowie die Bereitstellung des neuen HP-Image-40K-Datensatzes hochauflösende, detailgetreue Bilder von Menschen mit Produkten generiert.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Die Arbeit stellt TimeGS vor, ein neuartiges Framework, das die Zeitreihenvorhersage durch eine Umdeutung als 2D-Rendering mit adaptiven Gauß-Kernen und chronologisch kontinuierlicher Rasterisierung revolutioniert, um die Grenzen bestehender 2D-Reshaping-Ansätze zu überwinden und state-of-the-art Ergebnisse zu erzielen.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

Die Arbeit stellt CamDirector vor, ein neues Framework für die Bearbeitung von Videotrajektorien, das durch eine hybride Verwarpung mit einem Welt-Cache und ein history-gesteuertes autoregressives Diffusionsmodell eine präzise Kamerasteuerung und langfristige zeitliche Kohärenz ermöglicht, wobei es auf dem neuen iPhone-PTZ-Benchmark einen neuen State-of-the-Art mit weniger Parametern erreicht.

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

Social-JEPA: Emergent Geometric Isomorphism

Die Arbeit „Social-JEPA" zeigt, dass unabhängige Agenten, die aus unterschiedlichen Blickwinkeln lernen, ohne Abstimmung eine geometrische Isometrie zwischen ihren latenten Räumen entwickeln, die eine nahtlose Übertragung von Klassifikatoren und effizientes Wissenstransfer ermöglicht.

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

Diese Studie stellt ein multimodales Framework zur Tieridentifikation vor, das durch die Kombination von 1,9 Millionen Bildern mit synthetischen Textbeschreibungen und einer optimierten Gating-Fusionstechnik die Genauigkeit im Vergleich zu unimodalen Baselines um 11 % auf 84,28 % steigert.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

Die Arbeit stellt PDP vor, einen prompt-entkoppelten Framework mit einem dualen Prompt-Pool und einem prototypischen Pseudo-Label-Modul, der Prompt-Degradation in der inkrementellen Objekterkennung effektiv bekämpft und damit neuartige State-of-the-Art-Ergebnisse auf MS-COCO und PASCAL VOC erzielt.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

Das Paper stellt AutoFFS vor, ein datengesteuertes Framework, das durch adversarische Deformationen künstlich generierte Gegenbeispiele von Schädelmorphologien erstellt, um die Planung von Gesichtsverweiblichungsoperationen quantitativ zu unterstützen.

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

Diese Arbeit stellt eine systematische empirische Evaluierung von Verlustfunktionen, CNN-Architekturen und Nachtrainingsstrategien für die Klassifizierung von Langschwanz-Verteilungen in multi-label Thorax-Röntgenbildern vor, bei der die Kombination aus LDAM-DRW und ConvNeXt-Large auf dem CXR-LT 2026-Benchmark zu einem fünften Platz unter 68 Teams führte.

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Das Paper stellt HAMMER vor, ein Framework, das multimodale große Sprachmodelle (MLLMs) nutzt, um durch die Aggregation von Interaktionsabsichten und eine hierarchische cross-modale Integration eine intentiongetriebene 3D-Affordanz-Verankerung zu ermöglichen, die ohne explizite Attributbeschreibungen oder 2D-Segmentierer auskommt und in Experimenten überlegene Ergebnisse liefert.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

Die vorgestellte Arbeit zeigt, dass eine schlecht konditionierte Kovarianz der Zwischenverteilungen bei Flow Matching und Score-basierten Diffusionsmodellen zu einem suboptimalen Trainingsplateau führt, und schlägt reversible, label-konditionierte Vorkonditionierungsabbildungen vor, die die Geometrie dieser Verteilungen verbessern, um das Lernen in unterdrückten Richtungen wiederherzustellen und suboptimale Plateaus zu vermeiden.

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI

← Zurück Weiter →