cs.CV Arbeiten | Gist.Science

LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference

Das Paper stellt LoLep vor, eine Methode zur Single-View-View-Synthese, die mittels lokal gelernter Ebenen, eines Diskrepanzsamplers mit zwei Optimierungsstrategien und eines Block-Sampling-Self-Attention-Mechanismus für präzise Okklusionsinferenz neuartige Ansichten aus einem einzigen RGB-Bild erzeugt und dabei state-of-the-art Ergebnisse liefert.

Cong Wang, Yu-Ping Wang, Dinesh Manocha2026-02-20💻 cs

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

Die Arbeit stellt MeGA vor, einen hybriden Mesh-Gaussian-Head-Avatar, der durch die Kombination einer verbesserten FLAME-Mesh-Gesichtsrepräsentation mit 3D-Gaussian-Splatting für Haare hochauflösende Renderings und flexible Bearbeitungsmöglichkeiten für AR/VR-Anwendungen ermöglicht.

Cong Wang, Di Kang, He-Yi Sun + 4 more2026-02-20💻 cs

Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis

Diese Studie stellt ein neuartiges Drei-Schritte-Framework vor, das durch Segmentierung, Projektion und Anpassung von Verfolgungsalgorithmen die Erkennung und Verfolgung von Objekten in verzerrten 360-Grad-Panoramavideos verbessert, um die Verkehrssicherheit von Radfahrern durch eine präzise Analyse von Überholmanövern zu erhöhen.

Jingwei Guo, Yitai Cheng, Meihui Wang + 5 more2026-02-20💻 cs

Improved Single Camera BEV Perception Using Multi-Camera Training

Die vorgestellte Methode verbessert die Single-Camera-Bird's-Eye-View-Perzeption für autonome Fahrzeuge durch ein Multi-Camera-Training mit Maskierung, zyklischem Lernraten-Schedule und Feature-Reconstruction-Loss, wodurch die Leistungslücke zu teureren Mehr-Kamera-Systemen verringert und Halluzinationen reduziert werden.

Daniel Busch, Ido Freeman, Richard Meyes + 1 more2026-02-20💻 cs

Multi-View 3D Reconstruction using Knowledge Distillation

Diese Arbeit stellt eine Wissensdestillations-Pipeline vor, die Dust3r als Lehrermodell nutzt, um effizientere CNN- und Vision-Transformer-Studentenmodelle für die Multi-View-3D-Rekonstruktion zu trainieren, wobei Vision-Transformer die besten visuellen und quantitativen Ergebnisse erzielen.

Aditya Dutt, Ishikaa Lunawat, Manpreet Kaur2026-02-20🤖 cs.AI

Unlocking [CLS] Features for Continual Post-Training

Die vorgestellte Arbeit stellt TOSCA vor, eine parameter-effiziente Methode zur kontinuierlichen Nachschulung von Grundmodellen, die durch den Einsatz eines spärlichen Adapter-Kalibrator-Moduls (LuCA) am [CLS]-Token ein optimales Gleichgewicht zwischen Stabilität und Plastizität erreicht und dabei die Anzahl der Parameter im Vergleich zu bestehenden Ansätzen um das Achtfache reduziert.

Murat Onur Yildirim, Elif Ceren Gok Yildirim, Joaquin Vanschoren2026-02-20🤖 cs.LG

Simple Self Organizing Map with Vision Transformers

Diese Studie zeigt, dass die Kombination von Vision Transformern mit Self-Organizing Maps deren jeweilige Stärken synergistisch nutzt, um die Leistung bei überwachten und unüberwachten Aufgaben, insbesondere auf kleinen Datensätzen, signifikant zu verbessern.

Alan Luo, Kaiwen Yuan2026-02-20🤖 cs.AI

Cert-SSBD: Certified Backdoor Defense with Sample-Specific Smoothing Noises

Die Arbeit stellt Cert-SSBD vor, eine zertifizierte Abwehrmethode gegen Backdoor-Angriffe, die durch sample-spezifische Rauschoptimierung und eine speicherbasierte Zertifizierung die Grenzen bestehender Randomized-Smoothing-Ansätze überwindet.

Ting Qiao, Yingjia Wang, Xing Liu + 3 more2026-02-20🤖 cs.AI

Attention-Enhanced U-Net for Accurate Segmentation of COVID-19 Infected Lung Regions in CT Scans

Diese Studie stellt eine robuste Methode zur automatischen Segmentierung von COVID-19-befallenen Lungenregionen in CT-Scans vor, die auf einer mit Aufmerksamkeitsmechanismen erweiterten U-Net-Architektur basiert und durch einen Dice-Koeffizienten von 0,8658 eine überlegene Leistung erzielt.

Amal Lahchim, Lazar Davic2026-02-20⚡ eess

Towards Scalable Language-Image Pre-training for 3D Medical Imaging

Die Arbeit stellt HLIP vor, ein neuartiges Framework mit hierarchischem Aufmerksamkeitsmechanismus, das durch direktes Vor-Training auf ungesichteten klinischen 3D-Daten (CT und MRT) eine skalierbare Lösung für die medizinische Bild-Sprach-Prä-Training bietet und dabei neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks erzielt.

Chenhui Zhao, Yiwei Lyu, Asadur Chowdury + 6 more2026-02-20💻 cs

Demographic-aware fine-grained visual recognition of pediatric wrist pathologies

Diese Studie stellt ein demografiefähiges hybrides Convolution-Transformer-Modell vor, das durch die Integration von Alter und Geschlecht sowie progressive Metadaten-Maskierung die feingranulare Erkennung pädiatrischer Handgelenkspathologien in Röntgenbildern verbessert und dabei normale Entwicklungsvariationen von echten Pathologien zuverlässig unterscheidet.

Ammar Ahmed, Ali Shariq Imran, Zenun Kastrati + 1 more2026-02-20🤖 cs.AI

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Die Arbeit stellt MCIF vor, das erste menschlich annotierte, mehrsprachige Benchmark für multimodale Sprachmodelle, das auf wissenschaftlichen Vorträgen basiert und die Fähigkeit dieser Modelle zur instruktionsbasierten Verarbeitung von Text, Sprache und Bild über verschiedene Sprachen und Aufgaben hinweg systematisch bewertet.

Sara Papi, Maike Züfle, Marco Gaido + 5 more2026-02-20💬 cs.CL

Sufficient, Necessary and Complete Causal Explanations in Image Classification

Dieses Papier stellt einen formal rigorosen, vollständig black-box-fähigen Ansatz für kausale Erklärungen in der Bildklassifizierung vor, der die Äquivalenz zu logischen Erklärungen beweist und effiziente Algorithmen zur Identifizierung notwendiger, hinreichender und vollständiger Bildkomponenten ohne Zugriff auf das Modellinnere bereitstellt.

David A Kelly, Hana Chockler2026-02-20🤖 cs.AI

PP-Motion: Physical-Perceptual Fidelity Evaluation for Human Motion Generation

Die Arbeit stellt PP-Motion vor, ein neuartiges datengesteuertes Metrik-Verfahren zur Bewertung der physikalischen und wahrnehmungsbasierten Qualität von generierter menschlicher Bewegung, das durch eine physikalische Labelierungsmethode mit feinkörnigen, kontinuierlichen Annotationen die Lücke zwischen physikalischer Machbarkeit und menschlicher Wahrnehmung schließt.

Sihan Zhao, Zixuan Wang, Tianyu Luan + 5 more2026-02-20💻 cs

VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By Value Sign Flip

Die Arbeit stellt VSF (Value Sign Flip) vor, eine effiziente Methode zur Verbesserung der Negativ-Prompt-Steuerung in Few-Step-Bildgenerierungsmodellen durch das dynamische Umkehren der Vorzeichen von Aufmerksamkeitswerten, die eine überlegene Einhaltung negativer Vorgaben bei gleichzeitig hoher Bildqualität ermöglicht.

Wenqi Guo, Shan Du2026-02-20💻 cs

CoreEditor: Correspondence-constrained Diffusion for Consistent 3D Editing

CoreEditor ist ein neuartiges Framework für konsistentes textgesteuertes 3D-Editing, das durch einen korrespondenzbeschränkten Aufmerksamkeitsmechanismus und semantische Ähnlichkeit eine präzise, multiview-konsistente Bearbeitung mit schärferen Details ermöglicht und dabei bestehende Methoden deutlich übertrifft.

Zhe Zhu, Honghua Chen, Peng Li + 1 more2026-02-20💻 cs

Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

Die Arbeit stellt Bongard-RWR+ vor, einen um 5.400 Instanzen erweiterten Datensatz für Bongard-Probleme, der mithilfe eines Vision-Language-Model-Pipelines realistische Bilder generiert, um die Fähigkeit von Modellen zum Erkennen feingranularer Konzepte zu testen und dabei deren aktuelle Grenzen in der abstrakten visuellen Reasoning aufzuzeigen.

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk2026-02-20🤖 cs.AI

Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model

Die Arbeit stellt das Point Linguist Model (PLM) vor, ein Framework, das durch die Einführung von objektspezifischen diskriminativen Repräsentationen und einem geometrischen Reaktivierungs-Decoder die Lücke zwischen großen Sprachmodellen und dichten 3D-Punktwolken schließt, um die Genauigkeit und Robustheit bei der 3D-Objektsegmentierung erheblich zu verbessern.

Zhuoxu Huang, Mingqi Gao, Jungong Han2026-02-20💻 cs

PyRadiomics-cuda: 3D features extraction from medical images for HPC using GPU acceleration

PyRadiomics-cuda ist eine GPU-beschleunigte Erweiterung der PyRadiomics-Bibliothek, die durch die Verlagerung geometrischer Berechnungen auf Grafikkarten die Extraktion dreidimensionaler Merkmale aus medizinischen Bildern für Hochleistungsrechner und Alltagsgeräte erheblich beschleunigt, dabei die volle API-Kompatibilität bewahrt und somit nahtlos in bestehende KI-Workflows integriert werden kann.

Jakub Lisowski, Piotr Tyrakowski, Szymon Zyguła + 1 more2026-02-20💻 cs

Inference-Time Search Using Side Information for Diffusion-Based Image Reconstruction

Diese Arbeit stellt einen trainingsfreien Plug-and-Play-Inferenzzeit-Suchalgorithmus vor, der Diffusionsmodelle für inverse Bildrekonstruktionsprobleme durch die Nutzung verschiedener Seiteninformationen wie Referenzbilder, Textbeschreibungen oder anatomische MRT-Scans verbessert.

Mahdi Farahbakhsh, Vishnu Teja Kunde, Dileep Kalathil + 2 more2026-02-20🤖 cs.AI

← Zurück Weiter →