cs.CV Arbeiten | Gist.Science

ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

Die Arbeit stellt ViT-Linearizer vor, ein Framework zur Wissensdistillation, das die komplexen Repräsentationen von Vision-Transformern in effiziente, lineare rekurrente Modelle überträgt und dabei sowohl die Inferenzgeschwindigkeit bei hohen Auflösungen erheblich steigert als auch die Leistung von Mamba-Architekturen auf Standard-Benchmarks wie ImageNet signifikant verbessert.

Guoyizhe Wei, Rama Chellappa2026-02-27🤖 cs.AI

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

Das Paper stellt LAMM-ViT, einen Vision Transformer mit regionsgeführter Aufmerksamkeit und schichtspezifischer Maskenmodulation, vor, der durch die Erkennung fundamentaler struktureller Inkonsistenzen in Gesichtern die Generalisierungsfähigkeit bei der Detektion von KI-generierten Fälschungen im Vergleich zum aktuellen Stand der Technik signifikant verbessert.

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs

Reflectance Prediction-based Knowledge Distillation for Robust 3D Object Detection in Compressed Point Clouds

Diese Arbeit stellt einen 3D-Objektdetektionsrahmen vor, der durch reflektionsbasierte Wissensdistillation und eine geometrische Reflektionsvorhersage die Robustheit und Genauigkeit der Objekterkennung in komprimierten Punktwolken bei reduzierter Datenübertragung verbessert.

Hao Jing, Anhong Wang, Yifan Zhang + 2 more2026-02-27💻 cs

Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation

Das Paper stellt BriGeS vor, eine effiziente Methode zur generalisierten monokularen Tiefenschätzung, die durch einen neuartigen Bridging Gate und Attention Temperature Scaling die Stärken geometrischer und semantischer Foundation-Modelle fusioniert, um komplexe Szenen präzise zu erfassen und dabei den Trainingsaufwand zu minimieren.

Sanggyun Ma, Wonjoon Choi, Jihun Park + 4 more2026-02-27💻 cs

Sparse Imagination for Efficient Visual World Model Planning

Der Artikel stellt „Sparse Imagination" vor, eine effiziente Planungsmethode für visuelle Weltmodelle, die durch eine spärliche Token-Verarbeitung und einen randomisierten Gruppen-Aufmerksamkeitsmechanismus die Rechenkosten in ressourcenbeschränkten Robotik-Szenarien drastisch senkt, ohne die Kontrollgenauigkeit zu beeinträchtigen.

Junha Chun, Youngjoon Jeong, Taesup Kim2026-02-27🤖 cs.AI

LinGuinE: Longitudinal Guidance Estimation for Volumetric Tumour Segmentation

Das Paper stellt LinGuinE vor, ein PyTorch-Framework, das Bildregistrierung und geführte Segmentierung kombiniert, um aus einem einzigen radiologischen Prompt präzise longitudinale Tumorverläufe und Volumensegmentierungen über mehrere Zeitpunkte hinweg zu erzeugen, ohne dass dafür spezifische Trainingsdaten erforderlich sind.

Nadine Garibli, Mayank Patwari, Bence Csiba + 2 more2026-02-27⚡ eess

Human-Guided Shade Artifact Suppression in CBCT-to-MDCT Translation via Schrödinger Bridge with Conditional Diffusion

Die vorgestellte Arbeit präsentiert ein effizientes Framework zur Übersetzung von CBCT- in MDCT-Bilder mittels eines Schrödinger-Brücken-Ansatzes mit bedingter Diffusion, das menschliches Feedback integriert, um Schattenartefakte gezielt zu unterdrücken und gleichzeitig die anatomische Genauigkeit zu erhalten.

Sung Ho Kang, Hyun-Cheol Park2026-02-27💻 cs

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

Diese Arbeit schlägt eine auf Austauschbarkeit statt Unabhängigkeit basierende Methode vor, um durch die Kontrolle von Vordergrund-Hintergrund-Unterschieden in allen Netzwerkschichten die Verteilungsverschiebungen beim Zusammenführen heterogener medizinischer Bilddatensätze zu bewältigen und so die Segmentierungsleistung bei Datenknappheit zu verbessern.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

LayerT2V: A Unified Multi-Layer Video Generation Framework

Das Paper stellt LayerT2V vor, ein einheitliches Framework für die Text-zu-Video-Generierung, das erstmals in einem einzigen Inferenzschritt semantisch konsistente, bearbeitbare Videoebenen (Hintergrund, Vordergrund und Alpha-Masken) erzeugt, indem es die Kompression moderner Backbones nutzt und durch das neue VidLayer-Dataset sowie spezielle Architekturmodifikationen trainiert wird.

Guangzhao Li, Kangrui Cen, Baixuan Zhao + 5 more2026-02-27🤖 cs.AI

RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

Das Papier stellt RAP vor, ein Echtzeit-Framework für audiogetriebene Porträtanimation, das mittels eines hybriden Aufmerksamkeitsmechanismus und eines statisch-dynamischen Trainingsparadigmas hochwertige, synchronisierte sprechende Gesichter aus einem einzigen Referenzbild und Audiosignal erzeugt, ohne explizite Bewegungssupervision zu benötigen.

Fangyu Du, Taiqing Li, Qian Qiao + 7 more2026-02-27⚡ eess

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

Die Arbeit stellt MixCache vor, ein trainingsfreies Framework für Video-DiT-Modelle, das durch eine kontextbewusste Auslösung und eine adaptive hybride Granularitätsstrategie die Inferenzgeschwindigkeit signifikant steigert, ohne dabei die Generierungsqualität zu beeinträchtigen.

Yuanxin Wei, Lansong Diao, Bujiao Chen + 6 more2026-02-27🤖 cs.LG

Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

Die Arbeit stellt Dyslexify vor, eine trainingsfreie Verteidigungsmethode, die durch gezielte Ablation spezifischer Aufmerksamkeitsköpfe im CLIP-Modell typografische Angriffe wirksam abwehrt, ohne dabei die allgemeine Bilderkennungsleistung signifikant zu beeinträchtigen.

Lorenz Hufe, Constantin Venhoff, Erblina Purelku + 3 more2026-02-27🤖 cs.AI

Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

Diese Arbeit stellt eine neuartige, bildorientierte selbstadaptive Methode zur Konstruktion von Datensätzen für reale multimodale Sicherheitsszenarien vor, die einen standardisierten 35.000-Paar-Datensatz sowie eine einheitliche Evaluierungsmetrik für die Sicherheit multimodaler Sprachmodelle bereitstellt.

Jingen Qu, Lijun Li, Bo Zhang + 2 more2026-02-27💬 cs.CL

Loc $^2$ : Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching

Die Arbeit stellt Loc $^2$ vor, eine interpretierbare und präzise Methode zur grob-feinen Cross-View-Lokalisierung, die die 3-DoF-Pose eines Bodenaufnahmeschusses durch das direkte Matching lokaler Merkmale mit einem Luftbild, deren Tiefenhebung und skalenbewusste Procrustes-Alignment schätzt, ohne auf globale Deskriptoren oder Pixel-Annotationen angewiesen zu sein.

Zimin Xia, Chenghao Xu, Alexandre Alahi2026-02-27💻 cs

ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

Die Arbeit stellt ST-GS vor, ein neuartiges Framework zur 3D-Semantischen Okkupationsvorhersage, das durch eine leitlinienbasierte räumliche Aggregation und eine geometriebewusste zeitliche Fusion die räumliche Interaktion und zeitliche Konsistenz in visionbasierten autonomen Fahrszenen verbessert und dabei State-of-the-Art-Ergebnisse auf dem nuScenes-Benchmark erzielt.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-02-27💻 cs

Visual Instruction Pretraining for Domain-Specific Foundation Models

Die Arbeit stellt ViTP (Visual Instruction Pretraining) vor, einen neuen Ansatz, der durch die Einbettung eines Vision Transformers in ein Vision-Language-Modell und die Anwendung von Visual Robustness Learning (VRL) auf domänenspezifische Instruktionsdaten die Wahrnehmung durch logisches Schlussfolgern verbessert und damit auf 16 Benchmarks im Bereich der Fernerkundung und medizinischen Bildgebung neue State-of-the-Art-Ergebnisse erzielt.

Yuxuan Li, Yicheng Zhang, Wenhao Tang + 4 more2026-02-27💻 cs

PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

Das Papier stellt PartSAM vor, das erste promptbare Modell für die 3D-Teilesegmentierung, das durch eine native Triplane-Architektur und eine neuartige Annotation auf über fünf Millionen 3D-Formen erstmals überlegene, taxonomiefreie Ergebnisse sowohl für Oberflächen- als auch für innere Strukturen erzielt.

Zhe Zhu, Le Wan, Rui Xu + 6 more2026-02-27💻 cs

Secure and reversible face anonymization with diffusion models

Diese Arbeit stellt ein diffusion-basiertes Framework für sichere und reversible Gesichtsanonymisierung vor, das durch die direkte Einbettung eines geheimen Schlüssels in den Diffusionsprozess eine autorisierte Identitätswiederherstellung ermöglicht, während unbefugte De-Anonymisierung verhindert wird.

Pol Labarbarie, Vincent Itier, William Puech2026-02-27🤖 cs.LG

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

Die Autoren stellen ein neues asynchrones Diffusionsmodell vor, das durch die dynamische Zuweisung unterschiedlicher Timesteps zu einzelnen Pixeln den Kontext für prompt-bezogene Regionen verbessert und so die Ausrichtung von Text-zu-Bild-Generierungen signifikant erhöht.

Zijing Hu, Yunze Tong, Fengda Zhang + 3 more2026-02-27💻 cs

Detection and Measurement of Hailstones with Multimodal Large Language Models

Diese Studie zeigt, dass vortrainierte multimodale Large Language Models ohne Feinabstimmung soziale Medienbilder nutzen können, um Hagelkörner zuverlässig zu detektieren und deren Durchmesser mit einer durchschnittlichen Abweichung von nur 1,12 cm zu messen, wodurch sie traditionelle Sensoren bei der schnellen Bewertung von Unwettern ergänzen.

Moritz Alker, David C. Schedl, Andreas Stöckl2026-02-27🤖 cs.AI

← Zurück Weiter →

cs.CV