cs.CV Arbeiten | Gist.Science

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Die Studie stellt EA-Swin vor, einen einbettungsagnostischen Swin-Transformer, der in Kombination mit dem neuen EA-Video-Datensatz die Erkennung von KI-generierten Videos durch überlegene Genauigkeit und Generalisierungsfähigkeit gegenüber bestehenden Methoden revolutioniert.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard ist ein dezentrales, graphenbewusstes Transformer-Framework, das durch die Kombination von dispersionsadaptivem Metrik-Lernen, räumlich konditionierter Aufmerksamkeit und differenziell privaten Einbettungen eine robuste und datenschutzkonforme Personenwiederverkennung über städtische Kameras hinweg ermöglicht.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

Das Paper stellt CARE vor, einen molekülgesteuerten Fundament-Modell-Ansatz für die Pathologie, der durch adaptive Regionen und eine zweistufige Vortrainingsstrategie die Heterogenität von Gewebestrukturen besser erfasst und dabei mit nur einem Zehntel der üblichen Datenmenge überlegene Ergebnisse auf zahlreichen Aufgaben erzielt.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Die Studie stellt MasqLoRA vor, einen ersten systematischen Angriffsrahmen, der es ermöglicht, Text-zu-Bild-Diffusionsmodelle durch das Einschleusen eines scheinbar harmlosen LoRA-Adapters mit einem versteckten Backdoor zu manipulieren, der bei einem spezifischen Triggerwort eine schädliche Ausgabe erzeugt, während das Modell im Normalfall unauffällig bleibt.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

Das Paper stellt RobustVisRAG vor, ein kausalitätsbasiertes Dual-Pfad-Framework, das die Robustheit von visuellen Retrieval-Augmented-Generation-Systemen gegenüber visuellen Verzerrungen durch die Entkopplung von semantischen Inhalten und Degradationssignalen signifikant verbessert.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Das Paper stellt LFG vor, ein label-freies, lehrergeführtes Framework, das aus unposeden Online-Driving-Videos eine einheitliche pseudo-4D-Repräsentation lernt und damit sowohl für die autonome Fahrplanung als auch für semantische und geometrische Aufgaben überlegene Ergebnisse erzielt.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

Die Arbeit stellt „Diffusion Probe" vor, einen effizienten, modellunabhängigen Ansatz, der mithilfe von CNN-Proben die Verteilung der Cross-Attention in frühen Diffusionsstufen nutzt, um die endgültige Bildqualität von Text-zu-Bild-Modellen präzise vorherzusagen und so Rechenkosten durch frühzeitige Entscheidungen zu senken.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Die Arbeit stellt DiffusionHarmonizer vor, ein Online-Framework, das mithilfe eines einzelnen, zeitlich konditionierten Diffusions-Enhancers und einer speziellen Datenaufbereitung neuartige Ansichten aus neuralen Rekonstruktionen in fotorealistische und zeitlich konsistente Simulationen umwandelt, um Artefakte zu beheben und dynamische Objekte realistisch zu integrieren.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Das Paper stellt UFO-4D vor, ein einheitliches Feedforward-Framework, das aus nur zwei unpositionierten Bildern eine dichte 4D-Rekonstruktion mittels dynamischer 3D-Gaussian-Splats erzeugt und dabei durch die differenzierbare Rendering-Synthese mehrerer Signale aus einer gemeinsamen geometrischen Darstellung eine überlegene Schätzung von Geometrie, Bewegung und Kameraposition ermöglicht.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Die Arbeit stellt Dr. Seg vor, ein plug-and-play-Framework für visuelle Großsprachenmodelle, das durch einen Look-to-Confirm-Mechanismus und ein rangbasiertes Belohnungssystem die Annahme widerlegt, dass reine Sprachtrainingsparadigmen nahtlos auf visuelle Wahrnehmungsaufgaben übertragbar sind, und so die Leistung in komplexen Szenarien signifikant verbessert.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Die Arbeit stellt AlignVAR vor, ein neuartiges visuelles autoregressives Framework für die Bildsuperauflösung, das durch die Einführung von Spatial Consistency Autoregression und Hierarchical Consistency Constraint globale Konsistenz sicherstellt und dabei sowohl die strukturelle Kohärenz als auch die Inferenzgeschwindigkeit im Vergleich zu bestehenden Diffusionsmodellen erheblich verbessert.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Die Arbeit stellt SOLACE vor, ein unüberwachtes Nachtrainierungsframework für Text-zu-Bild-Modelle, das durch die Nutzung eines intrinsischen Selbstvertrauenssignals als Belohnungssignal die Bildqualität verbessert, ohne externe Annotatoren oder Belohnungsmodelle zu benötigen.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Die Arbeit stellt Dr. Occ vor, ein Framework für die 3D-Besetzungsvorhersage aus Umgebungskameras, das durch eine tiefen- und regionsgeführte Architektur geometrische Ausrichtungsfehler und räumliche Klassenungleichgewichte überwindet und damit auf dem Occ3D-nuScenes-Benchmark signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Der Artikel stellt FreeAct vor, ein neuartiges Quantisierungsframework für Large Language Models, das durch die Einführung token-spezifischer Transformationen für Aktivierungen die starren Einschränkungen bestehender Methoden überwindet und so insbesondere bei Diffusions- und Multimodal-LLMs die Leistung signifikant verbessert.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Die Arbeit stellt Kiwi-Edit vor, ein neues State-of-the-Art-System für die videobasierte Bearbeitung, das durch eine skalierbare Datengenerierungspipeline, den daraus resultierenden großen Datensatz RefVIE und eine einheitliche Architektur mit lernbaren Abfragen die präzise Steuerung von Video-Edits mittels natürlicher Sprache und Referenzbildern erheblich verbessert.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Der Artikel stellt Track4World vor, ein effizientes, feedforward-Modell, das auf einer globalen 3D-Szenendarstellung basiert und eine dichte, weltzentrierte 3D-Verfolgung jedes Pixels in monokularen Videos ermöglicht, wodurch es bestehende Methoden in Bezug auf Genauigkeit und Skalierbarkeit übertrifft.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

Die Arbeit stellt PVT-GDLA vor, einen effizienten Decoder-basierten Transformer mit einem neuartigen gated differential linear attention-Mechanismus, der durch lineare Komplexität und verbesserte Randschärfung eine hochpräzise medizinische Bildsegmentierung auf verschiedenen Modalitäten ermöglicht.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

Der Artikel stellt MultiShadow vor, eine Methode, die einen vortrainierten Text-zu-Bild-Diffusionsmodell nutzt, um durch die Kombination von Bildmerkmalen und textbasierten Positionstokens realistische, geometrisch konsistente Schatten für mehrere gleichzeitig eingefügte Objekte in Bildkompositen zu generieren.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Das Paper stellt IoUCert vor, ein neuartiges formales Verifikationsframework, das erstmals die Robustheitsprüfung realer, ankerbasierter Objektdetektoren wie SSD und YOLO durch die Entwicklung einer präzisen Koordinatentransformation und einer optimierten Intervallgrenzenausbreitung für IoU-Berechnungen ermöglicht.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Die Autoren stellen einen unpaarigen Übersetzungsrahmen auf Basis des Neuralen Schrödinger-Brücken-Modells vor, der durch Diffusions-gestützte Verteilungsausrichtung und anatomische Regularisierung die Bildqualität von Ultra-Niederfeld-MRT-Aufnahmen (64 mT) verbessert, ohne dabei die anatomische Struktur zu verfälschen.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

← Zurück Weiter →