cs.CV Arbeiten | Gist.Science

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

Das Paper stellt Waffle vor, eine neue Feinabstimmungsmethode für multimodale Modelle, die durch eine strukturaware Aufmerksamkeitsmechanik und kontrastives Lernen die Umwandlung von UI-Designs in funktionale HTML-Codes verbessert und dabei bestehende Benchmarks signifikant übertrifft.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

Das Paper stellt RealOSR vor, ein diffusion-basiertes Framework für die Super-Resolution von omnidirektionalen Bildern in realen Szenarien, das durch den neuartigen Latent Gradient Alignment Routing (LaGAR)-Mechanismus eine effiziente einstufige Inferenz mit über 200-facher Beschleunigung und verbesserter Bildqualität ermöglicht.

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

Das Paper stellt Slot-BERT vor, ein bidirektionales, selbstüberwachtes Modell, das durch eine neue kontrastive Verlustfunktion und latente Objektdarstellungen eine robuste, redundanzarme Entdeckung von Objekten in langen chirurgischen Videos ermöglicht und dabei sowohl zeitliche Kohärenz als auch Recheneffizienz verbessert.

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

Diese Arbeit stellt einen bahnbrechenden, architekturunabhängigen Rahmen vor, der mithilfe eines Graph-Meta-Netzwerks und eines kontrastiven Lernziels NeRFs unterschiedlicher Architekturen (einschließlich MLPs, Tri-Planes und Hash-Tabellen) in einen gemeinsamen latenten Raum überführt, um robuste Inferenz und Aufgaben wie Klassifizierung, Retrieval und Sprachverarbeitung auch für beim Training nicht gesehene Architekturen zu ermöglichen.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Diese Arbeit stellt einen neuartigen, vollständig unüberwachten Ansatz für das Multi-Graph-Matching vor, der durch zyklische Konsistenz und Bayes-Optimierung erstmals einen Atlas aller Zellkerne des Fadenwurms C. elegans ohne manuelle Annotation erstellt und dabei die Genauigkeit überwachter Methoden erreicht.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

Diese Studie stellt eine rechen-effiziente, modellunabhängige GAN-basierte Ein-Stufen-Verteidigungsstrategie vor, die die Genauigkeit von Verkehrsschilderklassifikatoren unter adversarialen Patch-Angriffen signifikant verbessert und somit die Sicherheit autonomer Fahrzeuge erhöht.

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

Die Arbeit stellt LaGoVAD vor, einen sprachgesteuerten Video-Anomalie-Detektor, der unter schwacher Aufsicht dynamisch auf variable Anomalie-Definitionen in offenen Welten reagiert, und ergänzt dies um den umfassenden PreVAD-Datensatz mit semantischen Beschreibungen, um Zero-Shot-Tests auf mehreren Datensätzen mit State-of-the-Art-Ergebnissen zu ermöglichen.

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

Die Arbeit stellt SwD vor, ein skalierbares Destillationsframework für Diffusionsmodelle, das durch eine progressive Generierung und ein neuartiges MMD-basiertes Patch-Lernziel die Sampling-Effizienz erheblich steigert und dabei die Qualität bei wenigen Schritten verbessert.

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

Diese Arbeit stellt den ersten umfassenden Rahmen für differenziell private 2D-Human-Pose-Schätzung vor, der durch die Kombination von Projected DP-SGD und Feature Differential Privacy die Privatsphäre garantiert und gleichzeitig die Genauigkeit im Vergleich zu herkömmlichen Methoden signifikant verbessert.

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Die Arbeit stellt ANSE vor, ein modellbewusstes Framework, das durch die Quantifizierung von Aufmerksamkeits-unsicherheit mittels der BANSA-Akquisitionsfunktion hochwertige Start-Rauschmuster für Video-Diffusionsmodelle auswählt und so die Qualität sowie zeitliche Kohärenz der generierten Videos verbessert.

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

Die Arbeit stellt SABER vor, ein Framework zur Erzeugung universeller, nicht-invasiver und räumlich konsistenter 3D-Adversarial-Objekte, die durch eine verdeckungsawaree und BEV-features-basierte Optimierung die Anfälligkeit von 3D-Objektdetektoren für autonomes Fahren aufdecken und eine praktikable Methode zur Robustheitsbewertung bieten.

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

Diese Arbeit stellt die Interaction Field Matching (IFM)-Methode vor, eine Verallgemeinerung des elektrostatischen Field Matching, die durch die Einführung eines speziellen Wechselwirkungsfelds die Modellierungsschwierigkeiten elektrostatischer Felder überwindet und sich für Aufgaben der Datengenerierung und -übertragung eignet.

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Die Studie stellt HSSBench vor, ein umfassendes Benchmark mit über 13.000 mehrsprachigen Proben, das die Fähigkeiten multimodaler Sprachmodelle in den Geistes- und Sozialwissenschaften bewertet und dabei eine neuartige, von Experten und KI-Agenten gemeinsam entwickelte Datenpipeline nutzt, um die Lücke in der Bewertung interdisziplinären Denkens zu schließen.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Das Paper stellt "Frame Guidance" vor, eine trainingsfreie Methode, die durch eine speichereffiziente latente Verarbeitung und eine neue Optimierungsstrategie eine präzise Frame-Level-Steuerung (z. B. mittels Schlüsselbildern oder Skizzen) in Video-Diffusionsmodellen ermöglicht, ohne dass ein aufwendiges Fine-Tuning erforderlich ist.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Das Paper stellt Perception-R1 vor, eine Methode, die durch einen neuartigen visuellen Wahrnehmungsbelohnung im Rahmen des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die multimodale Wahrnehmung und Schlussfolgerungsfähigkeit von Large Multimodal Models (MLLMs) verbessert und dabei mit nur 1.442 Trainingsdaten state-of-the-art Ergebnisse auf mehreren Benchmarks erzielt.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

StreamSplat ist ein vollständig feed-forward Framework, das unkalibrierte Videostreams beliebiger Länge online und in Echtzeit in dynamische 3D-Gaussian-Splatting-Repräsentationen umwandelt und dabei durch probabilistische Sampling-Mechanismen, ein bidirektionales Deformationsfeld sowie adaptive Fusion eine bisher unerreichte Geschwindigkeit und Rekonstruktionsqualität ohne Optimierungsschritte erreicht.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Das Paper stellt ECAD vor, einen evolutionären Algorithmus, der durch das Lernen effizienter Caching-Zeitpläne ohne Modifikation der Modellparameter die Inferenzgeschwindigkeit von Diffusionsmodellen signifikant steigert und dabei eine flexible Steuerung des Qualitäts-Latenz-Verhältnisses ermöglicht.

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

Diese Arbeit untersucht, wie synthetische Bilder, die von Text-zu-Bild-Modellen generiert werden, als visuelle Priors dienen können, um das textbasierte Schlussfolgern zu verbessern, und zeigt, dass dieser Ansatz die Leistung von Sprachmodellen signifikant steigern kann, sofern eine starke semantische Ausrichtung und hohe Generierungsqualität gewährleistet sind.

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

Der Artikel stellt SceneStreamer vor, ein einheitliches autoregressives Framework, das realistische und interaktive Verkehrsszenarien für das Training autonomer Fahrsysteme durch die schrittweise Vorhersage von Token-Gruppen generiert und dabei dynamische, langfristige Szenarien mit sich entwickelnden Agentenpopulationen ermöglicht.

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs

Navigating with Annealing Guidance Scale in Diffusion Space

Die vorgestellte Arbeit stellt einen neuartigen, speicher- und aktivierungsfreien Annealing-Guidance-Scheduler vor, der die Guidance-Skala in Diffusionsmodellen dynamisch anpasst, um die Bildqualität und die Textübereinstimmung im Vergleich zur herkömmlichen Classifier-Free Guidance signifikant zu verbessern.

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI

← Zurück Weiter →