cs.CV Arbeiten | Gist.Science

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Die Arbeit stellt einen Decoupled Diffusion Transformer vor, der durch die Kombination von überwachtem Flow Matching für die globale Kohärenz und einem mode-suchenden Verteilungs-Matching für die lokale Realismusübertragung effizient hochqualitative Minuten-videos generiert und dabei die Lücke zwischen Bildqualität und Videolänge schließt.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

Das Paper stellt BSDM vor, ein neuartiges, nicht überwachtes Diffusionsmodell zur Hyperspektral-Anomalieerkennung, das durch das Lernen latenter Hintergrundverteilungen und einen statistischen Offset-Modul komplexe Hintergründe unterdrückt und eine hohe Generalisierungsfähigkeit auf verschiedene Datensätze ohne manuelle Label ermöglicht.

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

Die Arbeit stellt StableMaterials vor, eine neuartige Methode zur Erzeugung fotorealistischer PBR-Materialien mittels halbüberwachtem Lernen und Latent Diffusion Models, die durch adversäres Training, einen Diffusions-Refiner und eine Latent-Consistency-Modell-Destillation eine hohe Vielfalt, Qualität und schnelle Generierung ohne starke Abhängigkeit von annotierten Daten ermöglicht.

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

Die Arbeit stellt SGIFormer vor, einen neuartigen Transformer-basierten Ansatz für die 3D-Instanzsegmentierung, der durch eine semantisch geführte Abfrageinitialisierung und einen geometrie-gestärkten verschachtelten Decoder sowohl die Genauigkeit als auch die Effizienz bei der Verarbeitung großer 3D-Szenen verbessert und dabei neue State-of-the-Art-Ergebnisse auf mehreren Benchmark-Datensätzen erzielt.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

Die vorgestellte Arbeit führt eine parametereffiziente Methode zur Open-Set-Erkennung von Deepfakes vor, die auf einem Vision-Transformer mit leichtgewichtigen Modulen und einer Mischung von Fälschungsstilen basiert, um die Generalisierungsfähigkeit auf unbekannte Domänen bei minimalem Rechenaufwand zu verbessern.

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

Die Arbeit stellt einen clusterbasierten generativen Rahmen vor, der auf einem Gaußschen Mischmodell und einem VAE aufbaut, um aus einem einzigen Beispiel robuste, abstrahierte Prototypen für visuelle Konzepte zu erzeugen und damit sowohl Klassifikations- als auch Generierungsaufgaben im Sinne des Omniglot-Challenges mit geringer Komplexität und ohne Vorwissen zu lösen.

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats

Die Arbeit stellt SplatSDF vor, eine neuartige SDF-NeRF-Architektur, die durch eine direkte architektonische Fusion mit 3D-Gaussian-Splats die Konvergenzgeschwindigkeit im Vergleich zu bestehenden Methoden verdreifacht und gleichzeitig eine präzise geometrische Repräsentation für den Einsatz in praktischen Robotersystemen ermöglicht.

Runfa Blark Li, Keito Suzuki, Bang Du + 3 more2026-02-27💻 cs

Distractor-free Generalizable 3D Gaussian Splatting

Das Paper stellt DGGS vor, ein neuartiges Framework für generalisierbares 3D-Gaussian-Splatting, das durch eine referenzbasierte Maskenprädiktion und einen zweistufigen Inferenzprozess Störungen in neuen Szenen effektiv eliminiert und dabei sowohl die Trainingsstabilität als auch die Rekonstruktionsqualität verbessert.

Yanqi Bao, Jing Liao, Jing Huo + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Die Arbeit stellt einen Rahmen vor, der Open-Vocabulary-Objektdetektionsmodelle durch die Einführung von OWEL und MSCAL in die Lage versetzt, unbekannte Objekte in Open-World-Szenarien zu identifizieren und inkrementell zu lernen, wodurch die Zuverlässigkeit in kritischen Anwendungen wie der autonomen Fahrzeugwahrnehmung verbessert wird.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

Die vorgestellte Methode nutzt einen vortrainierten Text-zu-Video-Diffusionsmodell mit SDS-Verlust, ergänzt durch eine Länge-Bereich-Regularisierung für zeitliche Konsistenz und einen ARAP-Verlust zur Wahrung der Starrheit, um handgezeichnete Skizzen basierend auf Textprompts realistisch und topologieerhaltend zu animieren.

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs

PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting

Das Paper stellt PPT vor, ein einfaches und skalierbares Vortrainierungsframework für die Bewegungsprognose autonomer Fahrzeuge, das automatisch generierte Pseudo-Trajektorien nutzt, um robuste Repräsentationen zu erlernen und die Generalisierungsfähigkeit insbesondere bei geringen Datenmengen und in domänenübergreifenden Szenarien zu verbessern.

Yihong Xu, Yuan Yin, Éloi Zablocki + 3 more2026-02-27💻 cs

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

Die Arbeit stellt IV-tuning vor, eine parameter-effiziente Transferlernmethode, die vortrainierte visuelle Modelle durch das Einfrieren der meisten Parameter nutzt, um die Generalisierungsfähigkeit und Skalierbarkeit bei Infrarot-Sicht-Aufgaben erheblich zu verbessern und dabei mit nur 3% trainierbaren Parametern den aktuellen Stand der Technik zu übertreffen.

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

Die Arbeit stellt MomentMix, eine Augmentierungsmethode zur Steigerung der Merkmalsvielfalt bei kurzen Videomomenten, und einen Längen-bewussten Decoder vor, die gemeinsam mit einem DETR-basierten Modell die Genauigkeit der Moment-Retrieval-Aufgabe, insbesondere bei kurzen Zeitabschnitten, signifikant verbessern und neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks erzielen.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Das Paper stellt JOSH vor, eine neuartige optimierungsbasierte Methode zur gemeinsamen Rekonstruktion von menschlicher Bewegung und Umgebung aus monokularen Videos, die durch die Nutzung von Kontaktbeschränkungen zwischen Mensch und Szene sowohl die Genauigkeit der globalen Bewegungsabschätzung als auch der dichten Szenenrekonstruktion verbessert, sowie JOSH3R, ein effizientes, trainiertes Modell, das mit von JOSH generierten Pseudo-Labels über andere optimierungsfreie Methoden hinausgeht.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

Diffusion or Non-Diffusion Adversarial Defenses: Rethinking the Relation between Classifier and Adversarial Purifier

Die Studie zeigt, dass nicht-diffusionsbasierte adversäre Bereinigungsmodelle in praktischen Szenarien eine vergleichbare Robustheit erreichen und durch überlegene Transferierbarkeit sowie Farbgenealisierung sogar State-of-the-Art-Ergebnisse auf ImageNet erzielen können, ohne zusätzliche Trainingsdaten zu benötigen.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation

Die Arbeit stellt Dual-IPO vor, ein iteratives Optimierungsverfahren, das durch die wechselseitige Verbesserung eines mit CoT-Argumentation und Selbstkonsistenz ausgestatteten Belohnungsmodells sowie eines Text-zu-Video-Generierungsmodells die Qualität und die Ausrichtung an menschlichen Präferenzen ohne manuelle Annotationen signifikant steigert.

Xiaomeng Yang, Mengping Yang, Jia Gong + 3 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

Die Arbeit stellt RelaCtrl vor, ein relevanzgesteuertes Framework für Diffusion Transformer, das durch die layer-spezifische Anpassung von Kontrollschichten und den Einsatz eines Two-Dimensional Shuffle Mixers die Effizienz und Ressourcennutzung bei der kontrollierten Bild- und Videogenerierung erheblich verbessert, ohne die Qualität zu beeinträchtigen.

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

Die Arbeit stellt U-F $^2$ -CBM vor, eine neue Methode, die beliebige eingefrorene visuelle Klassifikatoren ohne CLIP, ohne manuelle Bild-Konzept-Labels und ohne überwachtes Training in interpretierbare Concept Bottleneck Models umwandelt und dabei den aktuellen State-of-the-Art übertrifft.

Fawaz Sammani, Jonas Fischer, Nikos Deligiannis2026-02-27💻 cs

UniFuture: A 4D Driving World Model for Future Generation and Perception

Das Papier stellt UniFuture vor, ein einheitliches 4D-Fahrweltmodell, das durch einen Dual-Latent-Sharing-Ansatz und Multi-Scale-Latent-Interaction-Mechanismen zukünftige RGB-Bilder und Tiefenkarten gemeinsam generiert, um so eine geometrisch konsistente und visuell hochwertige Simulation dynamischer Fahrzeugszenen zu ermöglichen.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs

GmNet: Revisiting Gating Mechanisms From A Frequency View

Die Arbeit führt eine frequenzbasierte Analyse von Gate-Mechanismen durch und stellt darauf aufbauend GmNet vor, ein leichtgewichtiges Modell, das durch die Minimierung von Verzerrungen bei niedrigen Frequenzen sowohl effizient als auch effektiv für Bildklassifizierungsaufgaben ist.

Yifan Wang, Xu Ma, Yitian Zhang + 5 more2026-02-27💻 cs

← Zurück Weiter →