cs.CV Arbeiten | Gist.Science

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

Die Arbeit stellt SGIFormer vor, einen neuartigen Transformer-basierten Ansatz für die 3D-Instanzsegmentierung, der durch eine semantisch geführte Abfrageinitialisierung und einen geometrie-gestärkten verschachtelten Decoder sowohl die Genauigkeit als auch die Effizienz bei der Verarbeitung großer 3D-Szenen verbessert und dabei neue State-of-the-Art-Ergebnisse auf mehreren Benchmark-Datensätzen erzielt.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

Die vorgestellte Arbeit führt eine parametereffiziente Methode zur Open-Set-Erkennung von Deepfakes vor, die auf einem Vision-Transformer mit leichtgewichtigen Modulen und einer Mischung von Fälschungsstilen basiert, um die Generalisierungsfähigkeit auf unbekannte Domänen bei minimalem Rechenaufwand zu verbessern.

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

Die Arbeit stellt einen clusterbasierten generativen Rahmen vor, der auf einem Gaußschen Mischmodell und einem VAE aufbaut, um aus einem einzigen Beispiel robuste, abstrahierte Prototypen für visuelle Konzepte zu erzeugen und damit sowohl Klassifikations- als auch Generierungsaufgaben im Sinne des Omniglot-Challenges mit geringer Komplexität und ohne Vorwissen zu lösen.

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats

Die Arbeit stellt SplatSDF vor, eine neuartige SDF-NeRF-Architektur, die durch eine direkte architektonische Fusion mit 3D-Gaussian-Splats die Konvergenzgeschwindigkeit im Vergleich zu bestehenden Methoden verdreifacht und gleichzeitig eine präzise geometrische Repräsentation für den Einsatz in praktischen Robotersystemen ermöglicht.

Runfa Blark Li, Keito Suzuki, Bang Du + 3 more2026-02-27💻 cs

Distractor-free Generalizable 3D Gaussian Splatting

Das Paper stellt DGGS vor, ein neuartiges Framework für generalisierbares 3D-Gaussian-Splatting, das durch eine referenzbasierte Maskenprädiktion und einen zweistufigen Inferenzprozess Störungen in neuen Szenen effektiv eliminiert und dabei sowohl die Trainingsstabilität als auch die Rekonstruktionsqualität verbessert.

Yanqi Bao, Jing Liao, Jing Huo + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Die Arbeit stellt einen Rahmen vor, der Open-Vocabulary-Objektdetektionsmodelle durch die Einführung von OWEL und MSCAL in die Lage versetzt, unbekannte Objekte in Open-World-Szenarien zu identifizieren und inkrementell zu lernen, wodurch die Zuverlässigkeit in kritischen Anwendungen wie der autonomen Fahrzeugwahrnehmung verbessert wird.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

Die vorgestellte Methode nutzt einen vortrainierten Text-zu-Video-Diffusionsmodell mit SDS-Verlust, ergänzt durch eine Länge-Bereich-Regularisierung für zeitliche Konsistenz und einen ARAP-Verlust zur Wahrung der Starrheit, um handgezeichnete Skizzen basierend auf Textprompts realistisch und topologieerhaltend zu animieren.

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs

PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting

Das Paper stellt PPT vor, ein einfaches und skalierbares Vortrainierungsframework für die Bewegungsprognose autonomer Fahrzeuge, das automatisch generierte Pseudo-Trajektorien nutzt, um robuste Repräsentationen zu erlernen und die Generalisierungsfähigkeit insbesondere bei geringen Datenmengen und in domänenübergreifenden Szenarien zu verbessern.

Yihong Xu, Yuan Yin, Éloi Zablocki + 3 more2026-02-27💻 cs

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

Die Arbeit stellt IV-tuning vor, eine parameter-effiziente Transferlernmethode, die vortrainierte visuelle Modelle durch das Einfrieren der meisten Parameter nutzt, um die Generalisierungsfähigkeit und Skalierbarkeit bei Infrarot-Sicht-Aufgaben erheblich zu verbessern und dabei mit nur 3% trainierbaren Parametern den aktuellen Stand der Technik zu übertreffen.

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

Die Arbeit stellt MomentMix, eine Augmentierungsmethode zur Steigerung der Merkmalsvielfalt bei kurzen Videomomenten, und einen Längen-bewussten Decoder vor, die gemeinsam mit einem DETR-basierten Modell die Genauigkeit der Moment-Retrieval-Aufgabe, insbesondere bei kurzen Zeitabschnitten, signifikant verbessern und neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks erzielen.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Das Paper stellt JOSH vor, eine neuartige optimierungsbasierte Methode zur gemeinsamen Rekonstruktion von menschlicher Bewegung und Umgebung aus monokularen Videos, die durch die Nutzung von Kontaktbeschränkungen zwischen Mensch und Szene sowohl die Genauigkeit der globalen Bewegungsabschätzung als auch der dichten Szenenrekonstruktion verbessert, sowie JOSH3R, ein effizientes, trainiertes Modell, das mit von JOSH generierten Pseudo-Labels über andere optimierungsfreie Methoden hinausgeht.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

Diffusion or Non-Diffusion Adversarial Defenses: Rethinking the Relation between Classifier and Adversarial Purifier

Die Studie zeigt, dass nicht-diffusionsbasierte adversäre Bereinigungsmodelle in praktischen Szenarien eine vergleichbare Robustheit erreichen und durch überlegene Transferierbarkeit sowie Farbgenealisierung sogar State-of-the-Art-Ergebnisse auf ImageNet erzielen können, ohne zusätzliche Trainingsdaten zu benötigen.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation

Die Arbeit stellt Dual-IPO vor, ein iteratives Optimierungsverfahren, das durch die wechselseitige Verbesserung eines mit CoT-Argumentation und Selbstkonsistenz ausgestatteten Belohnungsmodells sowie eines Text-zu-Video-Generierungsmodells die Qualität und die Ausrichtung an menschlichen Präferenzen ohne manuelle Annotationen signifikant steigert.

Xiaomeng Yang, Mengping Yang, Jia Gong + 3 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

Die Arbeit stellt RelaCtrl vor, ein relevanzgesteuertes Framework für Diffusion Transformer, das durch die layer-spezifische Anpassung von Kontrollschichten und den Einsatz eines Two-Dimensional Shuffle Mixers die Effizienz und Ressourcennutzung bei der kontrollierten Bild- und Videogenerierung erheblich verbessert, ohne die Qualität zu beeinträchtigen.

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

Die Arbeit stellt U-F $^2$ -CBM vor, eine neue Methode, die beliebige eingefrorene visuelle Klassifikatoren ohne CLIP, ohne manuelle Bild-Konzept-Labels und ohne überwachtes Training in interpretierbare Concept Bottleneck Models umwandelt und dabei den aktuellen State-of-the-Art übertrifft.

Fawaz Sammani, Jonas Fischer, Nikos Deligiannis2026-02-27💻 cs

UniFuture: A 4D Driving World Model for Future Generation and Perception

Das Papier stellt UniFuture vor, ein einheitliches 4D-Fahrweltmodell, das durch einen Dual-Latent-Sharing-Ansatz und Multi-Scale-Latent-Interaction-Mechanismen zukünftige RGB-Bilder und Tiefenkarten gemeinsam generiert, um so eine geometrisch konsistente und visuell hochwertige Simulation dynamischer Fahrzeugszenen zu ermöglichen.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs

GmNet: Revisiting Gating Mechanisms From A Frequency View

Die Arbeit führt eine frequenzbasierte Analyse von Gate-Mechanismen durch und stellt darauf aufbauend GmNet vor, ein leichtgewichtiges Modell, das durch die Minimierung von Verzerrungen bei niedrigen Frequenzen sowohl effizient als auch effektiv für Bildklassifizierungsaufgaben ist.

Yifan Wang, Xu Ma, Yitian Zhang + 5 more2026-02-27💻 cs

ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

Die Arbeit stellt ViT-Linearizer vor, ein Framework zur Wissensdistillation, das die komplexen Repräsentationen von Vision-Transformern in effiziente, lineare rekurrente Modelle überträgt und dabei sowohl die Inferenzgeschwindigkeit bei hohen Auflösungen erheblich steigert als auch die Leistung von Mamba-Architekturen auf Standard-Benchmarks wie ImageNet signifikant verbessert.

Guoyizhe Wei, Rama Chellappa2026-02-27🤖 cs.AI

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

Das Paper stellt LAMM-ViT, einen Vision Transformer mit regionsgeführter Aufmerksamkeit und schichtspezifischer Maskenmodulation, vor, der durch die Erkennung fundamentaler struktureller Inkonsistenzen in Gesichtern die Generalisierungsfähigkeit bei der Detektion von KI-generierten Fälschungen im Vergleich zum aktuellen Stand der Technik signifikant verbessert.

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs

Reflectance Prediction-based Knowledge Distillation for Robust 3D Object Detection in Compressed Point Clouds

Diese Arbeit stellt einen 3D-Objektdetektionsrahmen vor, der durch reflektionsbasierte Wissensdistillation und eine geometrische Reflektionsvorhersage die Robustheit und Genauigkeit der Objekterkennung in komprimierten Punktwolken bei reduzierter Datenübertragung verbessert.

Hao Jing, Anhong Wang, Yifan Zhang + 2 more2026-02-27💻 cs

← Zurück Weiter →