cs.CV Arbeiten | Gist.Science

Word-Anchored Temporal Forgery Localization

Die Arbeit stellt WAFL vor, einen neuartigen Ansatz zur zeitlichen Fälschungslokalisierung, der das Problem von einer kontinuierlichen Regression auf eine diskrete wortbasierte Binärklassifikation umstellt und dabei durch ein forensisches Merkmals-Neujustierungsmodul sowie einen artefaktzentrierten asymmetrischen Verlust eine überlegene Genauigkeit bei hoher Recheneffizienz erreicht.

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

Die Autoren stellen SSLA-Det vor, ein asynchrones lineares Aufmerksamkeitsmodell mit räumlich-sparser Zustandsaktualisierung, das bei der ereignisbasierten Objekterkennung sowohl einen neuen Maßstab in der Genauigkeit setzt als auch die Berechnung pro Ereignis im Vergleich zu bisherigen Methoden um mehr als das 20-Fache reduziert.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Die Arbeit stellt TaPD vor, ein einheitliches Framework für die Vorhersage von Trajektorien im autonomen Fahren, das durch progressive Wissensdistillation und eine temporäre Nachfüllung von fehlenden historischen Daten die Vorhersagegenauigkeit auch bei variablen und extrem kurzen Beobachtungszeiträumen signifikant verbessert.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

Der Artikel stellt DC-Merge vor, eine Methode zum Zusammenführen von Modellen, die durch den Ausgleich der Energieverteilung in Singulärwerten und die Projektion auf einen gemeinsamen orthogonalen Unterraum die Richtungskonsistenz zwischen einzelnen Aufgabenvektoren erhält und damit in Vision- und Vision-Sprache-Benchmarks state-of-the-art-Ergebnisse erzielt.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

Die Arbeit stellt HCF-RES vor, ein neuartiges multimodales Framework für die generalisierte 3D-Referenzsegmentierung, das durch hierarchische visuelle semantische Zerlegung und progressive mehrstufige Fusion von 2D- und 3D-Features state-of-the-art Ergebnisse auf den Datensätzen ScanRefer und Multi3DRefer erzielt.

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

Das Paper stellt NOVA vor, ein innovatives 3D-Multi-Object-Tracking-Verfahren für das autonome Fahren, das mithilfe von Large Language Models und autoregressiver Generierung offene Vokabulare nutzt, um die Identitätserhaltung über lange Sequenzen hinweg zu verbessern und dabei signifikante Fortschritte bei der Verfolgung unbekannter Objekttypen erzielt.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

Das Paper stellt GazeMoE vor, ein neuartiges Framework, das auf einem eingefrorenen Vision-Grundmodell und einem Mixture-of-Experts-Ansatz basiert, um durch adaptive Nutzung multimodaler Hinweise und spezieller Verlustfunktionen den Zustand der Technik bei der Schätzung von Blickzielen in Bildern zu verbessern.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

Die Arbeit stellt ODD-SEC vor, ein Echtzeit-Drohnerkennungssystem für bewegte Träger, das eine rotierende Event-Kamera mit einer neuartigen ereignisbasierten Bildrepräsentation und einem leichten neuronalen Netzwerk kombiniert, um unter schwierigen Bedingungen eine zuverlässige 360-Grad-Erkennung und präzise Peilung ohne Bewegungs compensation zu ermöglichen.

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Das Papier stellt HiPP-Prune vor, einen hierarchischen, präferenzbasierten strukturierten Pruning-Rahmen für Vision-Language-Modelle, der durch die Integration von visuellen Sensitivitätssignalen und eine Multi-Objektive-Optimierung mittels GRPO eine kontrollierbare Balance zwischen Aufgabenleistung, Halluzinationsrobustheit und Kompression ermöglicht.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

Die Arbeit stellt StrSR vor, ein neuartiges adversäres Ein-Schritt-Distillations-Framework mit spektraler und Trajektorien-Regulierung, das die Probleme von Trajektorien-Mismatch und periodischen Artefakten bei der Super-Resolution mit Diffusion-Transformern löst und damit den State-of-the-Art in der realen Bild-Super-Resolution erreicht.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Die Arbeit stellt mit OccNL das erste Benchmark für 3D-semantische Belegungsvorhersage unter verrauschten Labels vor und schlägt DPR-Occ vor, ein robustes Framework, das durch duale partielle Label-Logik die katastrophalen Auswirkungen von Rauschen in 3D-Voxelräumen überwindet und so die Zuverlässigkeit robotischer Wahrnehmung in dynamischen Umgebungen sicherstellt.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

Die Arbeit stellt ADiVA vor, einen generativen Ansatz für Zero-Shot-Learning, der durch die Modellierung von Attributverteilungen und eine visuelle geführte semantisch-visuelle Ausrichtung die Herausforderungen der Klassen-Instanz-Lücke und der Domänenlücke überwindet und damit den State-of-the-Art auf mehreren Benchmark-Datensätzen deutlich verbessert.

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

Die Arbeit stellt FlowMotion vor, ein trainingsfreies Framework, das durch die direkte Nutzung von latenten Vorhersagen flow-basierter T2V-Modelle und eine Geschwindigkeitsregularisierung eine effiziente und flexible Video-Bewegungsübertragung ermöglicht.

Zhen Wang, Youcan Xu, Jun Xiao, Long Chen2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Die vorgestellte Arbeit schlägt eine Methode zur Entfernung von Artefakten in 3D-CBCT-Bildern vor, die auf senkrechten score-basierten Diffusionsmodellen im Projektionsbereich basiert und durch die Kombination zweier 2D-Modelle die Konsistenz zwischen den einzelnen Projektionen verbessert.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Das Paper stellt DEX-AR vor, eine neue dynamische Erklärungsmethode für autoregressive Vision-Language-Modelle, die durch die Analyse von Aufmerksamkeitskarten auf Token- und Sequenzebene visuelle und linguistische Beiträge zur Entscheidungsfindung unterscheidet und damit die Interpretierbarkeit dieser komplexen Modelle verbessert.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

Die Arbeit stellt LTA (Latent Transfer Attack) vor, einen Transfer-Angriff, der Adversarial Examples durch Optimierung im latenten Raum eines vortrainierten Stable Diffusion-VAE erzeugt, wodurch robustere und visuell kohärentere Störungen entstehen als bei herkömmlichen Pixelraum-Methoden.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Die Arbeit stellt WMoE-CLIP vor, eine Methode zur Null-Shot-Anomalieerkennung, die durch die Kombination von wavelet-basierten Mehrfrequenzmerkmalen, variationalen Autoencodern für globale semantische Repräsentationen und einem semantikbewussten Mixture-of-Experts-Modell die Grenzen bestehender Ansätze überwindet und auf 14 industriellen sowie medizinischen Datensätzen eine hohe Wirksamkeit demonstriert.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

Die Arbeit stellt P-SLCR vor, eine neuartige unüberwachte Methode zur semantischen Segmentierung von Punktwolken, die durch prototypenbasiertes Struktur-Lernen und konsistentes Schlussfolgern eine hohe Leistung erzielt und auf dem S3DIS-Datensatz sogar klassische vollüberwachte Ansätze wie PointNet übertrifft.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Diese Studie zeigt, dass KI-generierte Pastiches zeitgenössischer Kunstwerke zwar farblich und texturähnlich sein können, jedoch in Bezug auf Komposition, Konzept und emotionale Tiefe oft als kontextlose Paraphrasen wahrgenommen werden, was die Notwendigkeit eines multidimensionalen Bewertungsansatzes unterstreicht.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Die Arbeit stellt WorldCache vor, ein Caching-Framework für Diffusions-basierte Weltmodelle, das durch kurvengeleitete, heterogene Token-Vorhersage und chaotisch priorisiertes adaptives Überspringen die Inferenzgeschwindigkeit um das 3,7-fache steigert, ohne dabei die Rollout-Qualität zu beeinträchtigen.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

← Zurück Weiter →