cs.CV Arbeiten | Gist.Science

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Die Arbeit stellt das ORIC-Framework vor, das die Erkennungsleistung von Large Vision-Language-Modellen bei kontextueller Inkongruität untersucht, einen entsprechenden Benchmark erstellt und durch gezieltes Fine-Tuning die Zuverlässigkeit dieser Modelle in atypischen Szenarien verbessert.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Die Autoren stellen ein neuartiges, ereignisbasiertes Visual-Teach-and-Repeat-System vor, das durch Frequenzbereich-Kreuzkorrelation eine Latenz von nur 2,88 ms erreicht und damit autonome Roboternavigation über 3000 Meter bei Tag und Nacht mit einer Spurabweichung unter 15 cm ermöglicht.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Die Studie zeigt, dass aktuelle Video-LLM-Benchmarks das Hören vernachlässigen, und demonstriert, dass die Integration von Sprach- und Audio-Encodern die Leistung bei sprachbasierten Aufgaben signifikant verbessert, während visuell zentrierte Benchmarks kaum beeinflusst werden.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Das Paper stellt QuantVGGT vor, ein bahnbrechendes Post-Training-Quantisierungsframework für Visual Geometry Grounded Transformers, das durch eine dual geglättete Feinquantisierung und rauschgefiltertes, vielfältiges Sampling die Herausforderungen schwerer Verteilungen und instabiler Kalibrierung bei Milliarden-modellen löst und dabei eine 3,7-fache Speicherreduktion bei über 98 % der ursprünglichen Genauigkeit ermöglicht.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Die Arbeit stellt den Motion-Aware Transformer (MATR) vor, ein End-to-End-Modell für das Multi-Object-Tracking, das durch die explizite Vorhersage von Objektbewegungen zur Aktualisierung von Track-Queries Kollisionen reduziert und damit auf mehreren Benchmark-Datensätzen neue State-of-the-Art-Ergebnisse erzielt.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Die Arbeit stellt GS-2M vor, einen materialbewussten Optimierungsrahmen auf Basis von 3D-Gaussian-Splatting, der durch eine neuartige Rauheitsüberwachung und das gemeinsame Optimieren von geometrischen Attributen hochfidele, dreieckige Mesh-Rekonstruktionen selbst bei stark reflektierenden Oberflächen ermöglicht, ohne dabei auf komplexe neuronale Komponenten angewiesen zu sein.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Die Arbeit stellt FAMDA vor, einen effizienten Framework für die unsupervised Domain Adaptation bei Multi-Task-Dichtvorhersage, der Vision Foundation Models als Lehrer nutzt, um robuste und ressourcenschonende Schülermodelle für robotische Anwendungen zu trainieren.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Das Paper stellt QuantSparse vor, ein einheitliches Framework, das Modellquantisierung und Aufmerksamkeitsverdünnung durch Multi-Scale Salient Attention Distillation und Second-Order Sparse Attention Reparameterization kombiniert, um Video-Diffusionstransformer bei gleichzeitiger drastischer Reduktion von Speicherbedarf und Inferenzzeit ohne signifikante Qualitätsverluste zu komprimieren.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Das Paper stellt DualFlow vor, ein einheitliches und effizientes Framework, das auf rectified flow basiert und durch den Einsatz von Retrieval-Augmented Generation sowie speziellen Verlustfunktionen erstmals hochwertige, multimodale Zwei-Personen-Bewegungen erzeugt, die interaktiv, reaktiv und semantisch präzise auf Text-, Musik- und Bewegungsdaten reagieren.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Die Arbeit stellt PHASE-Net vor, ein physikbasiertes, leichtgewichtiges rPPG-Modell, das durch die Integration von Navier-Stokes-Equations, einem Zero-FLOPs Axial Swapper, einem adaptiven räumlichen Filter und einem gated TCN eine robuste und effiziente berührungslose Herzfrequenzmessung unter schwierigen Bedingungen ermöglicht.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Die Studie stellt LMOD+ vor, ein umfassendes multimodales Datenset und Benchmark mit über 32.000 annotierten Fällen für 12 ophthalmologische Erkrankungen, das zur Entwicklung und systematischen Evaluierung multimodaler großer Sprachmodelle in der Augenheilkunde dient, um deren Potenzial und Grenzen bei Aufgaben wie Krankheitsdiagnose und Stadieneinteilung aufzuzeigen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Die Arbeit stellt REVEL, eine neue Aufgabe für die interaktive Drag-Manipulation von Videos, und DragStream, eine trainingsfreie Methode zur Vermeidung von Latent-Drift und Kontextstörungen in autoregressiven Videodiffusionsmodellen, vor.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Die Arbeit stellt AR-Drag vor, das erste RL-gestützte autoregressive Video-Diffusionsmodell mit nur 1,3 Milliarden Parametern, das durch einen Self-Rollout-Mechanismus und eine Trajektorien-basierte Belohnungsfunktion Echtzeit-Bild-zu-Video-Generierung mit präziser Bewegungssteuerung und hoher visueller Qualität ermöglicht.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Diese systematische Übersichtsarbeit fasst den aktuellen Stand der unsupervised deep generative models zur anormale Detektion in der Neurobildgebung zusammen, hebt ihr Potenzial für die pathologieunabhängige Lokalisierung von Anomalien hervor, identifiziert jedoch methodische Heterogenität und mangelnde externe Validierung als wesentliche Herausforderungen.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Diese Arbeit stellt ein neuartiges Framework namens Collision-based Multi-modal Rehearsal (CMR) vor, das durch gezielte Stichprobenselektion und kollisionsbasierte Wiederholung das Problem der Modalitätsverschränkung beim kontinuierlichen Audio-Visuellen Segmentieren löst und dabei semantische Drift sowie Verwechslungen bei häufig gemeinsam auftretenden Klassen effektiv adressiert.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Das Paper stellt Dream4Drive vor, ein neues Framework zur Erzeugung synthetischer, fotorealistischer Mehransichtsvideos mittels 3D-Assets und Weltmodellen, das speziell darauf ausgelegt ist, die Leistung von Wahrnehmungsmodellen im autonomen Fahren, insbesondere bei seltenen Randfällen, signifikant zu verbessern.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

Die Arbeit stellt MoE-GS vor, ein neuartiges Framework für die dynamische 3D-Gaussian-Splatting-Rekonstruktion, das durch einen volumenbewussten Pixel-Router mehrere spezialisierte Experten kombiniert, um die Qualität der Novel-View-Synthese zu verbessern und gleichzeitig durch Pruning sowie Destillationstechniken die Effizienz zu steigern.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

Die Arbeit stellt AnyPcc vor, ein universelles Framework zur Komprimierung von Punktwolken, das durch ein robustes universelles Kontextmodell und eine instanzadaptive Feinabstimmung (IAFT) die Generalisierungsfähigkeit über verschiedene Datensätze hinweg verbessert und dabei einen neuen State-of-the-Art bei gleichzeitig geringer Komplexität erreicht.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Diese Arbeit stellt ein automatisiertes System zur Zählung von Schädlingen in Wasserfallen vor, das durch einen robotergesteuerten Rührmechanismus mit adaptiver Geschwindigkeit und optimierten Rührmustern die durch Überlappungen verursachten Zählfehler signifikant reduziert und gleichzeitig die Effizienz im Vergleich zu herkömmlichen statischen Bildanalysen steigert.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

← Zurück Weiter →