cs.CV Arbeiten | Gist.Science

Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing

Das Paper stellt Fourier-RWKV vor, ein effizientes Bildentnebelungsnetzwerk mit linearer Komplexität, das durch die Integration von räumlicher, frequenzbasierter und semantischer Wahrnehmung einen optimalen Kompromiss zwischen Restaurationsqualität und Recheneffizienz bietet.

Lirong Zheng, Yanshan Li, Rui Yu + 1 more2026-02-17💻 cs

Learning Patient-Specific Disease Dynamics with Latent Flow Matching for Longitudinal Imaging Generation

Das Paper stellt Δ-LFM vor, ein Framework, das mittels Latent Flow Matching patientenspezifische Krankheitsdynamiken modelliert, indem es durch latente Ausrichtung eine semantisch kohärente und monotone Darstellung des Krankheitsverlaufs in longitudinalen Bilddaten ermöglicht.

Hao Chen, Rui Yin, Yifan Chen + 2 more2026-02-17🤖 cs.AI

Geometry-to-Image Synthesis-Driven Generative Point Cloud Registration

Dieser Artikel stellt einen neuartigen Ansatz für die generative Punktwolken-Registrierung vor, der fortschrittliche 2D-Generativmodelle (DepthMatch-ControlNet und LiDARMatch-ControlNet) nutzt, um geometrisch konsistente und texturübergreifend abgestimmte Bildpaare zu synthetisieren, um so die Robustheit der 3D-Matching-Prozesse für Tiefenkamera- und LiDAR-Daten zu verbessern.

Haobo Jiang, Jin Xie, Jian Yang + 2 more2026-02-17💻 cs

ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

Diese Arbeit stellt den öffentlichen ALERT-Datensatz mit 10.220 IR-UWB-Radarmessungen vor und entwickelt den einstellungsgrößenagnostischen Vision Transformer (ISA-ViT), der durch eine innovative Dimensionierungsstrategie und Domänenfusion die Genauigkeit der Erkennung abgelenkten Fahrens um 22,68 % steigert.

Jeongjun Park, Sunwook Hwang, Hyeonho Noh + 3 more2026-02-17🤖 cs.AI

NeRV360: Neural Representation for 360-Degree Videos with a Viewport Decoder

Der Artikel stellt NeRV360 vor, ein End-to-End-Framework für die Kompression von 360-Grad-Videos, das durch die direkte Dekodierung nur des vom Nutzer ausgewählten Sichtfelds den Speicherverbrauch um das Siebenfache und die Dekodiergeschwindigkeit um das Zweieinhalbfache im Vergleich zu vorherigen Methoden verbessert.

Daichi Arai, Kyohei Unno, Yasuko Sugito + 1 more2026-02-17⚡ eess

X-ray Insights Unleashed: Pioneering the Enhancement of Multi-Label Long-Tail Data

Diese Arbeit stellt eine neuartige Daten-Synthesepipeline vor, die mithilfe eines auf Normalröntgenbildern trainierten Diffusionsmodells, einer Large-Language-Model-Knowledge-Guidance und einer progressiven inkrementellen Lernstrategie seltene Lungenanomalien in der Langschwanzverteilung synthetisch anreichert, um die diagnostische Genauigkeit bei Multi-Label-Daten zu verbessern.

Xinquan Yang, Jinheng Xie, Yawen Huang + 6 more2026-02-17💻 cs

SlimEdge: Performance and Device Aware Distributed DNN Deployment on Resource-Constrained Edge Hardware

Die Arbeit stellt „SlimEdge" vor, einen ressourcenbewussten Ansatz zur effizienten Verteilung von Deep-Learning-Modellen auf leistungsbegrenzten Edge-Geräten, der strukturiertes Pruning mit einer mehrzieloptimierten Strategie kombiniert, um trotz Geräteausfällen hohe Genauigkeit bei deutlich reduzierter Inferenzzeit zu gewährleisten.

Mahadev Sunil Kumar, Arnab Raha, Debayan Das + 3 more2026-02-17💻 cs

CliffordNet: All You Need is Geometric Algebra

Die Arbeit stellt CliffordNet vor, ein neuartiges Computer-Vision-Modell, das auf Geometrischer Algebra basiert und durch eine einheitliche Clifford-Produkt-Interaktion herkömmliche Module wie FFNs überflüssig macht, wodurch bei extrem geringer Parameteranzahl state-of-the-art Ergebnisse auf CIFAR-100 erzielt werden.

Zhongping Ji2026-02-17🤖 cs.LG

Semantic-Guided Dynamic Sparsification for Pre-Trained Model-based Class-Incremental Learning

Die Arbeit stellt SGDS vor, eine neuartige Methode für das klassenincrementelle Lernen, die durch semantisch geführte dynamische Sparsifizierung des Aktivierungsraums die Plastizität verbessert und Interferenzen zwischen Klassen vermeidet, ohne starre Parameterbeschränkungen aufzuerlegen.

Ruiqi Liu, Boyu Diao, Zijia An + 4 more2026-02-17💻 cs

Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment

Das Paper stellt Q-Hawkeye vor, einen RL-basierten Framework zur Bildqualitätsbewertung, der durch unsicherheitsbewusste dynamische Optimierung und wahrnehmungsbewusste Verlustfunktionen die Zuverlässigkeit von MLLMs verbessert und so den aktuellen State-of-the-Art-Methoden überlegen ist.

Wulin Xie, Rui Dai, Ruidong Ding + 4 more2026-02-17💻 cs

ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval via Web Search

Die Arbeit stellt ShotFinder vor, ein Benchmark und ein dreistufiges Retrieval-System, das auf der „Vorstellungskraft" von Sprachmodellen basiert, um offene Video-Suchanfragen mit komplexen zeitlichen und visuellen Einschränkungen zu bewältigen, wobei Experimente zeigen, dass aktuelle multimodale Modelle hier noch erhebliche Lücken zur menschlichen Leistung aufweisen.

Tao Yu, Haopeng Jin, Hao Wang + 18 more2026-02-17🤖 cs.AI

Deep learning Based Correction Algorithms for 3D Medical Reconstruction in Computed Tomography and Macroscopic Imaging

Diese Arbeit stellt einen hybriden Zwei-Stufen-Registrationsansatz vor, der eine globale geometrische Ausrichtung mit einer tiefenlernbasierten lokalen Verfeinerung kombiniert, um präzise und generalisierbare 3D-Rekonstruktionen von Nieren aus makroskopischen Schnittbildern trotz geringer Datenverfügbarkeit und starker Verzerrungen zu ermöglichen.

Tomasz Les, Tomasz Markiewicz, Malgorzata Lorent + 2 more2026-02-17⚡ eess

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Das Paper stellt 3DiMo vor, ein Verfahren zur 3D-bewussten, impliziten Bewegungssteuerung in der menschlichen Videogenerierung, das durch den Einsatz von view-agnostischen Motion-Tokens und einer schrittweise reduzierten geometrischen Supervision eine flexible Kameraführung bei hoher Bewegungs- und Bildqualität ermöglicht.

Zhixue Fang, Xu He, Songlin Tang + 5 more2026-02-17💻 cs

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Die Arbeit stellt SD-VLA vor, ein Framework, das durch die Entwirrung statischer und dynamischer visueller Token sowie die Wiederverwendung des KV-Caches die Effizienz von Vision-Language-Action-Modellen für langfristige Roboteraufgaben erheblich steigert und gleichzeitig die Inferenzgeschwindigkeit verdoppelt.

Weikang Qiu, Tinglin Huang, Rex Ying2026-02-17💻 cs

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Das Paper stellt OmniVideo-R1 vor, ein neuartiges verstärktes Framework, das durch query-intensives Grounding und modality-attentive Fusion die audio-visuelle Reasoning-Fähigkeit von Omnivideo-Modellen signifikant verbessert und dabei in umfangreichen Experimenten starke Baselines übertrifft.

Zhangquan Chen, Jiale Tao, Ruihuang Li + 10 more2026-02-17🤖 cs.AI

Unsupervised MR-US Multimodal Image Registration with Multilevel Correlation Pyramidal Optimization

Die vorgestellte Arbeit stellt eine unüberwachte Methode zur multimodalen Bildregistrierung (MCPO) vor, die mithilfe eines multilevel-Korrelationspyramiden-Optimierungsansatzes Herausforderungen bei der chirurgischen Navigation löst und in den ReMIND2Reg-Wettbewerben von Learn2Reg 2025 sowie auf dem Resect-Datensatz Spitzenleistungen erzielt.

Jiazheng Wang, Zeyu Liu, Min Liu + 4 more2026-02-17💻 cs

Designing Multi-Robot Ground Video Sensemaking with Public Safety Professionals

In Zusammenarbeit mit sechs Polizeibehörden entwickelten die Autoren ein Testfeld und das Tool MRVS, um die praktische Integration von Multi-Robot-Videos in den öffentlichen Sicherheitsbereich zu untersuchen, wobei die Teilnehmer zwar eine Entlastung durch KI-gestützte Erklärungen feststellten, aber auch Bedenken hinsichtlich Fehlalarmen und Datenschutz äußerten.

Puqi Zhou, Ali Asgarov, Aafiya Hussain + 9 more2026-02-17💻 cs

Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

Stroke3D ist ein neuartiges Framework, das mithilfe von latenten Diffusionsmodellen und einem zweistufigen Prozess aus 2D-Strokes und Textprompts direkt riggierbare 3D-Meshes mit kontrollierter Skelettstruktur generiert.

Ruisi Zhao, Haoren Zheng, Zongxin Yang + 2 more2026-02-17💻 cs

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Die Arbeit stellt VLA-JEPA vor, ein neues Vorabtrainierungs-Framework für Vision-Language-Action-Modelle, das durch die Vorhersage von Zustandsänderungen im latenten Raum anstatt auf Pixelebene Robustheit gegenüber visuellen Störungen erreicht und so die Generalisierungsfähigkeit in Robotermanipulationsaufgaben verbessert.

Jingwen Sun, Wenyao Zhang, Zekun Qi + 6 more2026-02-17💻 cs

C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning

Die Arbeit stellt C²RoPE vor, eine verbesserte rotary position embedding-Methode für 3D-Large-Multimodal-Modelle, die durch die Integration räumlich-zeitlicher Koordinaten und eine Chebyshev-basierte kausale Maskierung die räumliche Kontinuität und die langfristige Aufmerksamkeit bei der Verarbeitung visueller Daten erhält.

Guanting Ye, Qiyan Zhao, Wenhao Yu + 4 more2026-02-17🤖 cs.AI

← Zurück Weiter →