cs.CV Arbeiten | Gist.Science

Top-Down Semantic Refinement for Image Captioning

Die Arbeit stellt Top-Down Semantic Refinement (TDSR) vor, einen effizienten, auf Monte-Carlo-Baumsuche basierenden Rahmen, der die Bildbeschreibung durch hierarchische, zielgerichtete Verfeinerung optimiert und so die Kohärenz und Detailgenauigkeit bestehender Vision-Language-Modelle erheblich verbessert, ohne deren Rechenkosten signifikant zu erhöhen.

Jusheng Zhang, Kaitong Cai, Jing Yang + 3 more2026-02-17🤖 cs.AI

Formal Reasoning About Confidence and Automated Verification of Neural Networks

Diese Arbeit stellt ein generalisiertes Framework vor, das durch die Einführung zusätzlicher Schichten in neuronale Netze eine einheitliche formale Verifikation von sowohl Robustheit als auch Konfidenz ermöglicht und dabei bestehende ad-hoc-Ansätze signifikant übertrifft.

Mohammad Afzal, S. Akshay, Blaise Genest + 1 more2026-02-17🤖 cs.AI

Algorithms Trained on Normal Chest X-rays Can Predict Health Insurance Types

Diese Studie zeigt, dass KI-Modelle, die auf normalen Röntgenbildern des Thorax trainiert wurden, die Art der Krankenversicherung – und damit sozioökonomische Ungleichheiten – mit signifikanter Genauigkeit vorhersagen können, was darauf hindeutet, dass medizinische Bilddaten keine neutralen biologischen Informationen sind, sondern subtile soziale Signaturen enthalten.

Chi-Yu Chen, Rawan Abulibdeh, Arash Asgari + 8 more2026-02-17🤖 cs.AI

MPCM-Net: Multi-scale network integrates partial attention convolution with Mamba for ground-based cloud image segmentation

Die vorgestellte Arbeit stellt MPCM-Net vor, ein Multi-Scale-Netzwerk, das partielle Aufmerksamkeits-Convolutionen mit Mamba-Architekturen kombiniert, um die Segmentierung bodengestützter Wolkenbilder für die Photovoltaik-Prognose zu verbessern, und stellt zudem den neuen CSRC-Datensatz als Benchmark zur Verfügung.

Penghui Niu, Jiashuai She, Taotao Cai + 4 more2026-02-17🤖 cs.LG

Procedural Mistake Detection via Action Effect Modeling

Der Artikel stellt Action Effect Modeling (AEM) vor, ein einheitliches Framework, das durch die gemeinsame Modellierung von Handlungsausführung und deren Ergebnis sowie die Nutzung von visuellen und symbolischen Hinweisen den Zustand-der-Kunst in der Erkennung von Verfahrensfehlern unter der einschränkenden One-Class-Klassifizierung auf den Benchmarks EgoPER und CaptainCook4D erreicht.

Wenliang Guo, Yujiang Pu, Yu Kong2026-02-17💻 cs

Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding

Die vorgestellte Arbeit stellt eine neuartige, semantisch geführte Zwei-Stage-GAN-Architektur mit hybrider perceptueller Kodierung vor, die durch die Kombination von CNNs und Vision Transformern sowie einen Multi-Modal-Texture-Generator hochqualitative Gesichtsrekonstruktionen auch bei großen, unregelmäßigen Masken ermöglicht und dabei die Identität sowie strukturelle Konsistenz verbessert.

Abhigyan Bhattacharya, Hiranmoy Roy, Debotosh Bhattacharjee2026-02-17💻 cs

Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing

Das Paper stellt Fourier-RWKV vor, ein effizientes Bildentnebelungsnetzwerk mit linearer Komplexität, das durch die Integration von räumlicher, frequenzbasierter und semantischer Wahrnehmung einen optimalen Kompromiss zwischen Restaurationsqualität und Recheneffizienz bietet.

Lirong Zheng, Yanshan Li, Rui Yu + 1 more2026-02-17💻 cs

Learning Patient-Specific Disease Dynamics with Latent Flow Matching for Longitudinal Imaging Generation

Das Paper stellt Δ-LFM vor, ein Framework, das mittels Latent Flow Matching patientenspezifische Krankheitsdynamiken modelliert, indem es durch latente Ausrichtung eine semantisch kohärente und monotone Darstellung des Krankheitsverlaufs in longitudinalen Bilddaten ermöglicht.

Hao Chen, Rui Yin, Yifan Chen + 2 more2026-02-17🤖 cs.AI

Geometry-to-Image Synthesis-Driven Generative Point Cloud Registration

Dieser Artikel stellt einen neuartigen Ansatz für die generative Punktwolken-Registrierung vor, der fortschrittliche 2D-Generativmodelle (DepthMatch-ControlNet und LiDARMatch-ControlNet) nutzt, um geometrisch konsistente und texturübergreifend abgestimmte Bildpaare zu synthetisieren, um so die Robustheit der 3D-Matching-Prozesse für Tiefenkamera- und LiDAR-Daten zu verbessern.

Haobo Jiang, Jin Xie, Jian Yang + 2 more2026-02-17💻 cs

ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

Diese Arbeit stellt den öffentlichen ALERT-Datensatz mit 10.220 IR-UWB-Radarmessungen vor und entwickelt den einstellungsgrößenagnostischen Vision Transformer (ISA-ViT), der durch eine innovative Dimensionierungsstrategie und Domänenfusion die Genauigkeit der Erkennung abgelenkten Fahrens um 22,68 % steigert.

Jeongjun Park, Sunwook Hwang, Hyeonho Noh + 3 more2026-02-17🤖 cs.AI

NeRV360: Neural Representation for 360-Degree Videos with a Viewport Decoder

Der Artikel stellt NeRV360 vor, ein End-to-End-Framework für die Kompression von 360-Grad-Videos, das durch die direkte Dekodierung nur des vom Nutzer ausgewählten Sichtfelds den Speicherverbrauch um das Siebenfache und die Dekodiergeschwindigkeit um das Zweieinhalbfache im Vergleich zu vorherigen Methoden verbessert.

Daichi Arai, Kyohei Unno, Yasuko Sugito + 1 more2026-02-17⚡ eess

X-ray Insights Unleashed: Pioneering the Enhancement of Multi-Label Long-Tail Data

Diese Arbeit stellt eine neuartige Daten-Synthesepipeline vor, die mithilfe eines auf Normalröntgenbildern trainierten Diffusionsmodells, einer Large-Language-Model-Knowledge-Guidance und einer progressiven inkrementellen Lernstrategie seltene Lungenanomalien in der Langschwanzverteilung synthetisch anreichert, um die diagnostische Genauigkeit bei Multi-Label-Daten zu verbessern.

Xinquan Yang, Jinheng Xie, Yawen Huang + 6 more2026-02-17💻 cs

SlimEdge: Performance and Device Aware Distributed DNN Deployment on Resource-Constrained Edge Hardware

Die Arbeit stellt „SlimEdge" vor, einen ressourcenbewussten Ansatz zur effizienten Verteilung von Deep-Learning-Modellen auf leistungsbegrenzten Edge-Geräten, der strukturiertes Pruning mit einer mehrzieloptimierten Strategie kombiniert, um trotz Geräteausfällen hohe Genauigkeit bei deutlich reduzierter Inferenzzeit zu gewährleisten.

Mahadev Sunil Kumar, Arnab Raha, Debayan Das + 3 more2026-02-17💻 cs

CliffordNet: All You Need is Geometric Algebra

Die Arbeit stellt CliffordNet vor, ein neuartiges Computer-Vision-Modell, das auf Geometrischer Algebra basiert und durch eine einheitliche Clifford-Produkt-Interaktion herkömmliche Module wie FFNs überflüssig macht, wodurch bei extrem geringer Parameteranzahl state-of-the-art Ergebnisse auf CIFAR-100 erzielt werden.

Zhongping Ji2026-02-17🤖 cs.LG

Semantic-Guided Dynamic Sparsification for Pre-Trained Model-based Class-Incremental Learning

Die Arbeit stellt SGDS vor, eine neuartige Methode für das klassenincrementelle Lernen, die durch semantisch geführte dynamische Sparsifizierung des Aktivierungsraums die Plastizität verbessert und Interferenzen zwischen Klassen vermeidet, ohne starre Parameterbeschränkungen aufzuerlegen.

Ruiqi Liu, Boyu Diao, Zijia An + 4 more2026-02-17💻 cs

Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment

Das Paper stellt Q-Hawkeye vor, einen RL-basierten Framework zur Bildqualitätsbewertung, der durch unsicherheitsbewusste dynamische Optimierung und wahrnehmungsbewusste Verlustfunktionen die Zuverlässigkeit von MLLMs verbessert und so den aktuellen State-of-the-Art-Methoden überlegen ist.

Wulin Xie, Rui Dai, Ruidong Ding + 4 more2026-02-17💻 cs

ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval via Web Search

Die Arbeit stellt ShotFinder vor, ein Benchmark und ein dreistufiges Retrieval-System, das auf der „Vorstellungskraft" von Sprachmodellen basiert, um offene Video-Suchanfragen mit komplexen zeitlichen und visuellen Einschränkungen zu bewältigen, wobei Experimente zeigen, dass aktuelle multimodale Modelle hier noch erhebliche Lücken zur menschlichen Leistung aufweisen.

Tao Yu, Haopeng Jin, Hao Wang + 18 more2026-02-17🤖 cs.AI

Deep learning Based Correction Algorithms for 3D Medical Reconstruction in Computed Tomography and Macroscopic Imaging

Diese Arbeit stellt einen hybriden Zwei-Stufen-Registrationsansatz vor, der eine globale geometrische Ausrichtung mit einer tiefenlernbasierten lokalen Verfeinerung kombiniert, um präzise und generalisierbare 3D-Rekonstruktionen von Nieren aus makroskopischen Schnittbildern trotz geringer Datenverfügbarkeit und starker Verzerrungen zu ermöglichen.

Tomasz Les, Tomasz Markiewicz, Malgorzata Lorent + 2 more2026-02-17⚡ eess

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Das Paper stellt 3DiMo vor, ein Verfahren zur 3D-bewussten, impliziten Bewegungssteuerung in der menschlichen Videogenerierung, das durch den Einsatz von view-agnostischen Motion-Tokens und einer schrittweise reduzierten geometrischen Supervision eine flexible Kameraführung bei hoher Bewegungs- und Bildqualität ermöglicht.

Zhixue Fang, Xu He, Songlin Tang + 5 more2026-02-17💻 cs

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Die Arbeit stellt SD-VLA vor, ein Framework, das durch die Entwirrung statischer und dynamischer visueller Token sowie die Wiederverwendung des KV-Caches die Effizienz von Vision-Language-Action-Modellen für langfristige Roboteraufgaben erheblich steigert und gleichzeitig die Inferenzgeschwindigkeit verdoppelt.

Weikang Qiu, Tinglin Huang, Rex Ying2026-02-17💻 cs

← Zurück Weiter →