cs.CV Arbeiten | Gist.Science

DL $^3$ M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Die Studie stellt DL $^3$ M vor, ein Framework, das die hochpräzise Bildklassifizierung durch ein hybrides MobileCoAtNet-Modell mit der Textgenerierung von Large Language Models verbindet, um klinische Erklärungen zu erstellen, und zeigt dabei, dass trotz verbesserter Erklärungsqualität die aktuellen LLMs aufgrund fehlender Stabilität noch nicht für hochriskante medizinische Entscheidungen geeignet sind.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

Die Arbeit stellt FALCON-SFOD vor, ein Framework, das durch die Nutzung von Foundation-Model-Priors zur Regularisierung des Merkmalsraums und eine ausbalancierte Rauschrobustheit bei Pseudo-Labels die Objektivierung in der quellenfreien Objekterkennung unter Domänenverschiebungen verbessert.

Sairam VCR, Rishabh Lalla, Aveen Dayal + 4 more2026-02-24💻 cs

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Die Arbeit stellt REVEALER vor, ein auf verstärktem visuellem Reasoning basierendes Framework, das Multimodal Large Language Models durch eine strukturierte „Grounding-Reasoning-Conclusion"-Paradigma und GRPO-Optimierung befähigt, die Ausrichtung zwischen Text und Bild auf Elementebene präzise und interpretierbar zu bewerten.

Fulin Shi, Wenyi Xiao, Bin Chen + 2 more2026-02-24💻 cs

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

Die Arbeit stellt Object-WIPER vor, ein trainingsfreies Framework, das dynamische Objekte und deren visuelle Effekte aus Videos entfernt und durch semantisch konsistente, zeitlich kohärente Inhalte ersetzt, indem es einen vortrainierten Text-zu-Video-Diffusions-Transformer nutzt und durch ein neues Evaluationsmaß sowie einen zugehörigen Benchmark validiert wird.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

Das Paper stellt LookBench vor, ein lebendiges und ganzheitliches Open-Benchmark für die Fashion-Image-Retrieval in Echtzeit-E-Commerce-Umgebungen, das aktuelle Produktbilder und KI-generierte Mode umfasst, um Modelle durch zeitstempelierte, kontaminationsbewusste Evaluierung und anspruchsvolle Aufgaben zu testen.

Gensmo. ai, Chao Gao, Siqiao Xue + 5 more2026-02-24💻 cs

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

PyraTok ist ein neuartiger, sprachausgerichteter pyramidalisierter Tokenizer, der durch das Lernen semantisch strukturierter diskreter Latente über mehrere räumlich-zeitliche Auflösungen hinweg die Leistung von Video-VAEs bei Rekonstruktion, Text-zu-Video-Generierung und Zero-Shot-Verständnisaufgaben signifikant verbessert.

Onkar Susladkar, Tushar Prakash, Adheesh Juvekar + 4 more2026-02-24🤖 cs.AI

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Die Autoren stellen Emotion-LLaMAv2 und den MMEVerse-Benchmark vor, ein neues Framework mit einem End-to-End-Multiview-Encoder, einem Conv-Attention-Fusionsmodul und einem Curriculum-Instruction-Tuning, das auf einer neu annotierten Datensammlung von 130.000 Clips basiert, um die multimodale Emotionserkennung und -analyse zu verbessern.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Die Arbeit stellt FineVAU vor, ein neues Benchmark für das feingranulare Verständnis von Videoanomalien, das den Mangel an menschenähnlichen Evaluierungsmetriken durch die Einführung des FVScore-Maßstabs und des FineW3-Datensatzes adressiert und dabei kritische Grenzen aktueller Large Vision-Language-Modelle bei der räumlichen und zeitlichen Erfassung von Anomalien aufdeckt.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

Die Arbeit stellt RepSFNet vor, eine leichte, auf struktureller Reparametrisierung basierende Single-Fusion-Architektur für das Crowd Counting, die durch den Einsatz eines RepLK-ViT-Rückgrats und einer effizienten Kontextmodellierung eine hohe Genauigkeit bei gleichzeitig reduzierter Latenz für Echtzeitanwendungen auf Edge-Geräten erreicht.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Die Arbeit stellt DyMo vor, ein neuartiges Framework zur Inferenzzeit-dynamischen Modalauswahl, das das Dilemma zwischen dem Verwerfen unvollständiger multimodaler Daten und dem Einfügen von Rauschen durch Imputation löst, indem es eine theoretisch fundierte, verlustbasierte Proxy-Metrik nutzt, um zuverlässig rekonstruierte Modalitäten adaptiv zu identifizieren und zu integrieren.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection

Die vorgestellte Arbeit stellt CMAFNet vor, ein Cross-Modal-Netzwerk, das durch einen Purifizierungs- und Fusionsansatz RGB- und Tiefendaten integriert, um die Erkennung kleiner Defekte in Übertragungsleitungen unter schwierigen Bedingungen signifikant zu verbessern.

Jiaming Cui, Wenqiang Li, Shuai Zhou + 2 more2026-02-24🤖 cs.AI

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Diese Studie stellt ein hybrides Registrierungs- und Segmentierungsframework zur schwach überwachten Tumoranalyse vor, das jedoch zeigt, dass die Übertragung von Labels zwischen Modalitäten zwar für sichtbare Strukturen funktioniert, aber bei der Segmentierung von in der Zielmodalität (CT) unsichtbaren Tumoren aufgrund fehlender diskriminierender Merkmale an ihre Grenzen stößt.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Diese Arbeit stellt das LUMIR25-Verfahren vor, das durch den Einsatz von Registrierungsspezifischen Induktionsverzerrungen, MIND-basierten Verlustfunktionen, Intensitätsrandomisierung und instanzspezifischer Optimierung eine führende Null-Shot-Registerung von Gehirn-MRT-Bildern über verschiedene Kontraste hinweg ermöglicht, ohne auf explizite Bildsynthese angewiesen zu sein.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Die Arbeit stellt ViewRope vor, eine geometriebewusste rotierende Positionseingebung, die Kamerablickrichtungen direkt in Video-Transformer integriert, um die räumliche Konsistenz und Langzeitstabilität von Weltmodellen bei expliziter Kamerasteuerung zu verbessern und gleichzeitig die Rechenkosten durch eine neue geometriebewusste, frame-sparse Aufmerksamkeitsmechanik zu senken.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Das Paper stellt Agent Banana vor, ein hierarchisches Agenten-Framework mit Kontext-Faltung und Bildschicht-Zerlegung, das professionelle, mehrstufige Bildbearbeitung in nativer 4K-Auflösung ermöglicht und durch die HDD-Bench-Evaluierung überlegene Konsistenz und Hintergrundtreue demonstriert.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu + 10 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Diese Studie stellt eine energieeffiziente, auf Frame-Difference basierende Objekterkennungsmethode für IoT-Edge-Geräte vor, die im Vergleich zu End-to-End-Ansätzen eine signifikant höhere Genauigkeit, geringere Latenz und einen besseren Wirkungsgrad bei der Erkennung schnell bewegter Objekte wie Züge und Flugzeuge bietet.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Tele-Omni ist ein einheitliches multimodales Framework, das vortrainierte Large Language Models zur Interpretation heterogener Eingaben (Text, Bilder, Referenzvideos) mit Diffusionsgeneratoren kombiniert, um diverse Videoerstellungs- und Bearbeitungsaufgaben in einem einzigen Modell flexibel und konsistent zu bewältigen.

Jialun Liu, Tian Li, Xiao Cao + 20 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

Die Arbeit stellt Time2General vor, ein Framework für die domänengeneralisierte Video-Semantiksegmentierung, das mithilfe eines räumlich-zeitlichen Speicher-Decoders und eines maskierten zeitlichen Konsistenzverlusts stabile Vorhersagen über verschiedene Domänen und Abtastraten hinweg ermöglicht, ohne auf explizite Korrespondenzpropagation angewiesen zu sein.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Das Paper stellt SAGE vor, ein skalierbares, agentenbasiertes Framework, das durch iterative Selbstverfeinerung realistische und physikalisch valide 3D-Umgebungen für das Training von Embodied-AI-Richtlinien generiert, um die Abhängigkeit von kostspieligen realen Datenerfassungen zu überwinden.

Hongchi Xia, Xuan Li, Zhaoshuo Li + 9 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Dieser Beitrag stellt Lösungen für die CXR-LT 2026-Herausforderung vor, die durch eine imbalance-aware Multi-Label-Strategie für langschwanzige Verteilungen und einen überwachungslosen Ansatz für Zero-Shot-Erkennung seltener Befunde in der Thorax-Röntgenbildklassifizierung die Überwachungsdatenknappheit adressiert und dabei den ersten Platz in der öffentlichen Rangliste erreicht.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs

← Zurück Weiter →

cs.CV

DL3^33M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models