cs.CV Arbeiten | Gist.Science

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Die Arbeit stellt DyMo vor, ein neuartiges Framework zur Inferenzzeit-dynamischen Modalauswahl, das das Dilemma zwischen dem Verwerfen unvollständiger multimodaler Daten und dem Einfügen von Rauschen durch Imputation löst, indem es eine theoretisch fundierte, verlustbasierte Proxy-Metrik nutzt, um zuverlässig rekonstruierte Modalitäten adaptiv zu identifizieren und zu integrieren.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection

Die vorgestellte Arbeit stellt CMAFNet vor, ein Cross-Modal-Netzwerk, das durch einen Purifizierungs- und Fusionsansatz RGB- und Tiefendaten integriert, um die Erkennung kleiner Defekte in Übertragungsleitungen unter schwierigen Bedingungen signifikant zu verbessern.

Jiaming Cui, Wenqiang Li, Shuai Zhou + 2 more2026-02-24🤖 cs.AI

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Diese Studie stellt ein hybrides Registrierungs- und Segmentierungsframework zur schwach überwachten Tumoranalyse vor, das jedoch zeigt, dass die Übertragung von Labels zwischen Modalitäten zwar für sichtbare Strukturen funktioniert, aber bei der Segmentierung von in der Zielmodalität (CT) unsichtbaren Tumoren aufgrund fehlender diskriminierender Merkmale an ihre Grenzen stößt.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Diese Arbeit stellt das LUMIR25-Verfahren vor, das durch den Einsatz von Registrierungsspezifischen Induktionsverzerrungen, MIND-basierten Verlustfunktionen, Intensitätsrandomisierung und instanzspezifischer Optimierung eine führende Null-Shot-Registerung von Gehirn-MRT-Bildern über verschiedene Kontraste hinweg ermöglicht, ohne auf explizite Bildsynthese angewiesen zu sein.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Die Arbeit stellt ViewRope vor, eine geometriebewusste rotierende Positionseingebung, die Kamerablickrichtungen direkt in Video-Transformer integriert, um die räumliche Konsistenz und Langzeitstabilität von Weltmodellen bei expliziter Kamerasteuerung zu verbessern und gleichzeitig die Rechenkosten durch eine neue geometriebewusste, frame-sparse Aufmerksamkeitsmechanik zu senken.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Das Paper stellt Agent Banana vor, ein hierarchisches Agenten-Framework mit Kontext-Faltung und Bildschicht-Zerlegung, das professionelle, mehrstufige Bildbearbeitung in nativer 4K-Auflösung ermöglicht und durch die HDD-Bench-Evaluierung überlegene Konsistenz und Hintergrundtreue demonstriert.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu + 10 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Diese Studie stellt eine energieeffiziente, auf Frame-Difference basierende Objekterkennungsmethode für IoT-Edge-Geräte vor, die im Vergleich zu End-to-End-Ansätzen eine signifikant höhere Genauigkeit, geringere Latenz und einen besseren Wirkungsgrad bei der Erkennung schnell bewegter Objekte wie Züge und Flugzeuge bietet.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Tele-Omni ist ein einheitliches multimodales Framework, das vortrainierte Large Language Models zur Interpretation heterogener Eingaben (Text, Bilder, Referenzvideos) mit Diffusionsgeneratoren kombiniert, um diverse Videoerstellungs- und Bearbeitungsaufgaben in einem einzigen Modell flexibel und konsistent zu bewältigen.

Jialun Liu, Tian Li, Xiao Cao + 20 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

Die Arbeit stellt Time2General vor, ein Framework für die domänengeneralisierte Video-Semantiksegmentierung, das mithilfe eines räumlich-zeitlichen Speicher-Decoders und eines maskierten zeitlichen Konsistenzverlusts stabile Vorhersagen über verschiedene Domänen und Abtastraten hinweg ermöglicht, ohne auf explizite Korrespondenzpropagation angewiesen zu sein.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Das Paper stellt SAGE vor, ein skalierbares, agentenbasiertes Framework, das durch iterative Selbstverfeinerung realistische und physikalisch valide 3D-Umgebungen für das Training von Embodied-AI-Richtlinien generiert, um die Abhängigkeit von kostspieligen realen Datenerfassungen zu überwinden.

Hongchi Xia, Xuan Li, Zhaoshuo Li + 9 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Dieser Beitrag stellt Lösungen für die CXR-LT 2026-Herausforderung vor, die durch eine imbalance-aware Multi-Label-Strategie für langschwanzige Verteilungen und einen überwachungslosen Ansatz für Zero-Shot-Erkennung seltener Befunde in der Thorax-Röntgenbildklassifizierung die Überwachungsdatenknappheit adressiert und dabei den ersten Platz in der öffentlichen Rangliste erreicht.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

Die Arbeit stellt MedVAR vor, das erste autoregressive Fundamentmodell für die medizinische Bildgebung, das durch eine Next-scale-Vorhersage und einen harmonisierten Datensatz von 440.000 CT- und MRT-Bildern skalierbare, effiziente und hochwertige Bildsynthese in einer grob-zu-fein-Hierarchie ermöglicht.

Zhicheng He, Yunpeng Zhao, Junde Wu + 5 more2026-02-24💻 cs

A Novel Public Dataset for Strawberry (Fragaria x ananassa) Ripeness Detection and Comparative Evaluation of YOLO-Based Models

Diese Studie stellt einen neuartigen, öffentlich zugänglichen Datensatz zur Erkennung der Reife von Erdbeben vor und bewertet vergleichend YOLO-basierte Modelle, wobei YOLOv8s die beste Gesamtperformance (mAP@50: 86,09 %) erzielt und somit eine wichtige Grundlage für intelligente landwirtschaftliche Anwendungen schafft.

Mustafa Yurdakul, Zeynep Sena Bastug, Ali Emre Gok + 1 more2026-02-24💻 cs

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Die Studie zeigt, dass Vision-Language-Modelle bei der räumlichen Lokalisierung gefüllter Zellen in Binärrastern scheitern, solange diese keine Textidentität besitzen, und offenbart, dass ihre räumliche Schlussfolgerung stark von einer Texterkennung abhängt, die ihre native visuelle Verarbeitungsfähigkeit deutlich übertrifft.

Yuval Levental2026-02-24🤖 cs.LG

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Die Arbeit stellt ReMoRa vor, ein multimodales großes Sprachmodell, das durch die Verarbeitung komprimierter, geräuschreduzierter Bewegungsrepräsentationen anstelle vollständiger RGB-Frames eine effiziente und leistungsfähige Langzeit-Videoanalyse ermöglicht.

Daichi Yashima, Shuhei Kurita, Yusuke Oda + 1 more2026-02-24💻 cs

StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

Der Artikel stellt StructCore vor, eine trainingsfreie, strukturbewusste Methode zur Bildbewertung in der unüberwachten Anomalieerkennung, die durch die Erfassung räumlicher Verteilungsmuster die Grenzen des herkömmlichen Max-Poolings überwindet und auf den Datensätzen MVTec AD sowie VisA neuartige AUROC-Ergebnisse erzielt.

Joongwon Chae, Lihui Luo, Yang Liu + 8 more2026-02-24💻 cs

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Der Artikel stellt GraphThinker vor, eine Methode zur Verstärkungslern-Feinabstimmung, die durch die Konstruktion von ereignisbasierten Videoszenengraphen und visuelle Aufmerksamkeitsbelohnungen kausale Zusammenhänge in Videos explizit modelliert, um Halluzinationen beim Video-Reasoning zu reduzieren.

Zixu Cheng, Da Li, Jian Hu + 4 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

Die Arbeit stellt DesignAsCode vor, ein neuartiges Framework, das die Lücke zwischen visueller Qualität und struktureller Bearbeitbarkeit in der Grafikgenerierung schließt, indem es Designs als HTML/CSS-Code durch eine Plan-Implement-Reflect-Pipeline synthetisiert und so überlegene Ergebnisse sowie erweiterte Funktionen wie Layoutanpassung und Animationen ermöglicht.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

Die Arbeit stellt BLM-Guard vor, ein erklärbares multimodales System zur Moderation von Werbeanzeigen in Kurzvideos, das durch eine regelgestützte Chain-of-Thought-Datengenerierung und eine verstärkungslernbasierte Feinabstimmung mit politikkonformen Belohnungen präzisere und robustere Ergebnisse als bestehende Methoden erzielt.

Yiran Yang, Zhaowei Liu, Yuan Yuan + 10 more2026-02-24💻 cs

Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

Diese Studie bestätigt durch eine erfolgreiche Replikation auf sechs Datensätzen, dass der federierte Ansatz FedTPG durch textgesteuerte Prompt-Generierung eine überlegene Generalisierung auf unbekannte Klassen im Vergleich zu statischen Methoden ermöglicht, ohne dabei private Daten zu teilen.

Suraj Prasad, Anubha Pant2026-02-24🤖 cs.LG

← Zurück Weiter →