cs.CV Arbeiten | Gist.Science

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Die vorgestellte Arbeit stellt ein Transformer-basiertes Framework für die zusammengesetzte Bild-Sprache-Wiedergewinnung bei Hautkrebs vor, das durch eine gemeinsame globale und lokale Ausrichtung sowie eine klinisch fundierte Gewichtung die Suche nach relevanten, biopsiebestätigten Fällen auf dem Derm7pt-Datensatz verbessert.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Die Studie stellt VIVID-Med vor, ein effizientes Framework, das einen eingefrorenen Large Language Model als strukturierten Lehrer nutzt, um einen leichten, ausschließlich auf Bildern basierenden Vision Transformer für medizinische Anwendungen vorzuverarbeiten, der ohne den LLM-Overhead dennoch state-of-the-art Ergebnisse in verschiedenen klinischen Szenarien erzielt.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Das Paper stellt PRLF vor, ein Framework für die multimodale Sentiment-Analyse, das durch einen adaptiven Zuverlässigkeitsschätzer und eine progressive Interaktion robust mit unvollständigen Modalitäten umgeht und dabei die Repräsentationen intakter Modalitäten schützt.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian YangWed, 11 Ma💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Das Paper stellt QUSR vor, ein diffusionsbasiertes Modell für die Bild-Super-Resolution, das durch die Kombination eines multimodalen Sprachmodells zur Qualitätsbewertung und einer unsicherheitsgesteuerten Rauschgenerierung realistische und detailreiche Bilder auch bei unbekannten und räumlich nicht einheitlichen Degradationen erzeugt.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Diese Studie stellt einen vollautomatischen, auf Transformer-Architekturen basierenden Ansatz zur Segmentierung von HR-pQCT-Bildern vor, der durch die radiomische Analyse von Weichgewebestrukturen eine präzisere Osteoporose-Diagnose ermöglicht als herkömmliche Knochen-basierte Methoden.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Rotation Equivariant Mamba for Vision Tasks

Die Arbeit stellt EQ-VMamba vor, die erste rotationsequivariante Mamba-Architektur für visuelle Aufgaben, die durch einen speziell entwickelten Cross-Scan-Mechanismus und theoretisch fundierte Äquivarianz nicht nur eine höhere Robustheit gegenüber Bildrotationen bietet, sondern auch bei überlegener oder vergleichbarer Leistung den Parameterbedarf um etwa 50 % reduziert.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben XuWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Die vorgestellte Arbeit schlägt vor, Agentic AI als intelligente Steuerungs-Schicht für 6G-Netzwerke einzusetzen, um durch spezialisierte Agenten und geschlossene Regelkreise das Zusammenspiel von Lernen und Netzwerkmanagement beim Federated Learning zu optimieren und so hohe Leistung trotz strenger Latenz- und Bandbreitenanforderungen zu gewährleisten.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

Das Paper stellt RTFDNet vor, einen dreizweigigen Encoder-Decoder, der durch synergistische Merkmalsfusion und entkoppelnde Regularisierung eine robuste RGB-T-Semantiksegmentierung ermöglicht, die auch bei teilweise fehlenden Sensorsignalen stabil bleibt und effiziente Einzelmodus-Inferenz erlaubt.

Kunyu Tan, Mingjian LiangWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Diese Arbeit erweitert das Deep-Learning-Framework POLISH durch patch-basiertes Training und eine nichtlineare Intensitätstransformation, um robuste, hochauflösende Bilder aus Radio-Interferometrie-Daten zu erzeugen und damit die Entdeckung von Gravitationslinsen im Vergleich zu herkömmlichen Methoden wie CLEAN signifikant zu steigern.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Die Arbeit stellt Progressive Split-Mamba (PS-Mamba) vor, ein neuartiges, topologiebewusstes Framework auf Basis von State Space Models, das durch geometrisch konsistente Partitionierung und symmetrische Cross-Scale-Verbindungen die lokalen Strukturen und globale Kohärenz bei der Bildwiederherstellung effizient und präzise erhält.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Die Arbeit stellt SAGE vor, das erste End-to-End-Modell für mehrmodiale große Sprachmodelle, das rohe Punktwolken direkt ohne vortrainierte 3D-Encoder verarbeitet, indem es diese durch einen leichten Tokenizer als „Fremdsprache" in den Wortschatz des LLM integriert und durch eine semantisch ausgerichtete Präferenzoptimierung überlegene Leistung bei 3D-Fragestellungen und Recheneffizienz erzielt.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Die Arbeit stellt MM-Zero vor, ein RL-basiertes Framework, das erstmals die datenlose Selbstentwicklung von Vision-Language-Modellen durch ein dreiteiliges Rollenkonzept (Proposer, Coder, Solver) ermöglicht, das abstrakte visuelle Konzepte generiert, in ausführbaren Code übersetzt und multimodale Schlussfolgerungen trifft.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Die vorgestellte Arbeit entwickelt einen geometrie-bewussten metrischen Lernansatz, der auf inter-joint Winkeln basiert, um die Herausforderungen der domänenbedingten Verschiebung bei der few-shot Erkennung von Gebärdensprachen über verschiedene Sprachen hinweg zu überwinden und dabei eine deutlich höhere Genauigkeit als herkömmliche Koordinaten-basierte Methoden zu erzielen.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Das Paper stellt TubeMLLM vor, ein multimodales Fundamentmodell, das durch die Integration topologischer Vorwissen in eine gemeinsame Aufmerksamkeitsarchitektur und die Nutzung eines neuen Benchmarks (TubeMData) die topologische Konsistenz bei der Modellierung von Gefäßstrukturen in der medizinischen Bildgebung deutlich verbessert und dabei herausragende Zero-Shot-Leistung sowie Robustheit gegenüber Domänenverschiebungen und Bildstörungen aufweist.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Diese Arbeit stellt eine neuartige Verlustfunktion für ein verteiltes Convolutional Neural Network (DisCNN) vor, das durch die Abbildung positiver Proben auf einen kompakten Raum und negativer Proben auf den Ursprung spezifische Merkmale extrahiert, wodurch eine leichte Architektur mit hervorragender Generalisierungsfähigkeit für die Objekterkennung in komplexen Hintergründen ermöglicht wird.

Liang SunWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Die Arbeit stellt UniField vor, ein einheitliches, feldbewusstes Framework zur Verbesserung von MRT-Bildern, das durch die Nutzung von 3D-Grundmodellen, einen spektralen Korrekturmechanismus und einen neu veröffentlichten großen Datensatz die Generalisierungsfähigkeit und Bildqualität über verschiedene Magnetfeldstärken hinweg signifikant verbessert.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

Die Arbeit stellt HelixTrack vor, eine rein ereignisbasierte Methode zur Echtzeit-Verfolgung und RPM-Schätzung von Propeller-artigen Objekten unter Ego-Bewegung, die durch die Einführung des TQE-Datensatzes und eine neuartige Homographie-basierte Phasen-Schätzung bestehende Grenzen überwindet.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Das Paper stellt BridgeDiff vor, ein diffusionsbasiertes Framework, das durch die Garment Condition Bridge Module und das Flat Structure Constraint Module die Lücke zwischen menschlichen Beobachtungen und der Synthese flacher Kleidungsstücke schließt, um konsistente und strukturell stabile virtuelle Anproben zu ermöglichen.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Die Arbeit stellt RAE-NWM vor, ein Navigations-Weltmodell, das die Dynamik in einem dichten visuellen Repräsentationsraum (DINOv2) anstelle eines komprimierten latenten Raums modelliert und dabei einen Conditional Diffusion Transformer mit einem entkoppelten Kopf sowie einem zeitgesteuerten Gate-Modul nutzt, um die strukturelle Stabilität und die Genauigkeit der Aktionsvorhersage für die visuelle Navigation zu verbessern.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

← Zurück Weiter →