cs.CV Arbeiten | Gist.Science

Spectral-Structured Diffusion for Single-Image Rain Removal

Die Arbeit stellt SpectralDiff vor, ein auf Diffusionsmodellen basierendes Framework zur Entfernung von Regenflecken aus Einzelbildern, das strukturierte spektrale Störungen zur gezielten Unterdrückung von Regenkomponenten nutzt und durch eine effiziente Full-Product-U-Net-Architektur eine kompakte und rechenleistungsfreundliche Lösung bietet.

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Diese Studie stellt einen verbesserten YOLOv8-basierten Dual-Modell-Rahmen vor, der durch die Kombination von Instanzsegmentierung und Objekterkennung nicht nur Feuer und Rauch erkennt, sondern auch eine quantitative Risikobewertung auf Basis der realen Entfernung zu gefährdeten Objekten ermöglicht.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Das Paper stellt GST-VLA vor, ein 3D-tiefenbewusstes Vision-Language-Action-Modell, das durch einen Gaussian Spatial Tokenizer für geometrisch strukturierte 3D-Gauß-Primitiven und eine 3D-tiefenbewusste Chain-of-Thought-Argumentation die Robotersteuerung auf Benchmarks wie LIBERO und SimplerEnv signifikant verbessert.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

Das Paper stellt OmniEdit vor, ein trainingsfreies Framework für Lippen-Synchronisation und Audio-Visuelle Bearbeitung, das durch die Ersetzung der Bearbeitungssequenz in FlowEdit und die Eliminierung stochastischer Elemente eine effiziente und stabile Generierung ermöglicht.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Der vorgestellte Ansatz adressiert die Herausforderung der physikalisch plausiblen Videogenerierung, indem er physikalische Phänomene durch eine Kombination aus physikgetriebener Ereignisketten-Logik und transitionsbewusstem cross-modalem Prompting in eine Folge kausal verknüpfter, dynamisch evolvierender Ereignisse zerlegt, um so die Kontinuität und physikalische Konsistenz generierter Videos zu gewährleisten.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Diese Studie diagnostiziert die Leistungslücke zwischen textbasierten und bildbasierten Eingaben in multimodalen Sprachmodellen, identifiziert Lesefehler als Hauptursache und schlägt eine Selbst-Distillation vor, um das Textverständnis in Bilddokumenten drastisch zu verbessern.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Das Papier stellt MedKCO vor, eine Methode zur medizinischen Vision-Language-Pretraining, die durch ein zweistufiges Curriculum-Learning und einen selbstgesteuerten asymmetrischen kontrastiven Verlust die kognitive Orchestrierung von Wissen optimiert, um suboptimale Merkmalsdarstellungen zu vermeiden und die Leistung bei downstream-Aufgaben signifikant zu steigern.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Dieses Paper stellt einen trainingsfreien Rahmen zur Bewegungszerlegung vor, der komplexe Bewegungen in statische, starre und nicht-starre Kategorien aufteilt und durch eine sequenzielle Planung vor der Generierung sowie modale Entkopplung eine präzise, zusammengesetzte Videogenerierung mit verschiedenen Erscheinungsformen und Bewegungen ermöglicht.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Die vorgestellte Arbeit stellt ein Transformer-basiertes Framework für die zusammengesetzte Bild-Sprache-Wiedergewinnung bei Hautkrebs vor, das durch eine gemeinsame globale und lokale Ausrichtung sowie eine klinisch fundierte Gewichtung die Suche nach relevanten, biopsiebestätigten Fällen auf dem Derm7pt-Datensatz verbessert.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Die Studie stellt VIVID-Med vor, ein effizientes Framework, das einen eingefrorenen Large Language Model als strukturierten Lehrer nutzt, um einen leichten, ausschließlich auf Bildern basierenden Vision Transformer für medizinische Anwendungen vorzuverarbeiten, der ohne den LLM-Overhead dennoch state-of-the-art Ergebnisse in verschiedenen klinischen Szenarien erzielt.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Das Paper stellt PRLF vor, ein Framework für die multimodale Sentiment-Analyse, das durch einen adaptiven Zuverlässigkeitsschätzer und eine progressive Interaktion robust mit unvollständigen Modalitäten umgeht und dabei die Repräsentationen intakter Modalitäten schützt.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Das Paper stellt QUSR vor, ein diffusionsbasiertes Modell für die Bild-Super-Resolution, das durch die Kombination eines multimodalen Sprachmodells zur Qualitätsbewertung und einer unsicherheitsgesteuerten Rauschgenerierung realistische und detailreiche Bilder auch bei unbekannten und räumlich nicht einheitlichen Degradationen erzeugt.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Diese Studie stellt einen vollautomatischen, auf Transformer-Architekturen basierenden Ansatz zur Segmentierung von HR-pQCT-Bildern vor, der durch die radiomische Analyse von Weichgewebestrukturen eine präzisere Osteoporose-Diagnose ermöglicht als herkömmliche Knochen-basierte Methoden.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Rotation Equivariant Mamba for Vision Tasks

Die Arbeit stellt EQ-VMamba vor, die erste rotationsequivariante Mamba-Architektur für visuelle Aufgaben, die durch einen speziell entwickelten Cross-Scan-Mechanismus und theoretisch fundierte Äquivarianz nicht nur eine höhere Robustheit gegenüber Bildrotationen bietet, sondern auch bei überlegener oder vergleichbarer Leistung den Parameterbedarf um etwa 50 % reduziert.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu2026-03-11💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Die vorgestellte Arbeit schlägt vor, Agentic AI als intelligente Steuerungs-Schicht für 6G-Netzwerke einzusetzen, um durch spezialisierte Agenten und geschlossene Regelkreise das Zusammenspiel von Lernen und Netzwerkmanagement beim Federated Learning zu optimieren und so hohe Leistung trotz strenger Latenz- und Bandbreitenanforderungen zu gewährleisten.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

Das Paper stellt RTFDNet vor, einen dreizweigigen Encoder-Decoder, der durch synergistische Merkmalsfusion und entkoppelnde Regularisierung eine robuste RGB-T-Semantiksegmentierung ermöglicht, die auch bei teilweise fehlenden Sensorsignalen stabil bleibt und effiziente Einzelmodus-Inferenz erlaubt.

Kunyu Tan, Mingjian Liang2026-03-11💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Diese Arbeit erweitert das Deep-Learning-Framework POLISH durch patch-basiertes Training und eine nichtlineare Intensitätstransformation, um robuste, hochauflösende Bilder aus Radio-Interferometrie-Daten zu erzeugen und damit die Entdeckung von Gravitationslinsen im Vergleich zu herkömmlichen Methoden wie CLEAN signifikant zu steigern.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Die Arbeit stellt Progressive Split-Mamba (PS-Mamba) vor, ein neuartiges, topologiebewusstes Framework auf Basis von State Space Models, das durch geometrisch konsistente Partitionierung und symmetrische Cross-Scale-Verbindungen die lokalen Strukturen und globale Kohärenz bei der Bildwiederherstellung effizient und präzise erhält.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Die Arbeit stellt SAGE vor, das erste End-to-End-Modell für mehrmodiale große Sprachmodelle, das rohe Punktwolken direkt ohne vortrainierte 3D-Encoder verarbeitet, indem es diese durch einen leichten Tokenizer als „Fremdsprache" in den Wortschatz des LLM integriert und durch eine semantisch ausgerichtete Präferenzoptimierung überlegene Leistung bei 3D-Fragestellungen und Recheneffizienz erzielt.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

← Zurück Weiter →