cs.CV Arbeiten | Gist.Science

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

Diese Arbeit stellt einen neuartigen Rahmen vor, der einen vortrainierten Vision-Foundation-Modell (DINOv3) mit spezialisierten 3D-Anpassungsmechanismen kombiniert, um bei extrem wenigen Trainingsdaten eine robuste und domänenübergreifende Gefäßsegmentierung zu ermöglichen und dabei den aktuellen Standard nnU-Net signifikant zu übertreffen.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy

Die Arbeit stellt mit FluoMix das erste Datenset und mit FluoCLIP ein darauf aufbauendes zweistufiges Vision-Language-Framework vor, um die bisher vernachlässigte stäbchenabhängige Fokusqualitätsbewertung in der Fluoreszenzmikroskopie durch eine stäbchenbewusste Modellierung zu ermöglichen.

Hyejin Park, Jiwon Yoon, Sumin Park + 5 more2026-03-02⚡ eess

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

Das Paper stellt EMO-R3 vor, ein Framework für reflektives Reinforcement Learning, das durch strukturiertes emotionales Denken und einen reflexiven emotionalen Belohnungsmechanismus die Interpretierbarkeit und emotionale Intelligenz multimodaler Sprachmodelle verbessert.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

Die Studie stellt BiM-GeoAttn-Net vor, einen leichten Rahmen, der bidirektionale Tiefen-Mamba-Modellierung mit geometriebewusster Aufmerksamkeit kombiniert, um die präzise 3D-Segmentierung von Aortendissektionen in CTA-Bildern durch effiziente Erfassung von Schichtabhängigkeiten und strukturelle Verfeinerung zu verbessern.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

Die Arbeit stellt Sea² vor, einen unüberwachten Ansatz zur domänenübergreifenden visuellen Anpassung, der einen personalisierten VLM-gesteuerten Agenten nutzt, um durch aktive Pose-Steuerung und skalare Rückmeldungen die Leistung vortrainierter Wahrnehmungsmodelle in neuen Umgebungen zu verbessern, ohne diese Modelle selbst nachtrainieren zu müssen.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

Die Arbeit stellt einen neuen Ansatz für die bimanuelle Manipulation vor, der auf einem vortrainierten 3D-geometrischen Fundamentmodell basiert, um durch die gemeinsame Vorhersage von Aktionssequenzen und zukünftigen 3D-Strukturen aus reinen RGB-Bildern eine überlegene räumliche Wahrnehmung und Koordination zu erreichen.

Chongyang Xu, Haipeng Li, Shen Cheng + 4 more2026-03-02💻 cs

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

Die Arbeit stellt einen exemplarfreien Ansatz für das kontinuierliche Lernen zur Generierung von Pathologieberichten aus Ganzschnittbildern vor, der durch die Nutzung kompakter morphologischer Fußabdrücke und stilistischer Deskriptoren katastrophales Vergessen verhindert und gleichzeitig die Anpassung an sich wandelnde klinische Standards ohne Speicherung historischer Daten ermöglicht.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Denoising-Enhanced YOLO for Robust SAR Ship Detection

Die Studie stellt CPN-YOLO vor, einen auf YOLOv8 basierenden Framework zur robusten SAR-Schiffserkennung, der durch ein lernbares Denoising-Modul, einen PPA-Aufmerksamkeitsmechanismus und einen auf der normalisierten Wasserstein-Distanz basierenden Verlust die Genauigkeit und Generalisierungsfähigkeit in komplexen Szenen erheblich verbessert.

Xiaojing Zhao, Shiyang Li, Zena Chu + 5 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Die Autoren stellen einen end-to-end multimodalen Framework vor, der durch die Kombination von Bild- und Metadaten-Encodierung mit einem bidirektionalen Cross-Attention-Mechanismus sowie einem spärlichen, fehlwertbewussten Metadaten-Encoder die robuste Klassifizierung von DICOM-Serien trotz heterogener Inhalte, variabler Längen und unvollständiger Metadaten ermöglicht.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Die vorgestellte Arbeit führt einen Diffusionsmodell-Ansatz ein, der durch die explizite Modellierung und Nutzung von Polarisationsunsicherheiten die Rekonstruktion von Farb-Polarisationsbildern verbessert und so die Genauigkeit bei der Wiederherstellung von Polarisationsmerkmalen wie dem Polarisationsgrad und dem Polarisationswinkel signifikant steigert.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

Das NAU-QMUL-Team schlägt einen mehrmodalen Multi-Task-Ansatz vor, der BERT und CLIP zur Erkennung von KI-generierten Bildern und zur Identifizierung der zugrunde liegenden Modelle nutzt, wobei durch Pseudo-Labeling-Datenaugmentierung verbesserte Ergebnisse in einem Wettbewerb erzielt wurden.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

Die Arbeit stellt ReSeg-CLIP vor, eine trainingsfreie Methode für die offenwortschatzgestützte semantische Segmentierung von Fernerkundungsdaten, die durch hierarchische Maskierung mit SAM und eine gewichtete Modellkomposition von CLIP-Varianten den State-of-the-Art auf drei Benchmarks erreicht.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Dieser Beitrag stellt einen bandbreitenadaptiven, cloudbasierten Ansatz vor, der durch dynamische Aufteilung der Verarbeitung und Kompression von Merkmalsvektoren die Latenz bei der 360-Grad-3D-Umgebungserkennung für autonome Fahrzeuge im Vergleich zu rein onboard-Lösungen um 72 % reduziert und gleichzeitig die Genauigkeit unter schwankenden Netzwerkbedingungen um bis zu 20 % steigert.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

Diese Studie stellt eine hardwareunabhängige, visuell basierte Methode zur robusten Ortswiedererkennung für Luftfahrzeuge vor, die durch die Analyse der Bodendichte die Flughöhe schätzt und so die Genauigkeit bei erheblichen Höhenunterschieden im Vergleich zu herkömmlichen Ansätzen signifikant verbessert.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

Die Arbeit stellt DACESR vor, eine Methode, die einen degradationssensitiven Embedding-Extraktor (REE) und einen Conditional Feature Modulator (CFM) mit einem Mamba-basierten Netzwerk kombiniert, um die Bildsuper-Auflösung in realen, stark degradierten Szenarien durch verbesserte Texterkennung und hochauflösende Rekonstruktion zu optimieren.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

Der Artikel stellt SelfOccFlow vor, eine selbstüberwachte Methode zur end-to-end Vorhersage von 3D-Besetzungsfluss, die ohne menschliche Annotationen oder externe Flussüberwachung auskommt, indem sie die Szene in statische und dynamische Signed-Distance-Fields zerlegt und Bewegung durch zeitliche Aggregation sowie einen auf Kosinusähnlichkeit basierenden Fluss-Indikator lernt.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Das Paper stellt Ref-Adv vor, einen neuen Benchmark für das Verständnis von Referenzäußerungen, der durch gezielte Herausforderungen wie harte Ablenkungen und nicht-triviale sprachliche Ausdrücke zeigt, dass aktuelle multimodale Large Language Models trotz guter Ergebnisse auf herkömmlichen Datensätzen oft auf Abkürzungen angewiesen sind und echte visuelle Schlussfolgerungen sowie Verankerungsfähigkeiten noch erheblich verbessern müssen.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

Die Studie stellt BUSD-Agent vor, ein erfahrungsgesteuertes, selbstadaptives Kaskaden-Multi-Agenten-System für die Brustultraschall-Screening und -Diagnose, das durch den Einsatz eines zweistufigen Entscheidungsprozesses und eines speicherbasierten Kontext-Lernmechanismus unnötige Biopsieüberweisungen signifikant reduziert und gleichzeitig die Spezifität der Diagnose verbessert.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

Die Arbeit stellt ABPolicy vor, einen asynchronen Flow-Matching-Algorithmus im B-Spline-Kontrollpunktraum, der durch bidirektionale Vorhersage und Nachoptimierung sowohl intra- als auch inter-chunkige Kontinuität gewährleistet und so für robotische Manipulationsaufgaben glattere, reaktionsschnellere und performantere Bewegungsabläufe ermöglicht.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

Das Paper stellt SegMate vor, eine effiziente 2,5D-Architektur für die Multi-Organ-Segmentierung, die durch asymmetrische Aufmerksamkeitsmechanismen und Multi-Task-Optimierung den Rechenaufwand und den Speicherbedarf erheblich senkt, ohne dabei die Genauigkeit zu beeinträchtigen.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

← Zurück Weiter →