cs.CV Arbeiten | Gist.Science

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Die vorgestellte Arbeit führt einen Diffusionsmodell-Ansatz ein, der durch die explizite Modellierung und Nutzung von Polarisationsunsicherheiten die Rekonstruktion von Farb-Polarisationsbildern verbessert und so die Genauigkeit bei der Wiederherstellung von Polarisationsmerkmalen wie dem Polarisationsgrad und dem Polarisationswinkel signifikant steigert.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

Das NAU-QMUL-Team schlägt einen mehrmodalen Multi-Task-Ansatz vor, der BERT und CLIP zur Erkennung von KI-generierten Bildern und zur Identifizierung der zugrunde liegenden Modelle nutzt, wobei durch Pseudo-Labeling-Datenaugmentierung verbesserte Ergebnisse in einem Wettbewerb erzielt wurden.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

Die Arbeit stellt ReSeg-CLIP vor, eine trainingsfreie Methode für die offenwortschatzgestützte semantische Segmentierung von Fernerkundungsdaten, die durch hierarchische Maskierung mit SAM und eine gewichtete Modellkomposition von CLIP-Varianten den State-of-the-Art auf drei Benchmarks erreicht.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Dieser Beitrag stellt einen bandbreitenadaptiven, cloudbasierten Ansatz vor, der durch dynamische Aufteilung der Verarbeitung und Kompression von Merkmalsvektoren die Latenz bei der 360-Grad-3D-Umgebungserkennung für autonome Fahrzeuge im Vergleich zu rein onboard-Lösungen um 72 % reduziert und gleichzeitig die Genauigkeit unter schwankenden Netzwerkbedingungen um bis zu 20 % steigert.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

Diese Studie stellt eine hardwareunabhängige, visuell basierte Methode zur robusten Ortswiedererkennung für Luftfahrzeuge vor, die durch die Analyse der Bodendichte die Flughöhe schätzt und so die Genauigkeit bei erheblichen Höhenunterschieden im Vergleich zu herkömmlichen Ansätzen signifikant verbessert.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

Die Arbeit stellt DACESR vor, eine Methode, die einen degradationssensitiven Embedding-Extraktor (REE) und einen Conditional Feature Modulator (CFM) mit einem Mamba-basierten Netzwerk kombiniert, um die Bildsuper-Auflösung in realen, stark degradierten Szenarien durch verbesserte Texterkennung und hochauflösende Rekonstruktion zu optimieren.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

Der Artikel stellt SelfOccFlow vor, eine selbstüberwachte Methode zur end-to-end Vorhersage von 3D-Besetzungsfluss, die ohne menschliche Annotationen oder externe Flussüberwachung auskommt, indem sie die Szene in statische und dynamische Signed-Distance-Fields zerlegt und Bewegung durch zeitliche Aggregation sowie einen auf Kosinusähnlichkeit basierenden Fluss-Indikator lernt.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Das Paper stellt Ref-Adv vor, einen neuen Benchmark für das Verständnis von Referenzäußerungen, der durch gezielte Herausforderungen wie harte Ablenkungen und nicht-triviale sprachliche Ausdrücke zeigt, dass aktuelle multimodale Large Language Models trotz guter Ergebnisse auf herkömmlichen Datensätzen oft auf Abkürzungen angewiesen sind und echte visuelle Schlussfolgerungen sowie Verankerungsfähigkeiten noch erheblich verbessern müssen.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

Die Studie stellt BUSD-Agent vor, ein erfahrungsgesteuertes, selbstadaptives Kaskaden-Multi-Agenten-System für die Brustultraschall-Screening und -Diagnose, das durch den Einsatz eines zweistufigen Entscheidungsprozesses und eines speicherbasierten Kontext-Lernmechanismus unnötige Biopsieüberweisungen signifikant reduziert und gleichzeitig die Spezifität der Diagnose verbessert.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

Die Arbeit stellt ABPolicy vor, einen asynchronen Flow-Matching-Algorithmus im B-Spline-Kontrollpunktraum, der durch bidirektionale Vorhersage und Nachoptimierung sowohl intra- als auch inter-chunkige Kontinuität gewährleistet und so für robotische Manipulationsaufgaben glattere, reaktionsschnellere und performantere Bewegungsabläufe ermöglicht.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

Das Paper stellt SegMate vor, eine effiziente 2,5D-Architektur für die Multi-Organ-Segmentierung, die durch asymmetrische Aufmerksamkeitsmechanismen und Multi-Task-Optimierung den Rechenaufwand und den Speicherbedarf erheblich senkt, ohne dabei die Genauigkeit zu beeinträchtigen.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

Die Arbeit identifiziert das Problem von „Halbwahrheiten", bei denen CLIP-Modelle durch falsche Details in Bildbeschreibungen irreführend höhere Ähnlichkeitswerte erzielen, und stellt CS-CLIP vor, ein durch komponentenbasierte Überwachung trainiertes Modell, das diese Fehler signifikant reduziert und das kompositorische Verständnis verbessert.

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Die Autoren stellen einen neuartigen, trainingsfreien Topologie-getriebenen Rahmen zur Bewertung der Übertragbarkeit medizinischer Basismodelle vor, der durch die Analyse globaler und lokaler topologischer Konsistenz die Auswahl optimaler Modelle für Segmentierungsaufgaben im Vergleich zu bestehenden Methoden um 31 % verbessert.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

Die Arbeit stellt GPU-SDF vor, ein neuronales Framework zur hochfidenzialen Rekonstruktion von Innenräumen, das durch eine explizite Schätzung geometrischer Prior-Unsicherheiten und komplementäre Randbedingungen feine Details wie dünne Strukturen präziser erfasst als bestehende Ansätze.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Diese Arbeit stellt eine neuartige, ereigniszentrierte Strategie für die Vision-Language-Navigation vor, die mithilfe des multimodalen Wissensgraphen YE-KG und des Modells STE-VLN die langfristige Reasoning-Fähigkeit von Agenten in unbekannten Umgebungen durch die Integration von episodischem Gedächtnis aus realen Indoor-Videos verbessert.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

Die Arbeit stellt PointCoT vor, ein neuartiges Framework mit einem großen Instruktionstuning-Datensatz, das Multimodale Large Language Models durch explizites Chain-of-Thought-Reasoning befähigt, präzise 3D-geometrische Schlussfolgerungen in Punktwolken zu treffen und so Halluzinationen zu vermeiden.

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Diese Arbeit stellt ein duales Verzweigungsnetzwerk mit paralleler Aufmerksamkeit und adaptiver Merkmalsfusion vor, das die Genauigkeit der Mikroexpressionserkennung auf dem CASME II-Datensatz durch die Kombination von ResNet- und Inception-Architekturen signifikant verbessert.

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Die Arbeit stellt CC-VQA vor, eine trainingsfreie Methode für wissensbasiertes visuelles Fragenbeantworten, die durch visozentrische Konfliktanalyse und korrelationsgesteuerte Kodierung sowie Dekodierung Konflikte zwischen parametrischem Modellwissen und dynamisch abgerufenen Informationen effektiv löst und damit den aktuellen Stand der Technik auf mehreren Benchmarks verbessert.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

Die Studie stellt GDA-YOLO11 vor, ein neuartiges amodales Segmentierungsmodell, das durch architektonische Verbesserungen und einen angepassten Verlust die Robustheit von Robotern bei der Ernte verdeckter Zitrusfrüchte signifikant steigert und erstmals eine praktische Wahrnehmung-zu-Aktion-Integration in der Landwirtschaft demonstriert.

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

Das Paper stellt SwitchCraft vor, ein trainingsfreies Framework, das mittels Event-Aligned Query Steering und eines Auto-Balance Strength Solvers die Generierung kohärenter Videos mit mehreren Ereignissen aus Textprompts ermöglicht, indem es die Zuordnung von Ereignissen zu spezifischen Bildrahmen optimiert.

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

← Zurück Weiter →