cs.CV Arbeiten | Gist.Science

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

SegMoTE ist ein effizientes, adaptives Framework, das das Segmentierungsmodell SAM durch eine tokenbasierte Mixture-of-Experts-Architektur und einen fortschrittlichen Prompt-Mechanismus an medizinische Bildgebungsdaten anpasst und dabei mit weniger als 1 % des üblichen Annotationsaufwands state-of-the-art-Ergebnisse über verschiedene Modalitäten hinweg erzielt.

Yujie Lu, Jingwen Li, Sibo Ju + 5 more2026-02-24💻 cs

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Die Autoren stellen das KRSVQG-Modell vor, das durch die Integration von externen Wissensquellen und Bildunterschriften automatisch generierte Fragen für Fernerkundungsbilder erweitert, um über rein pixelbasierte Beschreibungen hinauszugehen und menschenähnliches Common Sense-Wissen in die visuelle Fragegenerierung einzubringen.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Die Autoren stellen eine Methode zur kontrollierten Manipulation und Synthese von Gesichtern im semantischen latenten Raum vor, die durch entanglement-reduzierende Techniken wie abhängige Konditionierung und orthogonale Projektion hochwertige Daten für das Training von Gesichtsausdruckserkennungsmodellen generiert und so deren Genauigkeit sowie Disentanglement signifikant verbessert.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG

Knowledge-aware Visual Question Generation for Remote Sensing Images

Die Autoren stellen KRSVQG vor, ein wissensbasiertes Modell zur Generierung von Fragen zu Fernerkundungsbildern, das durch die Integration externer Wissensdreier und Bildunterschriften qualitativ hochwertigere und kontextbewusstere Fragen erzeugt als bestehende Methoden.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

RegionRoute: Regional Style Transfer with Diffusion Model

Die Arbeit stellt RegionRoute vor, ein auf Diffusionsmodellen basierendes Framework, das durch eine aufmerksamkeitsüberwachte Schulung und spezialisierte Verlustfunktionen eine präzise, maskefreie regionale Stiltransferierung ermöglicht und dabei sowohl die stilistische Übereinstimmung als auch die Identitätserhaltung verbessert.

Bowen Chen, Jake Zuena, Alan C. Bovik + 1 more2026-02-24💻 cs

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Die Arbeit stellt CORVET vor, einen ressourcenschonenden Vektorprozessor für Edge-AI, der durch einen CORDIC-basierten MAC-Einheit mit adaptiver Genauigkeit und Zeitmultiplexierung eine hohe Durchsatzdichte und Energieeffizienz bei variabler Präzision erreicht.

Sonu Kumar, Mohd Faisal Khan, Mukul Lokhande + 1 more2026-02-24⚡ eess

DD-CAM: Minimal Sufficient Explanations for Vision Models Using Delta Debugging

Die Arbeit stellt DD-CAM vor, einen gradientenfreien Ansatz, der mithilfe von Delta-Debugging die kleinste ausreichende Teilmenge von Repräsentationseinheiten identifiziert, um präzise und lokal genauere Erklärungen für Bilderkennungsmodelle zu generieren.

Krishna Khadka, Yu Lei, Raghu N. Kacker + 1 more2026-02-24💻 cs

A Two-Stage Detection-Tracking Framework for Stable Apple Quality Inspection in Dense Conveyor-Belt Environments

Die vorgestellte Arbeit entwickelt ein zweistufiges Framework aus Detektion und Verfolgung, das durch die Aggregation auf Spurenebene eine stabile und zeitlich konsistente Qualitätsinspektion von Äpfeln auf dichten Förderbändern ermöglicht.

Keonvin Park, Aditya Pal, Jin Hong Mok2026-02-24💻 cs

MRI Contrast Enhancement Kinetics World Model

Die Arbeit stellt das MRI CEKWorld-Modell mit räumlich-zeitlicher Konsistenzlernen (STCL) vor, das durch latente Ausrichtungs- und Differenzlernen die Effizienz von MRT-Kontrastmittelaufnahmen verbessert, indem es überlappende zeitliche Lücken überbrückt und gleichzeitig die räumliche Struktur sowie die zeitliche Kontinuität der Kontrastkinetik sicherstellt.

Jindi Kong, Yuting He, Cong Xia + 2 more2026-02-24💻 cs

WildOS: Open-Vocabulary Object Search in the Wild

Das Paper stellt WildOS vor, ein integriertes System für die offene Objektsuche in der Wildnis, das durch die Kombination von sicherer geometrischer Exploration und semantischer visueller Schlussfolgerung mittels eines auf Fundamentmodellen basierenden Ansatzes eine robuste und effiziente autonome Navigation in komplexen, unstrukturierten Umgebungen ermöglicht.

Hardik Shah, Erica Tevere, Deegan Atha + 6 more2026-02-24💻 cs

IPv2: An Improved Image Purification Strategy for Real-World Ultra-Low-Dose Lung CT Denoising

Die Arbeit stellt IPv2 vor, eine verbesserte Bildbereinigungsstrategie, die durch die Einführung von Modulen zur Hintergrundentfernung und Rauschreduktion in Lungenparenchym und Hintergrund die Rauschunterdrückung und Strukturerhaltung bei der Entrauschung von realen Ultra-Low-Dose-Lungen-CT-Bildern signifikant verbessert.

Guoliang Gong, Man Yu2026-02-24🤖 cs.AI

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

Die Arbeit stellt USR 2.0 vor, eine effiziente und robuste Methode für die einheitliche Spracherkennung, die durch CTC-gesteuertes Teacher Forcing und gemischtes Sampling die Trainingszeit halbiert und gleichzeitig die Leistung bei verrauschten oder aus dem Verteilungsbereich liegenden Eingaben deutlich verbessert.

Alexandros Haliassos, Rodrigo Mira, Stavros Petridis2026-02-24💻 cs

US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

Die Studie stellt US-JEPA vor, ein selbstüberwachtes Framework, das mithilfe einer statischen Lehrer-Architektur und der SALT-Zielfunktion robuste Repräsentationen für medizinische Ultraschallbilder erzeugt und dabei auf UltraBench konkurrenzfähige Ergebnisse im Vergleich zu bestehenden State-of-the-Art-Modellen erzielt.

Ashwath Radhachandran, Vedrana Ivezić, Shreeram Athreya + 3 more2026-02-24🤖 cs.LG

DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware Filtering

Die Arbeit stellt „DefenseSplat" vor, eine frequenzbasierte Verteidigungsstrategie, die durch Wavelet-Transformationen und Filterung hochfrequenter Störungen die Robustheit von 3D-Gaussian-Splatting gegenüber adversarialen Angriffen verbessert, ohne die Leistung auf sauberen Daten signifikant zu beeinträchtigen.

Yiran Qiao, Yiren Lu, Yunlai Zhou + 4 more2026-02-24💻 cs

RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

Die Studie stellt „RetinaVision" vor, ein webbasiertes Deep-Learning-Framework, das OCT-Bilder mit einer Genauigkeit von 95,25 % (mittels Xception) klassifiziert und durch XAI-Methoden wie GradCAM und LIME die Interpretierbarkeit für die klinische Anwendung sicherstellt.

Mohammad Tahmid Noor, Shayan Abrar, Jannatul Adan Mahi + 3 more2026-02-24🤖 cs.AI

MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

Das Paper stellt MultiDiffSense vor, einen einheitlichen Diffusionsmodell-Ansatz, der auf CAD-basierten Tiefenkarten und strukturierten Prompts basiert, um physikalisch konsistente, multimodale visuo-taktile Bilder für verschiedene Sensoren zu synthetisieren und so die datenhungrige Erfassung realer Datensätze für robotische Anwendungen erheblich zu beschleunigen.

Sirine Bhouri, Lan Wei, Jian-Qing Zheng + 1 more2026-02-24🤖 cs.AI

UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation

Die Arbeit stellt UP-Fuse vor, ein neuartiges, unsicherheitsgesteuertes Fusionsframework im 2D-Reichweitenblick, das durch die dynamische Gewichtung visueller Merkmale auf Basis von Unsicherheitskarten eine robuste 3D-panoptische Segmentierung auch bei schwerwiegenden Kameraausfällen oder Kalibrierungsfehlern ermöglicht.

Rohit Mohan, Florian Drews, Yakov Miron + 2 more2026-02-24🤖 cs.AI

PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

Das Paper stellt PoseCraft vor, ein Diffusionsframework, das diskretisierte 3D-Körperlandmarken und Kameraparameter als Conditioning-Tokens nutzt, um fotorealistische menschliche Avatare mit präziser Pose- und Kamerasteuerung zu synthetisieren und dabei die Grenzen bestehender rigging-basierter oder volumetrischer Methoden zu überwinden.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

Die Studie „MentalBlackboard" stellt einen Benchmark für die räumliche Visualisierung von Vision-Language-Modellen mittels Papierfaltungs- und Lochbohrungsaufgaben vor und zeigt, dass selbst fortschrittliche Modelle bei der Anwendung symmetrischer Transformationen und der räumlichen Planung erhebliche Schwierigkeiten haben.

Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba + 2 more2026-02-24🤖 cs.LG

Referring Layer Decomposition

Die Arbeit stellt die neue Aufgabe der „Referring Layer Decomposition" (RLD) vor, die durch den großen Datensatz RefLade und das Basismodell RefLayer ermöglicht, aus einzelnen RGB-Bildern unter Verwendung flexibler Benutzeranweisungen präzise, objektbewusste RGBA-Ebenen zu generieren.

Fangyi Chen, Yaojie Shen, Lu Xu + 4 more2026-02-24💻 cs

← Zurück Weiter →