cs.CV Arbeiten | Gist.Science

A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

Diese Arbeit stellt ein Evaluierungsprotokoll vor, das durch die Kombination von Randmetriken, einer Analyse der Gleichheit zwischen Kern- und dünnen Strich-Subsets sowie nicht-parametrischen Signifikanztests die extreme Klassenungleichgewicht bei der Weißbrett-Strichsegmentierung aufdeckt und zeigt, dass überlappungsbasierte Verlustfunktionen sowie eine höhere Trainingsauflösung die Leistung signifikant verbessern, wobei gelernte Modelle im Vergleich zu klassischen Baselines eine bessere Worst-Case-Zuverlässigkeit bieten.

Nicholas Korcynski2026-03-03🤖 cs.LG

ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering

Der Paper stellt ConFoThinking vor, einen neuen Rahmen für das visuelle Fragenbeantworten, der durch die Konsolidierung von Aufmerksamkeitsmustern in einer Zwischenschicht und die Extraktion mittels prägnanter semantischer Hinweise die Lokalisierung relevanter Bildregionen verbessert und so die Wahrnehmungsfähigkeit von multimodalen Sprachmodellen erheblich steigert.

Zhaodong Wu, Haochen Xue, Qi Cao + 5 more2026-03-03💻 cs

Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?

Diese Arbeit stellt ein hierarchisches Rahmenwerk für die „AI Obedience" vor, identifiziert die Schwierigkeit der reinen Farbgenerierung als zentrales Defizit aktueller Modelle und führt mit VIOLIN den ersten Benchmark zur systematischen Evaluierung dieser Fähigkeit ein.

Hongyu Li, Kuan Liu, Yuan Chen + 6 more2026-03-03🤖 cs.AI

Image-Based Classification of Olive Species Specific to Turkiye with Deep Neural Networks

Diese Studie demonstriert, dass ein auf Transfer Learning basierendes Deep-Learning-System mit dem EfficientNetB0-Modell türkische Olivensorten mit einer Genauigkeit von 94,5 % automatisch klassifizieren kann.

Irfan Atabas, Hatice Karatas2026-03-03💻 cs

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

Der Bericht beschreibt die Entwicklung des Video-Grundmodells Summer-22B, wobei er die überwiegende Bedeutung des Dataset-Engineerings, die verwendeten Skalierungstechniken und die gewonnenen Erkenntnisse für die Ausbildung von Modellen auf großen Datenmengen hervorhebt.

Simo Ryu, Chunghwan Han2026-03-03🤖 cs.LG

Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

Das Paper stellt ST-Lite vor, ein trainingsfreies Framework zur Komprimierung des KV-Caches für GUI-Agenten, das durch eine neuartige duale Bewertungsstrategie auf Basis von räumlicher Saliency und trajektorienbewusstem semantischem Gating eine signifikante Beschleunigung bei nur 10–20% des ursprünglichen Cache-Budgets ermöglicht.

Bowen Zhou, Zhou Xu, Wanli Li + 2 more2026-03-03🤖 cs.LG

Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning

Die Arbeit stellt LoDA vor, eine Methode zur kontinuierlichen Lernung, die durch eine auf Projektionsenergie basierende subspace-Zerlegung und eine gradientenorientierte Optimierung sowohl das Wissenstransfer als auch die Isolation in LoRA-basierten Modellen verbessert.

Lingfeng He, De Cheng, Huaijie Wang + 3 more2026-03-03🤖 cs.LG

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

Das Paper stellt SKeDA vor, ein generatives Wasserzeichen-Framework für Text-zu-Video-Diffusionsmodelle, das durch shuffle-basierte, verteilungserhaltende Abtastung und differentialle Aufmerksamkeit die Robustheit von Wasserzeichen gegenüber Frame-Umsortierung und zeitlichen Verzerrungen verbessert, während die Videoqualität erhalten bleibt.

Yang Yang, Xinze Zou, Zehua Ma + 2 more2026-03-03🤖 cs.AI

A Case Study on Concept Induction for Neuron-Level Interpretability in CNN

Diese Fallstudie bestätigt die Übertragbarkeit eines konzeptbasierten Frameworks zur Neuronen-Interpretierbarkeit in CNNs, indem sie dessen Wirksamkeit erfolgreich vom ADE20K- auf den SUN2012-Datensatz zur Szenenerkennung erweitert.

Moumita Sen Sarma, Samatha Ereshi Akkamahadevi, Pascal Hitzler2026-03-03🤖 cs.AI

Stateful Token Reduction for Long-Video Hybrid VLMs

Die Arbeit stellt eine schrittweise, sprachbewusste Token-Reduktionsmethode für hybride Video-VLMs vor, die durch die Berücksichtigung von Layer-spezifischer Sparsity und Instabilität der Token-Wichtigkeit eine signifikante Beschleunigung bei nahezu unveränderter Genauigkeit ermöglicht.

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko + 7 more2026-03-03🤖 cs.AI

AdURA-Net: Adaptive Uncertainty and Region-Aware Network

Die Arbeit stellt AdURA-Net vor, ein geometriegetriebenes, adaptives Framework zur zuverlässigen Klassifizierung thorakaler Erkrankungen, das durch eine spezielle Architektur und einen dualen Verlustansatz Unsicherheiten in medizinischen Bilddaten effektiv berücksichtigt.

Antik Aich Roy, Ujjwal Bhattacharya2026-03-03🤖 cs.AI

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

Diese Forschung optimiert die GAN-Modelle SOUP-GAN und CSR-GAN durch architektonische Verbesserungen und Hyperparameter-Tuning, um hochauflösende MR-Bilder mit reduzierten Artefakten und verbessertem diagnostischem Potenzial zu rekonstruieren, wobei CSR-GAN bei Detailtreue und SOUP-GAN bei struktureller Klarheit jeweils die besten Ergebnisse erzielen.

Muneeba Rashid, Hina Shakir, Humaira Mehwish + 2 more2026-03-03⚡ eess

Efficient Flow Matching for Sparse-View CT Reconstruction

Die vorgestellte Arbeit stellt einen effizienten, auf Flow Matching basierenden Ansatz für die CT-Rekonstruktion aus wenigen Ansichten vor, der durch deterministische Trajektorien und die Wiederverwendung vorhergesagter Geschwindigkeitsfelder die Inferenzeffizienz im Vergleich zu Diffusionsmodellen erheblich steigert, ohne die Rekonstruktionsqualität zu beeinträchtigen.

Jiayang Shi, Lincen Yang, Zhong Li + 3 more2026-03-03⚡ eess

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Die Arbeit stellt den TACIT-Benchmark vor, ein programmatisch generiertes visuelles Reasoning-Testset mit 10 Aufgaben in 6 Domänen, das generative und diskriminative Modelle durch deterministische Bildverifikation und mehrstufige Multiple-Choice-Fragen mit strukturellen Distraktoren objektiv bewertet.

Daniel Nobrega Medeiros2026-03-03🤖 cs.AI

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Die Arbeit stellt VisRef vor, ein rechenzeitskalierbares Framework für multimodale Reasoning-Modelle, das durch das gezielte Re-Injecten semantisch relevanter visueller Token während des Denkprozesses die Aufmerksamkeit auf das Bild bewahrt und so die Leistung bei festem Rechenbudget ohne zusätzliche RL-Feinabstimmung signifikant verbessert.

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li + 6 more2026-03-03🤖 cs.AI

Physical Evaluation of Naturalistic Adversarial Patches for Camera-Based Traffic-Sign Detection

Diese Studie untersucht die Wirksamkeit natürlicher adversarieller Patches bei der physischen Störung von Verkehrsschilder-Erkennungssystemen in autonomen Fahrzeugen, indem sie einen maßgeschneiderten Datensatz (CompGTSRB) und ein YOLOv5-Modell nutzt, um zu zeigen, wie verschiedene Konfigurationen die Erkennungsgenauigkeit beeinträchtigen und damit die Notwendigkeit robusterer Verteidigungsmechanismen unterstreichen.

Brianna D'Urso, Tahmid Hasan Sakib, Syed Rafay Hasan + 1 more2026-03-03🤖 cs.AI

Pretty Good Measurement for Radiomics: A Quantum-Inspired Multi-Class Classifier for Lung Cancer Subtyping and Prostate Cancer Risk Stratification

Diese Studie stellt einen quanteninspirierten Multi-Klassen-Klassifikator auf Basis der „Pretty Good Measurement" vor, der sich in radiomischen Anwendungen zur Subtypisierung von Lungenkrebs und Risikobewertung von Prostatakrebs als wettbewerbsfähig und in einigen Szenarien überlegen gegenüber etablierten klassischen Methoden erweist.

Giuseppe Sergioli, Carlo Cuccu, Giovanni Pasini + 4 more2026-03-03⚛️ quant-ph

Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

Die Autoren präsentieren einen neuen State-of-the-Art-Ansatz für Quantum Machine Learning, der es ermöglicht, hochauflösende und diverse Bilder auf den vollständigen MNIST- und Fashion-MNIST-Datensätzen ohne herkömmliche Vereinfachungstricks zu generieren, indem sie durch die Wahl spezifischer Variational-Circuit-Architekturen induktive Biases nutzen und so die Grenzen aktueller Quantengeneratoren überwinden.

Jonas Jäger, Florian J. Kiwit, Carlos A. Riofrío2026-03-03⚛️ quant-ph

Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization

Die vorgestellte Arbeit führt den AP-PCO-Framework ein, der durch eine gemeinsame Optimierung von Position und Farbe sowie eine crossmodale Farbadaptierung effektiv und unauffällig adversarialle Angriffe auf multimodale visuell-infrarote Systeme für dichte Vorhersageaufgaben ermöglicht.

He Li, Wenyue He, Weihang Kong + 1 more2026-03-03💻 cs

Ozone Cues Mitigate Reflected Downwelling Radiance in LWIR Absorption-Based Ranging

Die vorgestellte Forschung verbessert die passive langwellige Infrarot-Entfernungsmessung durch die Nutzung von Ozon-Absorptionsmerkmalen, um den störenden Einfluss reflektierter einfallender Strahlung zu kompensieren und die Messgenauigkeit signifikant zu erhöhen.

Unay Dorken Gallastegi, Wentao Shangguan, Vaibhav Choudhary + 4 more2026-03-03⚡ eess

← Zurück Weiter →