Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Die Studie stellt ein neuartiges Multitask-Learning-Framework namens CSASN vor, das durch die Kombination von EfficientNet und Vision-Transformern mit einem dualen Aufmerksamkeitsmechanismus die präzise Erkennung seltener Schilddrüsenkarzinome in Ultraschallbildern trotz heterogener Merkmale und Datenungleichgewichts ermöglicht.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Diese Arbeit charakterisiert das von Apple in iPhone-Porträtmodi erzeugte synthetische Defokus-Rauschmuster (SDNP), entwickelt Methoden zu dessen präziser Modellierung und zeigt auf, wie dessen Berücksichtigung die Zuverlässigkeit von PRNU-basierten forensischen Quellenverifizierungen verbessert und neue Spuren für die Geräteidentifizierung bietet.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Die Arbeit stellt MoB vor, eine Methode zur visuellen Token-Pruning, die durch die Formulierung als bi-zielgerichtetes Abdeckungsproblem und die Nutzung von Hausdorff-Distanz sowie ϵ\epsilon-Abdeckungstheorie einen optimalen Kompromiss zwischen Prompt-Ausrichtung und visueller Erhaltung findet, wodurch bei Multimodalen Large Language Models wie LLaVA eine signifikante Beschleunigung bei minimalem Leistungsverlust erreicht wird.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Diese Studie stellt eine vergleichende Analyse traditioneller OCR-Systeme und moderner Large Language Models (LLMs) für die Erkennung von Urdu-Zeitungstexten vor, bei der durch die Einführung des neu annotierten Urdu Newspaper Benchmark (UNB) sowie durch Optimierungen wie Super-Resolution und Feinabstimmung gezeigt wird, dass angepasste LLMs wie GPT-4o und Gemini-2.5-Pro die Genauigkeit bei komplexen Nastaliq-Schriften erheblich steigern können.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Die Arbeit stellt eine extrem einfache und theoretisch fundierte Methode namens Feature Mixing zur Synthese multimodaler Ausreißer für die Verbesserung der Out-of-Distribution-Erkennung und -Segmentierung vor, ergänzt durch einen neuen Datensatz namens CARLA-OOD, und demonstriert damit einen neuen State-of-the-Art mit einer bis zu 370-fachen Geschwindigkeitssteigerung.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Die Arbeit stellt TADA vor, ein Framework zur gezielten Bildaugmentation mittels Diffusionsmodellen, das durch selektive Erweiterung nur derjenigen Trainingsdaten, die zu Beginn des Lernprozesses noch nicht erfasst wurden, die Generalisierungsfähigkeit von Bildklassifizierern effizient verbessert und dabei den Rechenaufwand im Vergleich zu herkömmlichen Methoden signifikant reduziert.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Die vorgestellte Arbeit entwickelt „Fast Equivariant Imaging" (FEI), ein neuartiges unüberwachtes Lernframework, das durch die Kombination von Augmented Lagrangian und Plug-and-Play-Denoisern das Training von Bildgebungsnetzwerken ohne Ground-Truth-Daten um den Faktor 10 beschleunigt und gleichzeitig die Generalisierungsleistung verbessert.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

VITA: Vision-to-Action Flow Matching Policy

Das Paper stellt VITA vor, ein effizientes, visuell fundiertes Flow-Matching-Rahmenwerk, das durch den direkten Übergang von visuellen Repräsentationen zu latenten Aktionen ohne iterative Denoising-Prozesse oder visuelle Konditionierung die Inferenzgeschwindigkeit um das 1,5- bis 2-Fache steigert und dabei die Leistungsfähigkeit bestehender State-of-the-Art-Policies erreicht oder übertrifft.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI