Rate-Distortion Signatures of Generalization and Information Trade-offs

Die Studie führt einen raten-verzerrungstheoretischen Rahmen ein, der durch zwei geometrische Signaturen (Steigung und Krümmung) die Kompromisse zwischen Genauigkeit und Robustheit quantifiziert und zeigt, dass sich menschliche und künstliche Sehsysteme trotz eines gemeinsamen Verlustkompressionsprinzips in ihrer Generalisierungsgeometrie systematisch unterscheiden.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Diese Arbeit stellt einen öffentlich verfügbaren Datensatz mit 21 Videos und einer Taxonomie von 90 für blinde und sehbehinderte Personen entscheidenden Objekten vor, der aufzeigt, dass aktuelle Computer-Vision-Modelle für die Navigation dieser Zielgruppe unzureichend sind und die Notwendigkeit spezialisierter Trainingsdaten unterstreicht.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Diese Arbeit stellt ein modellagnostisches, mehrkriterielles Evaluierungsframework vor, das den Trade-off zwischen Nutzen und Fairness in Machine-Learning-Systemen, insbesondere im medizinischen Bildbereich, durch eine kompakte Visualisierung und quantitative Analyse systematisch bewertet und dabei die Open-Source-Verfügbarkeit unterstreicht.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Die Arbeit stellt TADSR vor, ein zeitaufmerksames Ein-Schritt-Diffusionsnetzwerk, das durch einen zeitaufmerksamen VAE-Encoder und einen entsprechenden VSD-Verlust die generativen Priors eines vortrainierten Stable-Diffusion-Modells bei variierenden Zeitschritten effektiv nutzt, um für die reale Bild-Super-Resolution sowohl einen State-of-the-Art-Ergebnis als auch eine kontrollierbare Balance zwischen Fidelity und Realismus zu erreichen.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Die Autoren stellen einen neuartigen, entkoppelten Multi-Modal-Lernrahmen vor, der durch die Zerlegung von Histologie- und Transkriptomdaten in Tumor- und Mikroumgebungs-Subräume, eine konsistente Mehrskalen-Integration und eine wissensbasierte Destillation ohne strikte Datenpaarung die Herausforderungen der Heterogenität und Abhängigkeit von gepaarten Daten in der Krebscharakterisierung überwindet.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Die Arbeit stellt eine Meta-Lern-Methode namens Meta-Adaptive Prompt Distillation vor, die durch die Anpassung von aus aufgabenrelevanten visuellen Merkmalen destillierten Soft-Prompts die Few-Shot-Fähigkeiten von Large Multimodal Models für das Visual Question Answering verbessert und dabei die Leistung herkömmlicher In-Context-Learning-Ansätze signifikant übertrifft.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Die Arbeit stellt SemHiTok vor, einen einheitlichen Bild-Tokenisierer, der durch einen semantisch geführten hierarchischen Codebook-Ansatz die Herausforderung eines optimalen Kompromisses zwischen multimodalem Verständnis und Bildgenerierung löst, indem er semantische und pixelbasierte Merkmale strukturell entkoppelt.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI