LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

Die Arbeit stellt LinearSR vor, ein umfassendes Framework, das durch innovative Strategien wie die ESGF-Fine-Tuning-Methode, eine SNR-basierte Mixture-of-Experts-Architektur und den TAG-Leitmechanismus erstmals stabile und effiziente lineare Aufmerksamkeit für photorealistische Bild-Super-Resolution ermöglicht und dabei sowohl höchste Bildqualität als auch hohe Geschwindigkeit erreicht.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Das Paper stellt PHyCLIP vor, ein neues Vision-Language-Modell, das durch die Verwendung eines 1\ell_1-Produkts aus hyperbolischen Faktoren sowohl hierarchische Beziehungen innerhalb von Konzeptfamilien als auch kompositionelle Strukturen über verschiedene Familien hinweg effektiv vereint und dabei bestehende Ansätze in verschiedenen Aufgaben übertrifft.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Die Arbeit stellt einen Co-Learning-Rahmen (CSL) vor, der semantisch bewusste Merkmalslernen und die Wiederherstellung fehlender Labels in einem einheitlichen Paradigma integriert, um die Herausforderungen der unvollständigen Multi-Label-Bilderkennung auf mehreren Datensätzen effektiv zu lösen und dabei den aktuellen Stand der Technik zu übertreffen.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

Das Paper stellt UniFlow vor, einen einheitlichen Pixel-Flow-Tokenisierer, der durch adaptive Selbst-Distillation und einen leichten patchweisen Decoder die traditionelle Kompromiss zwischen visueller Verständnis- und Generierungsleistung überwindet und dabei auf 13 Benchmarks sowohl in der semantischen Analyse als auch in der hochfiden Bildgenerierung neue Bestleistungen erzielt.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Die Arbeit stellt ein neuartiges zweistufiges Trainingsframework vor, das durch selbstüberwachtes Pre-Training von Encodern und anschließendes End-to-End-Feintuning erstmals hochauflösende Pixelraum-Generativmodelle (Diffusion und Konsistenz) ohne VAEs ermöglicht und dabei sowohl die Bildqualität als auch die Recheneffizienz gegenüber latenten Modellen deutlich verbessert.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Die Arbeit stellt Fly-CL vor, ein von der Fliege inspiriertes Framework, das durch die schrittweise Auflösung von Multikollinearität in vortrainierten Modellen das Katastrophale Vergessen effektiv bekämpft und dabei die Trainingszeit im Vergleich zu bestehenden Methoden erheblich reduziert.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Das Paper stellt "Brain-IT" vor, eine auf einem Brain-Interaction Transformer basierende Methode, die durch die Interaktion funktioneller Hirnvoxel-Cluster und die Vorhersage komplementärer semantischer sowie struktureller Bildmerkmale fMRI-Daten in treue Bildrekonstruktionen übersetzt und dabei sowohl die Bildqualität als auch die Dateneffizienz im Vergleich zu aktuellen State-of-the-Art-Verfahren signifikant verbessert.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Diese Arbeit stellt eine neuartige Methode vor, die ausschließlich aus einer einzigen Sprachaufnahme hochauflösende, qualitativ hochwertige sprechende Gesichter erzeugt, indem sie einen sprachgesteuerten Diffusionsprozess mit statistischen Gesichtspriors und einem regionsbasierten Verfeinerungsmodul kombiniert, um Lippenbewegungen, Mimik und Augenbewegungen präzise zu synchronisieren.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

VeCoR -- Velocity Contrastive Regularization for Flow Matching

Die Arbeit stellt VeCoR vor, eine kontrastive Regularisierungsmethode für Flow Matching, die durch die Einführung einer zweiseitigen Anziehungs- und Abstoßungs-Supervision die Stabilität und Bildqualität verbessert, indem sie den gelernten Geschwindigkeitsfeldern hilft, auf dem Datenmanifold zu bleiben und Fehler in leichten oder wenigstufigen Konfigurationen zu reduzieren.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs