cs.CV Arbeiten | Gist.Science

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Das Paper stellt TTOM vor, ein training-freies Framework, das durch Test-Time-Optimierung und einen parametrischen Speichermechanismus die Fähigkeit von Video-Foundation-Modellen zur kompositorischen Generierung verbessert, indem es die Ausgabe während der Inferenz an räumlich-zeitliche Layouts anpasst.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

Die Arbeit stellt „Splat the Net" vor, eine neue volumetrische Darstellung mit splattbaren neuronalen Primitiven, die die hohe Ausdruckskraft neuronaler Modelle mit der Effizienz primitivesbasierten Splatting vereint und dabei die Qualität und Geschwindigkeit von 3D-Gaussian-Splatting bei deutlich weniger Primitiven und Parametern erreicht.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

Die Arbeit stellt LinearSR vor, ein umfassendes Framework, das durch innovative Strategien wie die ESGF-Fine-Tuning-Methode, eine SNR-basierte Mixture-of-Experts-Architektur und den TAG-Leitmechanismus erstmals stabile und effiziente lineare Aufmerksamkeit für photorealistische Bild-Super-Resolution ermöglicht und dabei sowohl höchste Bildqualität als auch hohe Geschwindigkeit erreicht.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Das Paper stellt PHyCLIP vor, ein neues Vision-Language-Modell, das durch die Verwendung eines $\ell_1$ -Produkts aus hyperbolischen Faktoren sowohl hierarchische Beziehungen innerhalb von Konzeptfamilien als auch kompositionelle Strukturen über verschiedene Familien hinweg effektiv vereint und dabei bestehende Ansätze in verschiedenen Aufgaben übertrifft.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Die Arbeit stellt einen Co-Learning-Rahmen (CSL) vor, der semantisch bewusste Merkmalslernen und die Wiederherstellung fehlender Labels in einem einheitlichen Paradigma integriert, um die Herausforderungen der unvollständigen Multi-Label-Bilderkennung auf mehreren Datensätzen effektiv zu lösen und dabei den aktuellen Stand der Technik zu übertreffen.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

Das Paper stellt UniFlow vor, einen einheitlichen Pixel-Flow-Tokenisierer, der durch adaptive Selbst-Distillation und einen leichten patchweisen Decoder die traditionelle Kompromiss zwischen visueller Verständnis- und Generierungsleistung überwindet und dabei auf 13 Benchmarks sowohl in der semantischen Analyse als auch in der hochfiden Bildgenerierung neue Bestleistungen erzielt.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Die Arbeit stellt ein neuartiges zweistufiges Trainingsframework vor, das durch selbstüberwachtes Pre-Training von Encodern und anschließendes End-to-End-Feintuning erstmals hochauflösende Pixelraum-Generativmodelle (Diffusion und Konsistenz) ohne VAEs ermöglicht und dabei sowohl die Bildqualität als auch die Recheneffizienz gegenüber latenten Modellen deutlich verbessert.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Die Arbeit stellt Fly-CL vor, ein von der Fliege inspiriertes Framework, das durch die schrittweise Auflösung von Multikollinearität in vortrainierten Modellen das Katastrophale Vergessen effektiv bekämpft und dabei die Trainingszeit im Vergleich zu bestehenden Methoden erheblich reduziert.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

Die Arbeit stellt Mono4DGS-HDR vor, ein bahnbrechendes System, das mittels eines zweistufigen Optimierungsansatzes auf Basis von Gaussian Splatting erstmals aus ungeordneten monokularen LDR-Videos mit abwechselnden Belichtungen rekonstruierbare 4D-HDR-Szenen erzeugt.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

LightMem ist ein effizientes, an das menschliche Gedächtnis angelehntes System, das durch eine dreistufige Architektur aus sensorischem Kurzzeit- und Langzeitgedächtnis die Genauigkeit von LLMs bei gleichzeitiger drastischer Reduktion von Token-Verbrauch und API-Aufrufen verbessert.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

Die Studie stellt BioCAP vor, ein biologisches Fundamentmodell, das durch den Einsatz von synthetischen, multimodalen Beschreibungen anstelle reiner Labels eine präzisere semantische Ausrichtung zwischen biologischen Bildern und Texten ermöglicht und so die Artenklassifizierung sowie die Bild-Text-Suche verbessert.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP ist eine Feed-Forward-Methode, die mithilfe eines trainierten Geometry Transformers und eines realistischen Material-Datensatzes volumetrische mechanische Eigenschaften wie Elastizitätsmodul, Poisson-Zahl und Dichte für 3D-Objekte präzise und schnell vorhersagt.

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Das Paper stellt Concerto vor, ein minimalistisches, durch 2D-3D-Selbstüberwachtes Lernen inspiriertes Modell, das überlegene räumliche Repräsentationen lernt und damit neue State-of-the-Ergebnisse in der 3D-Szenenverständnis erreicht.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

Die Arbeit stellt ProMoE vor, ein Mixture-of-Experts-Framework für Diffusion-Transformer, das durch einen zweistufigen Router mit expliziter Leitlinie und einem kontrastiven Verlust die spezialisierte Zuweisung von Bild-Token-Experten verbessert und so den aktuellen Stand der Technik auf ImageNet übertrifft.

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Das Paper stellt "Brain-IT" vor, eine auf einem Brain-Interaction Transformer basierende Methode, die durch die Interaktion funktioneller Hirnvoxel-Cluster und die Vorhersage komplementärer semantischer sowie struktureller Bildmerkmale fMRI-Daten in treue Bildrekonstruktionen übersetzt und dabei sowohl die Bildqualität als auch die Dateneffizienz im Vergleich zu aktuellen State-of-the-Art-Verfahren signifikant verbessert.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Diese Arbeit stellt eine neuartige Methode vor, die ausschließlich aus einer einzigen Sprachaufnahme hochauflösende, qualitativ hochwertige sprechende Gesichter erzeugt, indem sie einen sprachgesteuerten Diffusionsprozess mit statistischen Gesichtspriors und einem regionsbasierten Verfeinerungsmodul kombiniert, um Lippenbewegungen, Mimik und Augenbewegungen präzise zu synchronisieren.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

Das Paper stellt ThinkMorph vor, ein einheitliches Modell, das durch feinabgestimmtes Training auf 24.000 hochqualitativen, multimodal verflochtenen Denkpfaden emergente Fähigkeiten zur adaptiven Verknüpfung von Text- und Bildschritten entwickelt und dabei sowohl visionäre Benchmarks als auch proprietäre Modelle übertrifft.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Diese Studie zeigt, dass die Leistung von medizinischen Bildsegmentierungsmodellen einem geometriebegrenzten Skalierungsgesetz folgt, das durch topologiebewusste Augmentierung zwar effizienter gestaltet, aber nicht in seiner grundlegenden Struktur verändert werden kann.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

Die Arbeit stellt VeCoR vor, eine kontrastive Regularisierungsmethode für Flow Matching, die durch die Einführung einer zweiseitigen Anziehungs- und Abstoßungs-Supervision die Stabilität und Bildqualität verbessert, indem sie den gelernten Geschwindigkeitsfeldern hilft, auf dem Datenmanifold zu bleiben und Fehler in leichten oder wenigstufigen Konfigurationen zu reduzieren.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Das Paper stellt UltraViCo vor, eine trainingsfreie Methode, die durch die Unterdrückung der Aufmerksamkeit für Tokens außerhalb des Trainingsfensters die Extrapolationsgrenze von Video-Diffusions-Transformern von 2x auf 4x erweitert und dabei sowohl periodische Wiederholungen als auch Qualitätsverluste effektiv behebt.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

← Zurück Weiter →

cs.CV