cs.CV Arbeiten | Gist.Science

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Das Paper stellt SHINE vor, ein trainingsfreies Framework, das auf dem FLUX-Modell aufbaut, um physikalisch plausible Bildkompositionen mit präzisen Schatten und Reflexionen zu erzeugen, und führt gleichzeitig den neuen Benchmark ComplexCompo ein, um die Leistung unter komplexen Bedingungen zu evaluieren.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

Dieses Paper stellt QuadGPT vor, das erste autoregressive Framework, das End-to-End-Quadrilateralmeshes direkt generiert und dabei durch eine einheitliche Tokenisierung sowie eine spezialisierte Reinforcement-Learning-Feinabstimmung (tDPO) die geometrische Genauigkeit und topologische Qualität bestehender Dreiecks-zu-Viereck-Konversionspipelines deutlich übertrifft.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

Die Arbeit stellt DistillKac vor, einen schnellen Bildgenerator, der durch die Nutzung der gedämpften Wellengleichung und ihrer stochastischen Kac-Darstellung eine endliche Ausbreitungsgeschwindigkeit gewährleistet und durch Endpunkt-Distillation sowie eine neue Form der classifier-free guidance in Geschwindigkeitsräumen hochwertige Bilder mit sehr wenigen Funktionsevaluierungen erzeugt.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Diese Arbeit stellt einen offenen, vielschichtigen und skalierbaren Ansatz zur Anpassung der visuellen Emotionsbewertung für multimodale große Sprachmodelle vor, der durch eine neue Aufgabe und eine automatisierte Pipeline bestehende Evaluierungslücken schließt und deutliche Verbesserungspotenziale im Vergleich zum menschlichen Urteilsvermögen aufzeigt.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Die Arbeit stellt COMPASS vor, ein Framework zur effizienten und robusten konformen Vorhersage von medizinischen Segmentierungsmetriken, das durch Kalibrierung im Merkmalsraum der neuronalen Netze präzisere Unsicherheitsintervalle liefert als herkömmliche Methoden.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Das Paper stellt CircuitSense vor, ein umfassendes Benchmark für multimodale Large Language Models, das deren Fähigkeit bewertet, technische Schaltpläne zu verstehen und daraus symbolische mathematische Gleichungen abzuleiten, wobei die Ergebnisse eine erhebliche Lücke zwischen visueller Wahrnehmung und mathematischem Schlussfolgern aufzeigen.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Diese Arbeit stellt NeuroAdapter vor, ein interpretierbares Framework zur direkten Konditionierung latenter Diffusionsmodelle auf fMRI-Signale ohne Zwischenschichten, das mittels des IBBI-Ansatzes die Rolle verschiedener kortikaler Areale bei der Bildrekonstruktion transparent macht.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Die Arbeit stellt DiffInk vor, ein bahnbrechendes Framework, das auf einem latenten Diffusions-Transformer und einem neuartigen InkVAE basiert, um durch disjunkte Repräsentation von Schriftzeichen und Stil effizient und präzise vollständige handschriftliche Zeilen aus Texteingaben zu generieren.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

Die Arbeit stellt SMART-R1 vor, ein neuartiges Reinforcement-Fine-Tuning-Verfahren, das durch eine iterative SFT-RFT-SFT-Strategie und metrikorientierte Policy-Optimierung die Generalisierungsfähigkeit von Multi-Agenten-Verkehrssimulationen verbessert und auf dem Waymo Open Sim Agents Challenge einen neuen State-of-the-Art erreicht.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Die Arbeit stellt EditReward vor, ein reward-Modell, das auf einem neuartigen, von Experten annotierten Datensatz mit über 200.000 Präferenzpaaren trainiert wurde, um die menschliche Übereinstimmung bei instruktionsgesteuerten Bildbearbeitungsaufgaben zu verbessern und als Filter für hochwertige Trainingsdaten zu dienen.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos ist ein einzelner Vorwärts-Gaussian-Splatting-Rahmen, der unposede 3D-Szenen aus einem einzelnen Bild oder einer Mehransichtssammlung in Echtzeit stilisiert, indem er einen Transformer mit zwei Pfaden und einen voxelbasierten 3D-Stilverlust nutzt, um geometrieerhaltende, ansichts-konsistente Ergebnisse ohne per-Szenen-Optimierung zu erzielen.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Die Studie stellt C³B vor, ein neues, mehrsprachiges und mehrstufiges Benchmark mit über 2000 Comic-Bildern und 18.000 Fragen-Antwort-Paaren, das die signifikanten Defizite aktueller multimodaler Sprachmodelle im Bereich des kulturellen Bewusstseins aufdeckt und als Herausforderung für zukünftige Forschung dient.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

Die Arbeit stellt LVTINO vor, den ersten Zero-Shot-Inversenlöser für die hochauflösende Video-Wiederherstellung, der Video-Konsistenzmodelle (VCMs) nutzt, um im Vergleich zu bildbasierten Ansätzen sowohl eine hohe zeitliche Konsistenz als auch eine überlegene Rekonstruktionsqualität bei hoher Recheneffizienz zu erreichen.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Die Arbeit stellt DragFlow vor, ein Framework, das die starken generativen Priors von DiT-Modellen wie FLUX durch einen neuartigen, auf Regionen basierenden Bearbeitungsansatz nutzt, um Verzerrungen bei Drag-Editing zu überwinden und gleichzeitig die Subjektkonsistenz sowie die Hintergrundtreue zu verbessern.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

Die Arbeit stellt ChainMPQ vor, eine trainingsfreie Methode, die durch die Generierung von mehrperspektivischen Fragen und die Nutzung akkumulierter visueller und textueller Erinnerungen in einer interleaved Kette Relationen-Halluzinationen in Large Vision-Language Models effektiv reduziert.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

Die Arbeit stellt den VA-Adapter vor, der einen Ultraschall-Grundlagenmodell durch die Online-Integration von visuellen und aktionsbasierten Sequenzen an die Echokardiographie anpasst, um die individuelle 3D-Struktur des Herzens zu erfassen und so die Sonde präzise zu steuern, wobei er mit deutlich weniger Parametern als bestehende Modelle überlegene Ergebnisse erzielt.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Das Paper stellt TTOM vor, ein training-freies Framework, das durch Test-Time-Optimierung und einen parametrischen Speichermechanismus die Fähigkeit von Video-Foundation-Modellen zur kompositorischen Generierung verbessert, indem es die Ausgabe während der Inferenz an räumlich-zeitliche Layouts anpasst.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

Die Arbeit stellt „Splat the Net" vor, eine neue volumetrische Darstellung mit splattbaren neuronalen Primitiven, die die hohe Ausdruckskraft neuronaler Modelle mit der Effizienz primitivesbasierten Splatting vereint und dabei die Qualität und Geschwindigkeit von 3D-Gaussian-Splatting bei deutlich weniger Primitiven und Parametern erreicht.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

Die Arbeit stellt LinearSR vor, ein umfassendes Framework, das durch innovative Strategien wie die ESGF-Fine-Tuning-Methode, eine SNR-basierte Mixture-of-Experts-Architektur und den TAG-Leitmechanismus erstmals stabile und effiziente lineare Aufmerksamkeit für photorealistische Bild-Super-Resolution ermöglicht und dabei sowohl höchste Bildqualität als auch hohe Geschwindigkeit erreicht.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Das Paper stellt PHyCLIP vor, ein neues Vision-Language-Modell, das durch die Verwendung eines $\ell_1$ -Produkts aus hyperbolischen Faktoren sowohl hierarchische Beziehungen innerhalb von Konzeptfamilien als auch kompositionelle Strukturen über verschiedene Familien hinweg effektiv vereint und dabei bestehende Ansätze in verschiedenen Aufgaben übertrifft.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

← Zurück Weiter →

cs.CV