cs.CV Arbeiten | Gist.Science

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Das Paper stellt Uni-CoT vor, ein einheitliches Chain-of-Thought-Framework, das durch eine zweistufige Denkstrategie und ein strukturiertes Trainingskonzept kohärente multimodale Schlussfolgerungen über Text und Bild hinweg ermöglicht und dabei ressourceneffizient auf nur acht A100-GPUs trainiert werden kann.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Die Arbeit stellt ImagiDrive vor, ein einheitliches End-zu-End-Framework für autonomes Fahren, das die interpretierbare Entscheidungsfindung von Vision-Language-Modellen mit der realistischen Szenengeneration von Driving World Models in einem iterativen Planungs- und Imaginationszyklus vereint, um die Sicherheit und Leistungsfähigkeit in dynamischen Umgebungen zu verbessern.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

Das Paper stellt CineTrans vor, ein Framework, das mithilfe von Masken-basierten Diffusionsmodellen und einem neu erstellten Datensatz kohärente, filmische Mehr-Szenen-Videos mit stabilen Übergängen erzeugt und dabei bestehende Baselines in allen Qualitätskriterien übertrifft.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Das Paper stellt MOON vor, das erste generative multimodale Large-Language-Modell für das E-Commerce-Produktverständnis, das durch einen gelenkten Mixture-of-Experts-Ansatz, eine Unterdrückung von Hintergrundrauschen und eine spezialisierte negative Stichprobenstrategie die Darstellungslernen verbessert und zudem einen neuen großen multimodalen Benchmark (MBE) bereitstellt.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Die Autoren stellen einen neuartigen Ansatz zur Bildgenerierung namens Next Visual Granularity (NVG) vor, der Bilder durch eine strukturierte Sequenz mit unterschiedlichen Granularitätsstufen von globaler Struktur bis zu feinen Details erzeugt und dabei die State-of-the-Art-Ergebnisse der VAR-Serie auf dem ImageNet-Datensatz übertrifft.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Die Arbeit stellt ARMed vor, ein neuartiges Reinforcement-Learning-Framework, das durch die Kombination von Chain-of-Thought-Überwachtem Fine-Tuning und adaptiven semantischen Belohnungen das Problem des Reward-Collapses bei offenen medizinischen Bildfragen löst und so die Genauigkeit sowie Generalisierungsfähigkeit von Vision-Language-Modellen in klinischen Szenarien signifikant verbessert.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Die Autoren stellen einen neuartigen, entkoppelten Multi-Modal-Lernrahmen vor, der durch die Zerlegung von Histologie- und Transkriptomdaten in Tumor- und Mikroumgebungs-Subräume, eine konsistente Mehrskalen-Integration und eine wissensbasierte Destillation ohne strikte Datenpaarung die Herausforderungen der Heterogenität und Abhängigkeit von gepaarten Daten in der Krebscharakterisierung überwindet.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Die Arbeit stellt TADSR vor, ein zeitaufmerksames Ein-Schritt-Diffusionsnetzwerk, das durch einen zeitaufmerksamen VAE-Encoder und einen entsprechenden VSD-Verlust die generativen Priors eines vortrainierten Stable-Diffusion-Modells bei variierenden Zeitschritten effektiv nutzt, um für die reale Bild-Super-Resolution sowohl einen State-of-the-Art-Ergebnis als auch eine kontrollierbare Balance zwischen Fidelity und Realismus zu erreichen.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

FastAvatar ist ein einheitliches Feedforward-Framework, das mithilfe eines Large Gaussian Reconstruction Transformers (LGRT) innerhalb von Sekunden hochwertige 3D-Gaussian-Splatting-Modelle aus alltäglichen Aufnahmen rekonstruiert und dabei eine flexible, inkrementelle Qualitätssteigerung bei variabler Eingabedatenmenge ermöglicht.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Die Arbeit stellt GACD vor, eine feinstimulierungsfreie Inferenzmethode, die durch gradientenbasierte Schätzung und gezielte Unterdrückung von visuellen Verzerrungen sowie eine Neugewichtung multimodaler Beiträge Multimodal-Halluzinationen in großen Sprachmodellen effektiv reduziert.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

Das Paper stellt RTGMFF vor, ein multimodales Framework, das durch die Generierung von ROI-basierten Texten und die Fusion von frequenz- und raumdomänenbasierten Merkmalen die Diagnose von Hirnerkrankungen mittels fMRI verbessert.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Die Autoren stellen mit T2I-CoReBench ein umfassendes Benchmark vor, das die Fähigkeiten von Text-zu-Bild-Modellen in Komposition und logischem Schlussfolgern anhand eines detaillierten 12-dimensionalen Rahmens evaluiert und dabei zeigt, dass insbesondere das implizite Schlussfolgern eine kritische Schwachstelle aktueller Modelle bleibt.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

Das Paper stellt UniView vor, ein Modell, das die Synthese neuer Ansichten aus einem einzelnen Bild verbessert, indem es durch einen MLLM-gestützten Abruf und einen Adapter-Modul Referenzbilder ähnlicher Objekte nutzt, um mehrdeutige Bereiche zu reduzieren und Details zu erhalten.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Diese Arbeit stellt eine Methode zur verbesserten 3D-Szenen-Stilisierung vor, die durch eine referenzbasierte Aufmerksamkeitsmechanik, mehrfache Tiefenkarten und einen gewichteten Sliced-Wasserstein-Verlust sowohl konsistente Ansichten als auch eine semantisch korrekte, regionsbasierte Stilübertragung ermöglicht.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

Die Arbeit stellt LADB vor, ein halbüberwachtes Framework, das vortrainierte Diffusionsmodelle durch Ausrichtung in einem gemeinsamen latenten Raum nutzt, um hochwertige Domänenübersetzungen auch bei nur teilweise gepaarten Daten zu ermöglichen.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

Die Arbeit stellt TrueSkin vor, einen umfassenden Datensatz mit 7299 Bildern, der genutzt wird, um erhebliche Verzerrungen bei der Erkennung und Generierung von Hauttönen in aktuellen Modellen aufzudecken und durch gezieltes Training sowohl die Klassifikationsgenauigkeit als auch die Fidelity bei der Bildsynthese signifikant zu verbessern.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Die Arbeit stellt BWCache vor, eine trainingsfreie Methode, die durch dynamisches Caching und Wiederverwenden von Block-Features bei ähnlichen Diffusionsschritten die Inferenzzeit von Video-Diffusion-Transformern bis zu sechsfach beschleunigt, ohne dabei die visuelle Qualität zu beeinträchtigen.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Die Arbeit stellt Brain-HGCN vor, ein auf hyperbolischer Geometrie basierendes Graph-Convolutional-Netzwerk, das die hierarchische Struktur von fMRI-basierten Gehirnnetzwerken präziser modelliert als euklidische Ansätze und damit die Klassifizierung psychiatrischer Störungen signifikant verbessert.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Die Studie stellt I2S (Interact2Sign) vor, ein leichtgewichtiges, mehrstufiges Framework zur unobtrusiven Benutzeridentifizierung in Echtzeit durch Analyse von 3D-Handposen bei Mensch-Objekt-Interaktionen, das auf dem ARCTIC- und H2O-Datensätzen eine Genauigkeit von 97,52 % erreicht und sich ideal für sicherheitskritische AR-Systeme eignet.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Die Arbeit stellt GeoProto vor, ein interpretierbares Verfahren zur feinkörnigen Bilderkennung, das durch die Nutzung von Diffusionskarten und einer differenzierbaren Nyström-Interpolation die intrinsische Geometrie von Merkmalen nutzt, um die Genauigkeit und semantische Kohärenz von Prototypen im Vergleich zu euklidischen Ansätzen erheblich zu verbessern.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

← Zurück Weiter →