cs.CV Arbeiten | Gist.Science

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Die Arbeit stellt CLiFT vor, einen neuralen Rendering-Ansatz, der Szenen als komprimierte Lichtfeld-Token darstellt, um durch eine adaptive Token-Anpassung eine rechen-effiziente und qualitativ hochwertige Neuansicht-Synthese unter verschiedenen Berechnungsbudgets zu ermöglichen.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Die vorgestellte Arbeit führt mit SeC ein konzeptgesteuertes Framework für die Videoobjektsegmentierung ein, das Large Vision-Language Models zur schrittweisen Konstruktion hochleveliger Repräsentationen nutzt und durch die Einführung des neuen SeCVOS-Benchmarks einen neuen State-of-the-Art in diesem Bereich erreicht.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Dieser Beitrag stellt ein modulares, hybrides Digital- und Robotik-Twinning-Framework vor, das die Validierung von Guidance-, Navigation- und Control-Systemen für Raumfahrzeugrendezvous und Formation Flying durch eine integrierte Kombination aus schneller Simulation und Hardware-in-the-Loop-Tests auf Robotik-Testständen ermöglicht.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Der Artikel stellt MonoFusion vor, eine Methode zur Rekonstruktion dynamischer Szenen aus wenigen Kameraperspektiven, die durch die präzise Ausrichtung unabhängiger monokularer Rekonstruktionen eine konsistente 4D-Darstellung ermöglicht und dabei kostspielige Mehrkamerasysteme ersetzt.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Der Artikel stellt HGTS-Former vor, ein neuartiges hypergraphbasiertes Transformer-Netzwerk, das durch hierarchische Hypergraphen komplexe multivariate Zeitreihen analysiert und dabei auf neuen Datensätzen für die Kernfusion sowie anderen Benchmark-Datensätzen state-of-the-art-Ergebnisse erzielt.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Diese Arbeit stellt eine neue MR-Simulationsmethode vor, die durch die Gruppierung von Isochromaten mit identischen Parametern die Rechenzeit im Vergleich zu herkömmlichen Verfahren um den Faktor 3 bis 72 reduziert.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Diese Arbeit stellt eine Methode vor, die durch die Verwendung von kausalen Delta-Einbettungen zur Darstellung von Eingriffen im latenten Raum eine robuste und distributionsoffene Generalisierung bei der kausalen Repräsentationslernen von Bildpaaren ohne zusätzliche Überwachung ermöglicht.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Das Paper stellt Uni-CoT vor, ein einheitliches Chain-of-Thought-Framework, das durch eine zweistufige Denkstrategie und ein strukturiertes Trainingskonzept kohärente multimodale Schlussfolgerungen über Text und Bild hinweg ermöglicht und dabei ressourceneffizient auf nur acht A100-GPUs trainiert werden kann.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Die Arbeit stellt ImagiDrive vor, ein einheitliches End-zu-End-Framework für autonomes Fahren, das die interpretierbare Entscheidungsfindung von Vision-Language-Modellen mit der realistischen Szenengeneration von Driving World Models in einem iterativen Planungs- und Imaginationszyklus vereint, um die Sicherheit und Leistungsfähigkeit in dynamischen Umgebungen zu verbessern.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

Das Paper stellt CineTrans vor, ein Framework, das mithilfe von Masken-basierten Diffusionsmodellen und einem neu erstellten Datensatz kohärente, filmische Mehr-Szenen-Videos mit stabilen Übergängen erzeugt und dabei bestehende Baselines in allen Qualitätskriterien übertrifft.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Das Paper stellt MOON vor, das erste generative multimodale Large-Language-Modell für das E-Commerce-Produktverständnis, das durch einen gelenkten Mixture-of-Experts-Ansatz, eine Unterdrückung von Hintergrundrauschen und eine spezialisierte negative Stichprobenstrategie die Darstellungslernen verbessert und zudem einen neuen großen multimodalen Benchmark (MBE) bereitstellt.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Die Autoren stellen einen neuartigen Ansatz zur Bildgenerierung namens Next Visual Granularity (NVG) vor, der Bilder durch eine strukturierte Sequenz mit unterschiedlichen Granularitätsstufen von globaler Struktur bis zu feinen Details erzeugt und dabei die State-of-the-Art-Ergebnisse der VAR-Serie auf dem ImageNet-Datensatz übertrifft.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Die Arbeit stellt ARMed vor, ein neuartiges Reinforcement-Learning-Framework, das durch die Kombination von Chain-of-Thought-Überwachtem Fine-Tuning und adaptiven semantischen Belohnungen das Problem des Reward-Collapses bei offenen medizinischen Bildfragen löst und so die Genauigkeit sowie Generalisierungsfähigkeit von Vision-Language-Modellen in klinischen Szenarien signifikant verbessert.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Die Autoren stellen einen neuartigen, entkoppelten Multi-Modal-Lernrahmen vor, der durch die Zerlegung von Histologie- und Transkriptomdaten in Tumor- und Mikroumgebungs-Subräume, eine konsistente Mehrskalen-Integration und eine wissensbasierte Destillation ohne strikte Datenpaarung die Herausforderungen der Heterogenität und Abhängigkeit von gepaarten Daten in der Krebscharakterisierung überwindet.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Die Arbeit stellt TADSR vor, ein zeitaufmerksames Ein-Schritt-Diffusionsnetzwerk, das durch einen zeitaufmerksamen VAE-Encoder und einen entsprechenden VSD-Verlust die generativen Priors eines vortrainierten Stable-Diffusion-Modells bei variierenden Zeitschritten effektiv nutzt, um für die reale Bild-Super-Resolution sowohl einen State-of-the-Art-Ergebnis als auch eine kontrollierbare Balance zwischen Fidelity und Realismus zu erreichen.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

FastAvatar ist ein einheitliches Feedforward-Framework, das mithilfe eines Large Gaussian Reconstruction Transformers (LGRT) innerhalb von Sekunden hochwertige 3D-Gaussian-Splatting-Modelle aus alltäglichen Aufnahmen rekonstruiert und dabei eine flexible, inkrementelle Qualitätssteigerung bei variabler Eingabedatenmenge ermöglicht.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Die Arbeit stellt GACD vor, eine feinstimulierungsfreie Inferenzmethode, die durch gradientenbasierte Schätzung und gezielte Unterdrückung von visuellen Verzerrungen sowie eine Neugewichtung multimodaler Beiträge Multimodal-Halluzinationen in großen Sprachmodellen effektiv reduziert.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

Das Paper stellt RTGMFF vor, ein multimodales Framework, das durch die Generierung von ROI-basierten Texten und die Fusion von frequenz- und raumdomänenbasierten Merkmalen die Diagnose von Hirnerkrankungen mittels fMRI verbessert.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Die Autoren stellen mit T2I-CoReBench ein umfassendes Benchmark vor, das die Fähigkeiten von Text-zu-Bild-Modellen in Komposition und logischem Schlussfolgern anhand eines detaillierten 12-dimensionalen Rahmens evaluiert und dabei zeigt, dass insbesondere das implizite Schlussfolgern eine kritische Schwachstelle aktueller Modelle bleibt.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

Das Paper stellt UniView vor, ein Modell, das die Synthese neuer Ansichten aus einem einzelnen Bild verbessert, indem es durch einen MLLM-gestützten Abruf und einen Adapter-Modul Referenzbilder ähnlicher Objekte nutzt, um mehrdeutige Bereiche zu reduzieren und Details zu erhalten.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

← Zurück Weiter →