cs.CV Arbeiten | Gist.Science

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Die Arbeit stellt VITA vor, eine Methode zur Null-Shot-Lernung von Wertfunktionen, die durch Testzeit-Adaptation von Vision-Language-Modellen deren Generalisierungsfähigkeit und zeitliches Schlussfolgern verbessert und damit in robotischen Manipulationsaufgaben sowie beim Offline-Reinforcement-Learning den aktuellen Stand der Technik übertrifft.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

Die Arbeit stellt VINCIE vor, ein skalierbares Modell, das durch das direkte Lernen aus annotierten Videos und die Nutzung von Block-kausalen Diffusions-Transformern für mehrere Proxy-Aufgaben state-of-the-art Ergebnisse beim in-Kontext-Bildbearbeiten erzielt, ohne auf spezialisierte Expertensysteme angewiesen zu sein.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Das Paper stellt NIC-RobustBench, ein umfassendes Open-Source-Toolkit vor, das als Benchmark für die Analyse der adversarialen Robustheit neuronaler Bildkompressionsverfahren dient und dabei sowohl die Stabilität der Kompressionsmodelle als auch deren Auswirkungen auf nachgelagerte Aufgaben untersucht.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Das Paper stellt ConCM vor, ein neuartiges Few-Shot Class-Incremental-Learning-Framework, das durch eine hippocampusinspirierte Prototyp-Kalibrierung und dynamische Strukturabstimmung die Konsistenz von Merkmalen und Strukturen sicherstellt und so auf gängigen Benchmarks neue State-of-the-Art-Ergebnisse erzielt.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Die Arbeit stellt VisionDrop vor, ein trainingsfreies Framework zur visuellen Token-Reduktion in Large Vision-Language Models, das durch die Vermeidung von textbasierten Annahmen und die Nutzung einer fortschrittlichen, rein visuellen Selektion sowie schrittweisen Pruning-Prozesse die Rechenkosten erheblich senkt, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

EchoMimicV3 ist ein effizientes Framework mit nur 1,3 Milliarden Parametern, das durch innovative Architekturen wie „Soup-of-Tasks" und „Soup-of-Modals" sowie spezielle Trainingsstrategien eine einheitliche, multimodale und multiaufgabenbasierte menschliche Animation mit hoher Leistung und geringer Rechenlast ermöglicht.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Die Arbeit stellt CLiFT vor, einen neuralen Rendering-Ansatz, der Szenen als komprimierte Lichtfeld-Token darstellt, um durch eine adaptive Token-Anpassung eine rechen-effiziente und qualitativ hochwertige Neuansicht-Synthese unter verschiedenen Berechnungsbudgets zu ermöglichen.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Die vorgestellte Arbeit führt mit SeC ein konzeptgesteuertes Framework für die Videoobjektsegmentierung ein, das Large Vision-Language Models zur schrittweisen Konstruktion hochleveliger Repräsentationen nutzt und durch die Einführung des neuen SeCVOS-Benchmarks einen neuen State-of-the-Art in diesem Bereich erreicht.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Dieser Beitrag stellt ein modulares, hybrides Digital- und Robotik-Twinning-Framework vor, das die Validierung von Guidance-, Navigation- und Control-Systemen für Raumfahrzeugrendezvous und Formation Flying durch eine integrierte Kombination aus schneller Simulation und Hardware-in-the-Loop-Tests auf Robotik-Testständen ermöglicht.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Der Artikel stellt MonoFusion vor, eine Methode zur Rekonstruktion dynamischer Szenen aus wenigen Kameraperspektiven, die durch die präzise Ausrichtung unabhängiger monokularer Rekonstruktionen eine konsistente 4D-Darstellung ermöglicht und dabei kostspielige Mehrkamerasysteme ersetzt.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Der Artikel stellt HGTS-Former vor, ein neuartiges hypergraphbasiertes Transformer-Netzwerk, das durch hierarchische Hypergraphen komplexe multivariate Zeitreihen analysiert und dabei auf neuen Datensätzen für die Kernfusion sowie anderen Benchmark-Datensätzen state-of-the-art-Ergebnisse erzielt.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Diese Arbeit stellt eine neue MR-Simulationsmethode vor, die durch die Gruppierung von Isochromaten mit identischen Parametern die Rechenzeit im Vergleich zu herkömmlichen Verfahren um den Faktor 3 bis 72 reduziert.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Diese Arbeit stellt eine Methode vor, die durch die Verwendung von kausalen Delta-Einbettungen zur Darstellung von Eingriffen im latenten Raum eine robuste und distributionsoffene Generalisierung bei der kausalen Repräsentationslernen von Bildpaaren ohne zusätzliche Überwachung ermöglicht.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Das Paper stellt Uni-CoT vor, ein einheitliches Chain-of-Thought-Framework, das durch eine zweistufige Denkstrategie und ein strukturiertes Trainingskonzept kohärente multimodale Schlussfolgerungen über Text und Bild hinweg ermöglicht und dabei ressourceneffizient auf nur acht A100-GPUs trainiert werden kann.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Die Arbeit stellt ImagiDrive vor, ein einheitliches End-zu-End-Framework für autonomes Fahren, das die interpretierbare Entscheidungsfindung von Vision-Language-Modellen mit der realistischen Szenengeneration von Driving World Models in einem iterativen Planungs- und Imaginationszyklus vereint, um die Sicherheit und Leistungsfähigkeit in dynamischen Umgebungen zu verbessern.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

Das Paper stellt CineTrans vor, ein Framework, das mithilfe von Masken-basierten Diffusionsmodellen und einem neu erstellten Datensatz kohärente, filmische Mehr-Szenen-Videos mit stabilen Übergängen erzeugt und dabei bestehende Baselines in allen Qualitätskriterien übertrifft.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Das Paper stellt MOON vor, das erste generative multimodale Large-Language-Modell für das E-Commerce-Produktverständnis, das durch einen gelenkten Mixture-of-Experts-Ansatz, eine Unterdrückung von Hintergrundrauschen und eine spezialisierte negative Stichprobenstrategie die Darstellungslernen verbessert und zudem einen neuen großen multimodalen Benchmark (MBE) bereitstellt.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Die Autoren stellen einen neuartigen Ansatz zur Bildgenerierung namens Next Visual Granularity (NVG) vor, der Bilder durch eine strukturierte Sequenz mit unterschiedlichen Granularitätsstufen von globaler Struktur bis zu feinen Details erzeugt und dabei die State-of-the-Art-Ergebnisse der VAR-Serie auf dem ImageNet-Datensatz übertrifft.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Die Arbeit stellt ARMed vor, ein neuartiges Reinforcement-Learning-Framework, das durch die Kombination von Chain-of-Thought-Überwachtem Fine-Tuning und adaptiven semantischen Belohnungen das Problem des Reward-Collapses bei offenen medizinischen Bildfragen löst und so die Genauigkeit sowie Generalisierungsfähigkeit von Vision-Language-Modellen in klinischen Szenarien signifikant verbessert.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Die Autoren stellen einen neuartigen, entkoppelten Multi-Modal-Lernrahmen vor, der durch die Zerlegung von Histologie- und Transkriptomdaten in Tumor- und Mikroumgebungs-Subräume, eine konsistente Mehrskalen-Integration und eine wissensbasierte Destillation ohne strikte Datenpaarung die Herausforderungen der Heterogenität und Abhängigkeit von gepaarten Daten in der Krebscharakterisierung überwindet.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

← Zurück Weiter →