cs.CV Arbeiten | Gist.Science

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Die Arbeit stellt MTVCraft vor, ein bahnbrechendes Framework, das erstmals rohe 3D-Bewegungssequenzen (4D-Motion) durch einen speziellen Tokenizer und einen bewegungsbewussten Video-DiT direkt für die Animation beliebiger Charaktere nutzt, wodurch eine überlegene Generalisierung und flexible Steuerung im Vergleich zu herkömmlichen 2D-Pose-basierten Methoden erreicht wird.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Die vorgestellte Arbeit schlägt ein einheitliches Deep-Meta-Learning-Framework vor, das durch das Entfalten eines konvergenten Optimierungsalgorithmus in eine neuronale Netzwerkarchitektur die beschleunigte Bildrekonstruktion bei Multi-Coil-MRI und die Synthese über verschiedene Modalitäten hinweg vereint, um durch adaptive Optimierung und Meta-Lernen eine robuste Generalisierung bei stark unterabgetasteten Daten und Domänenverschiebungen zu erreichen.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Die Arbeit stellt EgoDex vor, das derzeit größte und vielfältigste Datenset für geschickte Manipulation, das aus 829 Stunden egozentrischen Videos mit präzisen 3D-Handtracking-Daten besteht, um das Problem der Datenknappheit im Bereich des Imitationslernens für Robotik zu lösen und Benchmarks für den Fortschritt in diesem Bereich zu etablieren.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Die Arbeit stellt Vid2World vor, einen allgemeinen Ansatz, der vortrainierte Videodiffusionsmodelle durch systematische Kausalität, Architekturänderungen und eine kausale Aktionssteuerung in interaktive Weltmodelle umwandelt, um hochwertige Vorhersagen für komplexe Entscheidungsprozesse zu ermöglichen.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Diese Arbeit stellt einen hybriden „Solver-in-the-Loop"-Ansatz vor, der einen vortrainierten 3D-generativen Prior mit einem rigorosen Randintegralgleichungslöser koppelt, um die rekonstruierte 3D-Geometrie der elektrischen Impedanztomographie durch harte physikalische Zwangsbedingungen und datengetriebene Regularisierung präzise und effizient zu bestimmen.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Die Arbeit stellt ViTaPEs vor, einen Transformer-basierten Ansatz, der durch eine neuartige zweistufige Positionscodierung visuell-taktile Repräsentationen lernt, um die multimodale Ausrichtung zu verbessern und sowohl in verschiedenen Erkennungsaufgaben als auch bei der Generalisierung auf unbekannte Szenarien und Robotergriffaufgaben den aktuellen Stand der Technik zu übertreffen.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Die Autoren stellen einen halb-selbstüberwachten Lernansatz namens GLMask vor, der mit minimaler manueller Annotation eine hochleistungsfähige Instanzsegmentierung ermöglicht und sowohl bei der Erkennung von Weizenähren als auch auf dem COCO-Datensatz neue State-of-the-Art-Ergebnisse erzielt.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Diese Studie stellt einen varianzgesteuerten GAN-basierten Ansatz vor, der aus kostengünstigen H&E-Färbungen hochpräzise HER2-IHC-Bilder generiert und durch die Vermeidung von Mode Collapse sowie die Verbesserung der strukturellen Vielfalt die Genauigkeit der Brustkrebsdiagnostik signifikant steigert.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Die Arbeit stellt LINO UniPS vor, ein universelles photometrisches Stereo-System, das durch Light Register Tokens und Interleaved Attention Blocks eine Entkopplung von Beleuchtung und Oberflächennormals erreicht, während eine waveletbasierte Architektur und ein spezieller Verlustbegriff feine geometrische Details bewahren, was in Kombination mit dem neuen PS-Verse-Datensatz zu neuen State-of-the-Art-Ergebnissen führt.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Diese Arbeit stellt ein neuartiges, von Vision-Language-Modellen (VLMs) geführtes kaskadiertes Framework für die Open-Vocabulary-Tarnobjektsegmentierung vor, das durch die Nutzung von VLM-Features als explizite Prompts für das Segment Anything Model (SAM) und die Einbeziehung des Segmentierungsergebnisses als weicher räumlicher Prior die Herausforderungen der visuellen Ambiguität und des Domänenunterschieds bei der Segmentierung und Klassifizierung von Tarnobjekten überwindet.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Das Paper stellt LD-RPS vor, eine datasetfreie, einheitliche Methode zur Bildwiederherstellung, die durch rekurrentes Posterior-Sampling mit einem vortrainierten latenten Diffusionsmodell und multimodalen semantischen Priors verschiedene Degradationen ohne spezifisches Training bewältigt.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Die Studie zeigt, dass künstliche Sehsysteme durch die Anwendung einer menschlich inspirierten, entwicklungsorientierten visuellen Lernkurriculum („Developmental Visual Diet") robuster, adversarial-resistenter und stärker auf Form statt auf Textur ausgerichtet werden können, wodurch sie menschlichem Sehen deutlich näher kommen.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Die Arbeit stellt Query-based Adaptive Aggregation (QAA) vor, eine neuartige Merkmalsaggregationsmethode, die durch lernbare Abfragen als Referenzcodebücher die Generalisierungsfähigkeit von Modellen für das universelle visuelle Ortserkennungsproblem (VPR) über mehrere Datensätze hinweg verbessert und dabei den Zustand der Technik übertrifft.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Die Arbeit stellt MCULoRA vor, einen neuen Parameter-effizienten Ansatz für die unvollständige multimodale Emotionserkennung, der durch die Entkopplung gemeinsamer Informationen und eine dynamische Feinabstimmung der Trainingsverhältnisse die Konflikte zwischen Gradienten verschiedener Modalitätskombinationen überwindet und damit die Vorhersagegenauigkeit signifikant verbessert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Die Arbeit stellt „Mamba Snake" vor, ein neuartiges Deep-Snake-Framework, das State-Space-Modelle nutzt, um durch die Modellierung interner topologischer Beziehungen und adaptiver Konturverfeinerung die Herausforderungen der einheitlichen medizinischen Bildsegmentierung zu meistern und dabei die Leistung gegenüber aktuellen Methoden signifikant zu steigern.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

Die Arbeit stellt $Ï^3$ vor, ein feed-forward neuronales Netzwerk mit vollständig permutationsäquivarianter Architektur, das durch den Verzicht auf feste Referenzansichten robustere und genauere Ergebnisse bei Aufgaben der visuellen Geometrie wie Kamerapose-Schätzung und Tiefenrekonstruktion erzielt.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Der Artikel stellt InsightX Agent vor, ein neuartiges Framework auf Basis von Large Multimodal Models, das durch die Koordination eines Sparse Deformable Multi-Scale Detektors und eines evidenzbasierten Reflexionswerkzeugs zuverlässige, interpretierbare und interaktive Röntgen-NDT-Analysen ermöglicht.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Die Studie stellt ein auf Vision Transformern (ViT) basierendes Deep-Learning-Framework vor, das mithilfe von Sentinel-2- und Formosat-5-Bilddaten sowie einer schwach überwachten Trainingsstrategie die Segmentierung von Katastrophengebieten für das EVAP-Programm der Taiwan Space Agency verbessert und dabei die Zuverlässigkeit und räumliche Kohärenz der Ergebnisse erhöht.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Das Paper stellt MIDAR vor, ein effizientes Surrogat-Modell für LiDAR-Erkennung, das mithilfe eines geometrieaware Graph Transformers realistische Detektionsergebnisse in mikroskopischen Verkehrssimulatoren erzeugt und so die Skalierbarkeit bei der Evaluierung autonomer Fahrzeuge mit hoher Genauigkeit verbindet.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Diese Studie stellt TransUNet-GradCAM vor, einen hybriden Transformer-U-Net-Ansatz mit Selbstattention und erklärbarer Visualisierung, der durch die Integration globaler Kontextinformationen und lokaler Details eine robuste und generalisierbare Segmentierung von diabetischen Fußulzera ermöglicht.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

← Zurück Weiter →

cs.CV