cs.CV Arbeiten | Gist.Science

Point-based Instance Completion with Scene Constraints

Die Autoren stellen ein neuartiges, auf Punktwolken basierendes Instanzvollendungsmodell vor, das durch die Integration von Szenenbeschränkungen über einen Cross-Attention-Mechanismus und die Einführung des neuen Datensatzes ScanWCF Objekte in komplexen Szenen präziser und plausibler vervollständigt als bisherige Methoden.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

Die vorgestellte Arbeit stellt LEL vor, ein Ensemble-Lernframework, das durch Lipschitz-Stetigkeitsbeschränkungen in Transformer-Architekturen die Stabilität, Genauigkeit und Robustheit der EEG-basierten Emotionserkennung innerhalb einzelner Probanden signifikant verbessert.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Die Arbeit stellt einen auf die Aufgabe ausgerichteten semantischen Kompressionsrahmen vor, der mittels eines orthogonally eingeschränkten variationalen Informationsflaschenhals-Encoders (O-VIB) redundante Merkmale eliminiert, um mobile Plattformen bei der präzisen visuellen Lokalisierung in GPS-limitierten städtischen Umgebungen unter strengen Bandbreitenbeschränkungen zu unterstützen.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

Die Studie stellt DeepSparse, das erste Foundation-Modell für die Rekonstruktion von Sparse-View-CBCT-Bildern, vor, das durch die innovative DiCE-Netzwerkarchitektur und das HyViP-Vorabtrainingsframework eine überlegene Bildqualität bei reduzierter Strahlenbelastung und verbesserter Generalisierbarkeit im Vergleich zu bestehenden Methoden erreicht.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

Die Arbeit stellt M³CAD vor, ein umfassendes Benchmark mit multimodalen Daten von 204 Sequenzen, das als erster spezifischer Standard für die Forschung zu kooperativem, multiaufgabenfähigem autonomen Fahren dient und durch die Einführung einer netzwerkadaptiven Multi-Level-Fusionsmethode die Balance zwischen Kommunikationseffizienz und Wahrnehmungsgenauigkeit verbessert.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

Die Arbeit stellt FoldNet vor, ein Framework, das durch die Synthese eines keypoint-basierten synthetischen Datensatzes und den Einsatz des KG-DAgger-Algorithmus für die Fehlerwiederherstellung eine generalisierbare, geschlossene Regelstrategie für das robotergestützte Falten von Kleidungsstücken mit einer realen Erfolgsrate von 75 % ermöglicht.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Die Arbeit stellt MTVCraft vor, ein bahnbrechendes Framework, das erstmals rohe 3D-Bewegungssequenzen (4D-Motion) durch einen speziellen Tokenizer und einen bewegungsbewussten Video-DiT direkt für die Animation beliebiger Charaktere nutzt, wodurch eine überlegene Generalisierung und flexible Steuerung im Vergleich zu herkömmlichen 2D-Pose-basierten Methoden erreicht wird.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Die vorgestellte Arbeit schlägt ein einheitliches Deep-Meta-Learning-Framework vor, das durch das Entfalten eines konvergenten Optimierungsalgorithmus in eine neuronale Netzwerkarchitektur die beschleunigte Bildrekonstruktion bei Multi-Coil-MRI und die Synthese über verschiedene Modalitäten hinweg vereint, um durch adaptive Optimierung und Meta-Lernen eine robuste Generalisierung bei stark unterabgetasteten Daten und Domänenverschiebungen zu erreichen.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Die Arbeit stellt EgoDex vor, das derzeit größte und vielfältigste Datenset für geschickte Manipulation, das aus 829 Stunden egozentrischen Videos mit präzisen 3D-Handtracking-Daten besteht, um das Problem der Datenknappheit im Bereich des Imitationslernens für Robotik zu lösen und Benchmarks für den Fortschritt in diesem Bereich zu etablieren.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Die Arbeit stellt Vid2World vor, einen allgemeinen Ansatz, der vortrainierte Videodiffusionsmodelle durch systematische Kausalität, Architekturänderungen und eine kausale Aktionssteuerung in interaktive Weltmodelle umwandelt, um hochwertige Vorhersagen für komplexe Entscheidungsprozesse zu ermöglichen.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Diese Arbeit stellt einen hybriden „Solver-in-the-Loop"-Ansatz vor, der einen vortrainierten 3D-generativen Prior mit einem rigorosen Randintegralgleichungslöser koppelt, um die rekonstruierte 3D-Geometrie der elektrischen Impedanztomographie durch harte physikalische Zwangsbedingungen und datengetriebene Regularisierung präzise und effizient zu bestimmen.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Die Arbeit stellt ViTaPEs vor, einen Transformer-basierten Ansatz, der durch eine neuartige zweistufige Positionscodierung visuell-taktile Repräsentationen lernt, um die multimodale Ausrichtung zu verbessern und sowohl in verschiedenen Erkennungsaufgaben als auch bei der Generalisierung auf unbekannte Szenarien und Robotergriffaufgaben den aktuellen Stand der Technik zu übertreffen.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Die Autoren stellen einen halb-selbstüberwachten Lernansatz namens GLMask vor, der mit minimaler manueller Annotation eine hochleistungsfähige Instanzsegmentierung ermöglicht und sowohl bei der Erkennung von Weizenähren als auch auf dem COCO-Datensatz neue State-of-the-Art-Ergebnisse erzielt.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Diese Studie stellt einen varianzgesteuerten GAN-basierten Ansatz vor, der aus kostengünstigen H&E-Färbungen hochpräzise HER2-IHC-Bilder generiert und durch die Vermeidung von Mode Collapse sowie die Verbesserung der strukturellen Vielfalt die Genauigkeit der Brustkrebsdiagnostik signifikant steigert.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Die Arbeit stellt LINO UniPS vor, ein universelles photometrisches Stereo-System, das durch Light Register Tokens und Interleaved Attention Blocks eine Entkopplung von Beleuchtung und Oberflächennormals erreicht, während eine waveletbasierte Architektur und ein spezieller Verlustbegriff feine geometrische Details bewahren, was in Kombination mit dem neuen PS-Verse-Datensatz zu neuen State-of-the-Art-Ergebnissen führt.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Diese Arbeit stellt ein neuartiges, von Vision-Language-Modellen (VLMs) geführtes kaskadiertes Framework für die Open-Vocabulary-Tarnobjektsegmentierung vor, das durch die Nutzung von VLM-Features als explizite Prompts für das Segment Anything Model (SAM) und die Einbeziehung des Segmentierungsergebnisses als weicher räumlicher Prior die Herausforderungen der visuellen Ambiguität und des Domänenunterschieds bei der Segmentierung und Klassifizierung von Tarnobjekten überwindet.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Das Paper stellt LD-RPS vor, eine datasetfreie, einheitliche Methode zur Bildwiederherstellung, die durch rekurrentes Posterior-Sampling mit einem vortrainierten latenten Diffusionsmodell und multimodalen semantischen Priors verschiedene Degradationen ohne spezifisches Training bewältigt.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Die Studie zeigt, dass künstliche Sehsysteme durch die Anwendung einer menschlich inspirierten, entwicklungsorientierten visuellen Lernkurriculum („Developmental Visual Diet") robuster, adversarial-resistenter und stärker auf Form statt auf Textur ausgerichtet werden können, wodurch sie menschlichem Sehen deutlich näher kommen.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Die Arbeit stellt Query-based Adaptive Aggregation (QAA) vor, eine neuartige Merkmalsaggregationsmethode, die durch lernbare Abfragen als Referenzcodebücher die Generalisierungsfähigkeit von Modellen für das universelle visuelle Ortserkennungsproblem (VPR) über mehrere Datensätze hinweg verbessert und dabei den Zustand der Technik übertrifft.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Die Arbeit stellt MCULoRA vor, einen neuen Parameter-effizienten Ansatz für die unvollständige multimodale Emotionserkennung, der durch die Entkopplung gemeinsamer Informationen und eine dynamische Feinabstimmung der Trainingsverhältnisse die Konflikte zwischen Gradienten verschiedener Modalitätskombinationen überwindet und damit die Vorhersagegenauigkeit signifikant verbessert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

← Zurück Weiter →