cs.CV Arbeiten | Gist.Science

LaVCa: LLM-assisted Visual Cortex Captioning

Die Studie stellt LaVCa vor, eine datengestützte Methode, die große Sprachmodelle nutzt, um präzise natürliche Sprachbeschreibungen für die Selektivität von Neuronen im visuellen Kortex zu generieren und damit tiefere Einblicke in die menschliche visuelle Repräsentation sowie feinere funktionale Differenzierungen als bisherige Ansätze ermöglicht.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Diese Studie stellt einen Algorithmus vor, der durch die Fusion von segmentierten T1-, T2-, T1ce- und FLAIR-MRT-Bildern mittels UNET und gewichteter Durchschnittsbildung sowie deren Klassifizierung mit einem ResNet50-Modell eine Genauigkeit von 99,25 % bei der Untergruppenklassifizierung von Gliomen erreicht.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Die Autoren stellen LOOP vor, eine neue Reinforcement-Learning-Methode für die Feinabstimmung von Text-zu-Bild-Diffusionsmodellen, die die Varianzreduktionstechniken von REINFORCE mit der Robustheit und Stichprobeneffizienz von PPO kombiniert, um einen besseren Ausgleich zwischen Effizienz und Leistung zu erzielen.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Die vorgestellte Arbeit verbessert die Alzheimer-Diagnose und die Vorhersage von Amyloid-Positivität bei Mittelrisiko-Patienten durch ein skalierbares, auf Transformer-Architekturen basierendes geometrisches Deep-Learning-Modell, das Tetraedermeshes mit anatomischen Landmarken verarbeitet und damit teure PET-Scans teilweise ersetzt.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Die Arbeit stellt Snapmoji vor, ein System zur sofortigen Generierung animierbarer 3D-Avatare aus Selfies, das durch eine neuartige Gaußsche Domänenanpassung und einen Dual-Stylisierungsprozess die Identität des Nutzers bewahrt und eine effiziente mobile Darstellung ermöglicht.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Die Arbeit stellt SceneEval vor, ein Evaluierungsframework mit einem neuen Benchmark und feinkörnigen Metriken, das die semantische Kohärenz und Plausibilität textbasiert generierter 3D-Innenszenen umfassend bewertet und dabei sowohl explizite Benutzeranforderungen als auch implizite Erwartungen wie Stabilität und Navigierbarkeit berücksichtigt.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Die Autoren schlagen eine Methode vor, die durch das Hinzufügen von Störungen zu alten Feature-Prototypen die strengen Alignierungsbeschränkungen beim Backward-Compatible Learning lockert, um so die Diskriminierungsfähigkeit neuer Retrieval-Modelle zu erhalten, ohne auf zeitaufwändige Backfilling-Prozesse zurückgreifen zu müssen.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Diese Arbeit stellt eine Methode zur robusten Rekonstruktion von zwei Händen aus monokularen Bildern vor, die heterogene 2D-Strukturpriors aus Vision-Modellen mit einem kollisionsfreien Diffusionsmodell kombiniert, um Interaktionsfehler und Handdurchdringungen auch bei starken Verdeckungen zu vermeiden.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Die Autoren stellen ein neuartiges, auf Punktwolken basierendes Instanzvollendungsmodell vor, das durch die Integration von Szenenbeschränkungen über einen Cross-Attention-Mechanismus und die Einführung des neuen Datensatzes ScanWCF Objekte in komplexen Szenen präziser und plausibler vervollständigt als bisherige Methoden.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

Die vorgestellte Arbeit stellt LEL vor, ein Ensemble-Lernframework, das durch Lipschitz-Stetigkeitsbeschränkungen in Transformer-Architekturen die Stabilität, Genauigkeit und Robustheit der EEG-basierten Emotionserkennung innerhalb einzelner Probanden signifikant verbessert.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Die Arbeit stellt einen auf die Aufgabe ausgerichteten semantischen Kompressionsrahmen vor, der mittels eines orthogonally eingeschränkten variationalen Informationsflaschenhals-Encoders (O-VIB) redundante Merkmale eliminiert, um mobile Plattformen bei der präzisen visuellen Lokalisierung in GPS-limitierten städtischen Umgebungen unter strengen Bandbreitenbeschränkungen zu unterstützen.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

Die Studie stellt DeepSparse, das erste Foundation-Modell für die Rekonstruktion von Sparse-View-CBCT-Bildern, vor, das durch die innovative DiCE-Netzwerkarchitektur und das HyViP-Vorabtrainingsframework eine überlegene Bildqualität bei reduzierter Strahlenbelastung und verbesserter Generalisierbarkeit im Vergleich zu bestehenden Methoden erreicht.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

Die Arbeit stellt M³CAD vor, ein umfassendes Benchmark mit multimodalen Daten von 204 Sequenzen, das als erster spezifischer Standard für die Forschung zu kooperativem, multiaufgabenfähigem autonomen Fahren dient und durch die Einführung einer netzwerkadaptiven Multi-Level-Fusionsmethode die Balance zwischen Kommunikationseffizienz und Wahrnehmungsgenauigkeit verbessert.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

Die Arbeit stellt FoldNet vor, ein Framework, das durch die Synthese eines keypoint-basierten synthetischen Datensatzes und den Einsatz des KG-DAgger-Algorithmus für die Fehlerwiederherstellung eine generalisierbare, geschlossene Regelstrategie für das robotergestützte Falten von Kleidungsstücken mit einer realen Erfolgsrate von 75 % ermöglicht.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Die Arbeit stellt MTVCraft vor, ein bahnbrechendes Framework, das erstmals rohe 3D-Bewegungssequenzen (4D-Motion) durch einen speziellen Tokenizer und einen bewegungsbewussten Video-DiT direkt für die Animation beliebiger Charaktere nutzt, wodurch eine überlegene Generalisierung und flexible Steuerung im Vergleich zu herkömmlichen 2D-Pose-basierten Methoden erreicht wird.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Die vorgestellte Arbeit schlägt ein einheitliches Deep-Meta-Learning-Framework vor, das durch das Entfalten eines konvergenten Optimierungsalgorithmus in eine neuronale Netzwerkarchitektur die beschleunigte Bildrekonstruktion bei Multi-Coil-MRI und die Synthese über verschiedene Modalitäten hinweg vereint, um durch adaptive Optimierung und Meta-Lernen eine robuste Generalisierung bei stark unterabgetasteten Daten und Domänenverschiebungen zu erreichen.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Die Arbeit stellt EgoDex vor, das derzeit größte und vielfältigste Datenset für geschickte Manipulation, das aus 829 Stunden egozentrischen Videos mit präzisen 3D-Handtracking-Daten besteht, um das Problem der Datenknappheit im Bereich des Imitationslernens für Robotik zu lösen und Benchmarks für den Fortschritt in diesem Bereich zu etablieren.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Die Arbeit stellt Vid2World vor, einen allgemeinen Ansatz, der vortrainierte Videodiffusionsmodelle durch systematische Kausalität, Architekturänderungen und eine kausale Aktionssteuerung in interaktive Weltmodelle umwandelt, um hochwertige Vorhersagen für komplexe Entscheidungsprozesse zu ermöglichen.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Diese Arbeit stellt einen hybriden „Solver-in-the-Loop"-Ansatz vor, der einen vortrainierten 3D-generativen Prior mit einem rigorosen Randintegralgleichungslöser koppelt, um die rekonstruierte 3D-Geometrie der elektrischen Impedanztomographie durch harte physikalische Zwangsbedingungen und datengetriebene Regularisierung präzise und effizient zu bestimmen.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Die Arbeit stellt ViTaPEs vor, einen Transformer-basierten Ansatz, der durch eine neuartige zweistufige Positionscodierung visuell-taktile Repräsentationen lernt, um die multimodale Ausrichtung zu verbessern und sowohl in verschiedenen Erkennungsaufgaben als auch bei der Generalisierung auf unbekannte Szenarien und Robotergriffaufgaben den aktuellen Stand der Technik zu übertreffen.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

← Zurück Weiter →