PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

Das Paper stellt PRISM vor, ein einheitliches Modell für die Streaming-Generierung menschlicher Bewegungen, das durch einen joint-faktorisierten latenten Raum und eine rauschfreie Bedingungsinjektion die Entanglement-Probleme bestehender Autoencoder löst und gleichzeitig Text-zu-Bewegung, pose-bedingte Generierung sowie autoregressive Sequenzsynthese in einem einzigen Framework vereint.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Diese Arbeit stellt einen schwach überwachten Lehrer-Schüler-Rahmen mit progressiver Verfeinerung von Pseudo-Masken vor, der mithilfe sparer pathologischer Annotationen und eines stabilisierten Lehrernetzwerks eine annotierungseffiziente und generalisierbare Segmentierung von Drüsenstrukturen in der kolorektalen Histopathologie ermöglicht.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Die Arbeit stellt RAF (Retrieval-Augmented Faces) vor, eine Trainingsmethode für templatefreie animierbare Kopf-Avatare, die durch den gezielten Austausch von Gesichtsmerkmalen mit ähnlichen Ausdrücken aus einer großen unlabeled Datenbank die Generalisierungsfähigkeit und Robustheit gegenüber neuen Mimiken verbessert, ohne zusätzliche Annotationen oder Architekturrevolutionen zu benötigen.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Die Arbeit stellt Fuse4Seg vor, ein neuartiges Framework, das die medizinische Bildfusion durch ein kooperatives bi-level-Optimierungsverfahren direkt mit der Segmentierungsaufgabe verknüpft, um durch semantisch geleitete Gradienten und frequenzentkoppelte Regularisierung sowohl die Segmentierungsgenauigkeit als auch die klinische Interpretierbarkeit zu maximieren.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

Die Arbeit stellt PACE vor, eine neue Methode zur parameter-effizienten Feinabstimmung, die durch konsistenzbasierte Regularisierung und Rauschen die Generalisierungsfähigkeit verbessert, indem sie die Gradientennormen reduziert und das Wissen aus dem Vor-Training bewahrt, was in verschiedenen visuellen und textbasierten Aufgaben zu überlegenen Ergebnissen führt.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Das Paper stellt FALCON vor, einen selbstüberwachten Vorab-Trainingsansatz für die UAV-Aktionserkennung, der durch objektspezifisches Masking und zukunftsorientierte Rekonstruktion die Dominanz von Hintergrundinformationen überwindet und so die Genauigkeit bei gleichzeitig schnellerer Inferenz im Vergleich zu überwachten Methoden signifikant verbessert.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

Die Arbeit stellt AuthFace vor, ein neuartiges Framework für die authentische blinde Gesichtswiederherstellung, das durch einen speziell auf Gesichter ausgerichteten generativen Diffusionsprior, der auf einem hochwertigen Fotodatensatz trainiert wurde, und einen zeitbewussten Verlust für latente Gesichtsmerkmale realistische Ergebnisse ohne Artefakte erzielt.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Das Paper stellt LEO vor, eine effiziente Architektur für multimodale Sprachmodelle, die durch eine leichte Kombination aus unabhängigen Projektoren, sequenzieller Verflechtung von Bildkacheln und dynamischer Tiling mit globalem Kontext die Leistung bestehender Mixture-of-Vision-Encoders-Ansätze auf zahlreichen Benchmarks und im autonomen Fahren verbessert.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Die Arbeit stellt PoI vor, ein Framework, das durch die Kombination von 3D-Gaussian-Splatting, Diffusionsmodellen und einem fortschrittlichen Pixel-Filterungsalgorithmus auf Basis von Reprojektionsfehlern, hochwertige synthetische Ansichten für die Szenenkoordinaten-Regression generiert und so die Genauigkeit der visuellen Lokalisierung signifikant verbessert.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Diese Übersichtsarbeit bietet einen strukturierten Überblick über den Einsatz von Large Multimodal Language Models im gesamten wissenschaftlichen Lebenszyklus, von der Literaturrecherche und Ideengenerierung bis hin zur Inhaltserstellung, Bewertung und den damit verbundenen ethischen Herausforderungen.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

Der Artikel stellt ECLARE vor, eine effiziente selbstüberwachte Methode zur anisotropen Auflösungssteigerung von 2D-MRT-Schichtbildern, die durch die Schätzung des Schichtprofils und das Lernen innerhalb derselben Volumina Interpolationsfehler, Domänenverschiebungen und Lücken zwischen den Schichten überwindet und dabei alle aktuellen Methoden in der Signalwiederherstellung sowie bei nachgelagerten Aufgaben übertrifft.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs