cs.CV Arbeiten | Gist.Science

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

Das Paper stellt PRISM vor, ein einheitliches Modell für die Streaming-Generierung menschlicher Bewegungen, das durch einen joint-faktorisierten latenten Raum und eine rauschfreie Bedingungsinjektion die Entanglement-Probleme bestehender Autoencoder löst und gleichzeitig Text-zu-Bewegung, pose-bedingte Generierung sowie autoregressive Sequenzsynthese in einem einzigen Framework vereint.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Diese Arbeit stellt einen schwach überwachten Lehrer-Schüler-Rahmen mit progressiver Verfeinerung von Pseudo-Masken vor, der mithilfe sparer pathologischer Annotationen und eines stabilisierten Lehrernetzwerks eine annotierungseffiziente und generalisierbare Segmentierung von Drüsenstrukturen in der kolorektalen Histopathologie ermöglicht.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Die Arbeit stellt RAF (Retrieval-Augmented Faces) vor, eine Trainingsmethode für templatefreie animierbare Kopf-Avatare, die durch den gezielten Austausch von Gesichtsmerkmalen mit ähnlichen Ausdrücken aus einer großen unlabeled Datenbank die Generalisierungsfähigkeit und Robustheit gegenüber neuen Mimiken verbessert, ohne zusätzliche Annotationen oder Architekturrevolutionen zu benötigen.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

Die Autoren stellen ein Echtzeit-zweistromiges RGB-D-Objektdetektionsmodell vor, das durch eine dynamische RBF-gewichtete Hyper-Involution für Tiefendaten und eine trainierbare Fusions-Schicht die Herausforderungen der simultanen Merkmalsextraktion löst und auf dem NYU Depth V2-Datensatz die beste Leistung unter bestehenden Methoden erzielt.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Die vorgestellte Arbeit stellt ein System vor, das Vision-Language-Modelle durch eine posebewusste In-Context-Learning-Methode (PA-ICVL) befähigt, visuelle Halluzinationen in Cartoon-Bildern deutlich genauer zu erkennen als herkömmliche Ansätze, die nur auf RGB-Bilder angewiesen sind.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Die Arbeit stellt Fuse4Seg vor, ein neuartiges Framework, das die medizinische Bildfusion durch ein kooperatives bi-level-Optimierungsverfahren direkt mit der Segmentierungsaufgabe verknüpft, um durch semantisch geleitete Gradienten und frequenzentkoppelte Regularisierung sowohl die Segmentierungsgenauigkeit als auch die klinische Interpretierbarkeit zu maximieren.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

Die Arbeit stellt PACE vor, eine neue Methode zur parameter-effizienten Feinabstimmung, die durch konsistenzbasierte Regularisierung und Rauschen die Generalisierungsfähigkeit verbessert, indem sie die Gradientennormen reduziert und das Wissen aus dem Vor-Training bewahrt, was in verschiedenen visuellen und textbasierten Aufgaben zu überlegenen Ergebnissen führt.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Das Paper stellt FALCON vor, einen selbstüberwachten Vorab-Trainingsansatz für die UAV-Aktionserkennung, der durch objektspezifisches Masking und zukunftsorientierte Rekonstruktion die Dominanz von Hintergrundinformationen überwindet und so die Genauigkeit bei gleichzeitig schnellerer Inferenz im Vergleich zu überwachten Methoden signifikant verbessert.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

Die Arbeit stellt AuthFace vor, ein neuartiges Framework für die authentische blinde Gesichtswiederherstellung, das durch einen speziell auf Gesichter ausgerichteten generativen Diffusionsprior, der auf einem hochwertigen Fotodatensatz trainiert wurde, und einen zeitbewussten Verlust für latente Gesichtsmerkmale realistische Ergebnisse ohne Artefakte erzielt.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

Diese Studie stellt eine effiziente, selbstüberwachte Methode zur Rekonstruktion seismischer Daten vor, die auf einem schlanken Netzwerk und einem Selbstkonsistenz-Lernansatz basiert, um unregelmäßige Datenerfassung ohne zusätzliche Trainingsdaten zu korrigieren.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Das Paper stellt PPLLaVA vor, ein effizientes Video-LLM, das durch eine promptgesteuerte Pooling-Strategie die visuelle Token-Anzahl um bis zu 18-fach reduziert, ohne dabei die Leistung bei verschiedenen Videoverständnis-Aufgaben zu beeinträchtigen.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Die Arbeit stellt Ditto vor, ein diffusion-basiertes Framework für die Synthese sprechender Köpfe, das durch die Generierung von Darstellungen in einem spezifischen Bewegungsraum feingranulare Kontrolle und Echtzeit-Inferenz ermöglicht, um die Nachteile bestehender Modelle hinsichtlich Geschwindigkeit und Steuerbarkeit zu überwinden.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Das Paper stellt LEO vor, eine effiziente Architektur für multimodale Sprachmodelle, die durch eine leichte Kombination aus unabhängigen Projektoren, sequenzieller Verflechtung von Bildkacheln und dynamischer Tiling mit globalem Kontext die Leistung bestehender Mixture-of-Vision-Encoders-Ansätze auf zahlreichen Benchmarks und im autonomen Fahren verbessert.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

FeatureGS verbessert die geometrische Genauigkeit und reduziert Artefakte sowie den Speicherbedarf bei der 3D-Gaussian-Splatting-Rekonstruktion durch die Einführung eines auf Eigenwerten basierenden geometrischen Verlustterms, der die Gaussians präziser an Objektoberflächen ausrichtet.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Die Arbeit stellt PoI vor, ein Framework, das durch die Kombination von 3D-Gaussian-Splatting, Diffusionsmodellen und einem fortschrittlichen Pixel-Filterungsalgorithmus auf Basis von Reprojektionsfehlern, hochwertige synthetische Ansichten für die Szenenkoordinaten-Regression generiert und so die Genauigkeit der visuellen Lokalisierung signifikant verbessert.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Diese Übersichtsarbeit bietet einen strukturierten Überblick über den Einsatz von Large Multimodal Language Models im gesamten wissenschaftlichen Lebenszyklus, von der Literaturrecherche und Ideengenerierung bis hin zur Inhaltserstellung, Bewertung und den damit verbundenen ethischen Herausforderungen.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

Die Arbeit stellt SCOTT und MIM-JEPA vor, eine Architektur und Trainingsmethode, die es Vision-Transformern ermöglicht, auch mit stark begrenzten Daten und Rechenressourcen robuste Repräsentationen zu erlernen und so die Abhängigkeit von großen Datensätzen in der selbstüberwachten Bildverarbeitung überwindet.

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

Die Arbeit stellt NAMI vor, einen effizienten Bildgenerierungsansatz auf Basis von Rectified Flow-Transformern, der durch eine stufenweise, mehrstufige Architektur und ein BridgeFlow-Modul die Inferenzzeit um 64 % reduziert, ohne dabei die Bildqualität zu beeinträchtigen.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

Der Artikel stellt ECLARE vor, eine effiziente selbstüberwachte Methode zur anisotropen Auflösungssteigerung von 2D-MRT-Schichtbildern, die durch die Schätzung des Schichtprofils und das Lernen innerhalb derselben Volumina Interpolationsfehler, Domänenverschiebungen und Lücken zwischen den Schichten überwindet und dabei alle aktuellen Methoden in der Signalwiederherstellung sowie bei nachgelagerten Aufgaben übertrifft.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Die Studie stellt EarthScape vor, einen multimodalen Datensatz und Benchmark für die KI-gestützte Kartierung der oberflächennahen Geologie, der verschiedene Datenquellen integriert und zeigt, dass Geländemerkmale robustere Vorhersagen liefern als reine spektrale oder Höheninformationen.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

← Zurück Weiter →