Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Das Paper stellt "Brain-IT" vor, eine auf einem Brain-Interaction Transformer basierende Methode, die durch die Interaktion funktioneller Hirnvoxel-Cluster und die Vorhersage komplementärer semantischer sowie struktureller Bildmerkmale fMRI-Daten in treue Bildrekonstruktionen übersetzt und dabei sowohl die Bildqualität als auch die Dateneffizienz im Vergleich zu aktuellen State-of-the-Art-Verfahren signifikant verbessert.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Diese Arbeit stellt eine neuartige Methode vor, die ausschließlich aus einer einzigen Sprachaufnahme hochauflösende, qualitativ hochwertige sprechende Gesichter erzeugt, indem sie einen sprachgesteuerten Diffusionsprozess mit statistischen Gesichtspriors und einem regionsbasierten Verfeinerungsmodul kombiniert, um Lippenbewegungen, Mimik und Augenbewegungen präzise zu synchronisieren.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

VeCoR -- Velocity Contrastive Regularization for Flow Matching

Die Arbeit stellt VeCoR vor, eine kontrastive Regularisierungsmethode für Flow Matching, die durch die Einführung einer zweiseitigen Anziehungs- und Abstoßungs-Supervision die Stabilität und Bildqualität verbessert, indem sie den gelernten Geschwindigkeitsfeldern hilft, auf dem Datenmanifold zu bleiben und Fehler in leichten oder wenigstufigen Konfigurationen zu reduzieren.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Die Arbeit stellt AdaptVision vor, ein effizientes Vision-Language-Modell, das durch einen vom Menschen inspirierten, adaptiven Mechanismus zur schrittweisen visuellen Informationsgewinnung und eine neuartige, entkoppelte Reinforcement-Learning-Optimierung (DTPO) die Anzahl der benötigten visuellen Tokens minimiert und dabei die Genauigkeit bei visuellen Frage-Antwort-Aufgaben verbessert.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Diese Studie stellt einen leichten, unüberwachten Deep-Learning-Ansatz auf Basis eines Variational Auto-Encoders vor, der hochauflösende Planet-Labs-Satellitendaten nutzt, um brandbetroffene Gebiete im Sudan innerhalb von 24 bis 30 Stunden mit überlegener Genauigkeit zu erkennen und somit eine skalierbare, nahezu Echtzeit-Überwachung von Konfliktfolgen ermöglicht.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Diese Studie isoliert systematisch den Einfluss der Maskierungsfamilie auf die kontinuierliche Testzeit-Anpassung und zeigt, dass räumliche Maskierung auf patch-basierten Architekturen stabilisierend wirkt, während Frequenzmaskierung nur bei CNNs oder feinabgestimmten Aufgaben mit globalen Hinweisen konkurrenzfähig ist.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

Die Arbeit stellt Brain-Semantoks vor, ein selbstüberwachtes Framework mit einem semantischen Tokenizer und einem Selbst-Distillation-Ziel, das robuste, abstrakte Repräsentationen von fMRI-Zeitreihen lernt und damit auch mit wenigen gelabelten Daten starke Leistungen bei verschiedenen Downstream-Aufgaben sowie verbesserte Out-of-Distribution-Performance ermöglicht.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

ββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

Die Arbeit stellt β\beta-CLIP vor, ein Framework für mehrstufiges kontrastives Lernen, das durch dynamisches Pooling und einen neuartigen β\beta-CAL-Verlust eine präzise, hierarchische Ausrichtung zwischen Textgranularitäten und Bildregionen erreicht und damit den State-of-the-Art bei dichten Vision-Language-Aufgaben ohne harte Negativbeispiele setzt.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP ist eine Methode, die aus monokularen Videos simulierbare menschliche Bewegungen und saubere, physikalisch plausible Szenengeometrien rekonstruiert, indem sie planare Primitiven nutzt und menschlich-szenische Kontakte modelliert, um die Erfolgsrate beim Bewegungs-Tracking erheblich zu steigern und die Real-zu-Simulation-Anwendung für Robotik und AR/VR zu verbessern.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Diese Arbeit stellt ein interpretierbares, multimodales KI-Framework vor, das klinische Bilddaten mit Familienanamnese kombiniert, um die Diagnose von Hauterkrankungen zu verbessern, wobei die Validierung durch prospektive klinische Studien als zukünftige Arbeit geplant ist.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

Die Arbeit stellt GeoTeacher vor, einen geometriegeführten semi-supervisierten Ansatz für die 3D-Objekterkennung, der durch eine keypoints-basierte geometrische Überwachungskomponente und eine vokalbasierte Daten-Augmentierungsstrategie mit Distanz-Decay-Mechanismus die Lernfähigkeit von Modellen bei begrenzten gelabelten Daten verbessert und neue State-of-the-Art-Ergebnisse auf den Datensätzen ONCE und Waymo erzielt.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs