Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

Die Arbeit stellt DeepEarth vor, ein selbstüberwachtes multimodales Weltmodell, das den neuartigen 4D-Raumzeit-Positionscodierer Earth4D nutzt, um durch submetergenaue und subsekundenscharfe planetare Vorhersagen über Jahrhunderte hinweg ökologische Prognosen mit State-of-the-Art-Leistung zu ermöglichen.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Die vorgestellte Arbeit entwickelt eine neuartige Methode zur feinkörnigen 3D-Gesichtswiederherstellung von Mikroexpressionen, die durch die Integration globaler dynamischer Merkmale und lokal angereicherter Hinweise aus 2D-Bewegungen, Gesichtspriors und 3D-Geometrie die bisherige Lücke bei der Rekonstruktion subtiler, flüchtiger Gesichtsausdrücke schließt und dabei den Mangel an Trainingsdaten durch die Nutzung von Makroexpressionen-Kenntnissen überwindet.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Die Arbeit stellt CAPL vor, ein Framework zur Reduzierung von Halluzinationen in Large Vision-Language Models bei Multi-Image-Aufgaben, das durch eine kalibrierte Cross-Image-Attention und eine präferenzbasierte Lernstrategie die modellübergreifende Interaktion verbessert und die Modellierung auf echte visuelle Evidenz statt auf textuelle Priors ausrichtet.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Leveraging Large Language Models for Automated Scalable Development of Open Scientific Databases

Die vorgestellte Arbeit stellt ein skalierbares, domänenunabhängiges Web-Tool vor, das Large Language Models (LLMs) mit parallelen Suchtechniken kombiniert, um manuelle Datenbeschaffung für offene wissenschaftliche Datenbanken zu automatisieren und dabei eine hohe Übereinstimmung mit von Experten kuratierten Datensätzen zu erreichen.

Nikita Gautam, Doina Caragea, Ignacio Ciampitti, Federico Gomez2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Diese Arbeit stellt ein benutzerfreundliches Framework vor, das es Wissenschaftlern ermöglicht, mit Hilfe von LLM-gestützter Skripterstellung auf handelsüblicher Hardware animierte 3D-Darstellungen petaskaliger, zeitvariabler Klimadaten zu erzeugen und dabei die Abhängigkeit von spezialisierten Infrastrukturen sowie die Datenübertragungszeiten erheblich zu reduzieren.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Der vorgestellte Ansatz verbessert die Few-Shot-Fehlerdiagnose in industriellen Maschinen durch einen bidirektionalen Digital-Twin-Prototypen-Anker mit Multi-Periodizitäts-Lernen, der Meta-Training im virtuellen Raum und Testzeit-Anpassung im physikalischen Raum kombiniert, um auch bei extrem wenigen gelabelten Daten robuste Diagnosen zu ermöglichen.

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

GuideTWSI: A Diverse Tactile Walking Surface Indicator Dataset from Synthetic and Real-World Images for Blind and Low-Vision Navigation

Das Paper stellt GuideTWSI vor, einen umfassenden Datensatz für taktile Leit- und Warnsysteme, der synthetische und reale Bilder kombiniert, um die geografischen und geometrischen Beschränkungen bestehender Daten zu überwinden und so eine zuverlässige Navigation für blinde und sehbehinderte Menschen zu ermöglichen.

Hochul Hwang, Soowan Yang, Anh N. H. Nguyen, Parth Goel, Krisha Adhikari, Sunghoon I. Lee, Joydeep Biswas, Nicholas A. Giudice, Donghyun Kim2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Das Paper stellt MedSteer vor, ein training-freies Framework zur Erzeugung kausaler, kontrastiver endoskopischer Bildpaare durch Aktivitätssteuerung in Diffusionsmodellen, das im Vergleich zu bestehenden Methoden eine überlegene strukturelle Konsistenz und Wirksamkeit für die Datenvermehrung in der medizinischen Bildanalyse demonstriert.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs