Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Dieses Kapitel untersucht das Potenzial generativer KI, die Wissenschaftskompetenz im K-16+-Bildungsbereich zu stärken, indem es eine kohärente Architektur für Lehre, Lernen und Bewertung entwickelt, die sowohl die neuen Anforderungen an die Wissenschaftskompetenz in der KI-Ära als auch die damit verbundenen konzeptionellen und praktischen Herausforderungen adressiert.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Diese Arbeit stellt ein systemweites Inferenz-Optimierungskonzept für DiT-basierte Videogenerierungsmodelle vor, das durch die Einführung einer sequenzparallelen Variante der kausalen Rotary-Positional-Embeddings (Causal-RoPE SP) sowie durch Operator-Fusion und Vorberechnung den Speicherbedarf und die Latenz drastisch reduziert und damit Echtzeit-Anwendungen ermöglicht.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Die Arbeit stellt SIL-GPO vor, einen auf Graph-Attention-Netzwerken und Selbst-Imitationslernen basierenden Reinforcement-Learning-Ansatz, der die Orchestrierung von Edge-AI-Mikrodiensten durch gleichzeitige Optimierung von Bereitstellung und Routing unter ressourcenbeschränkten Bedingungen effizienter gestaltet als bestehende Methoden.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Das Paper stellt "Narrative Weaver" vor, ein neuartiges Framework, das durch die Integration eines multimodalen Sprachmodells für die narrative Planung und eines dynamischen Speichers für die visuelle Konsistenz erstmals eine kontrollierte, langstreckige und multimodal gesteuerte Generierung von visuellen Inhalten ermöglicht, wobei gleichzeitig ein neues Benchmark-Dataset für E-Commerce-Werbung veröffentlicht wird.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Die Studie stellt eine Methode vor, bei der durch die Einführung spezieller Blick-Tokens, die menschliche Augenbewegungen nachahmen, Vision-Language-Modelle für medizinische Bildanalyse optimiert werden, was zu verbesserten Ergebnissen sowohl im Trainingsbereich als auch bei der Generalisierung auf neue Datensätze führt.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Diese Arbeit erweitert das Mining von Spezifikationen aus Ausführungsstraces über reine Boolesche Abstraktionen hinaus, indem sie Syntax-gesteuerte Synthese mit der temporalen Logik TSLf_f kombiniert, um datenbewusste Transformationen und Spezifikationen zu lernen und damit das passive Lernen von reaktiven Programmen in puncto Robustheit und Sample-Effizienz signifikant zu verbessern.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Die Arbeit stellt ATLAS vor, ein effizientes Reinforcement-Finetuning-Framework, das kleine Sprachmodelle durch lernbare Kontextsteuerung und rubrikbasierte Belohnungsfunktionen befähigt, in großen Tool-Umgebungen robust zu agieren und dabei die Leistung von Frontier-Modellen bei deutlich geringeren Ressourcen zu erreichen.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Diese Arbeit stellt einen hierarchischen Planungsansatz vor, der durch die Kombination von geostationären Satellitendaten für eine langfristige Strategie und onboard-Sensordaten für die kurzfristige Verfeinerung die Leistung dynamischer Satellitenbeobachtungsmissionen bis zu 41 % steigert, insbesondere bei spärlich verteilten Zielen.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Die vorgestellte Arbeit führt das neue Paradigma der universellen Wasserzeichen-Präsenzerkennung (UWPD) ein, das mithilfe des neu erstellten UniFreq-100K-Datensatzes und des vorgeschlagenen Frequency Shield Networks (FSNet) eine algorithmenunabhängige Erkennung unsichtbarer Wasserzeichen ohne vorheriges Wissen über die Einbettungsmethode ermöglicht.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs