cs.AI Arbeiten | Gist.Science

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Dieses Kapitel untersucht das Potenzial generativer KI, die Wissenschaftskompetenz im K-16+-Bildungsbereich zu stärken, indem es eine kohärente Architektur für Lehre, Lernen und Bewertung entwickelt, die sowohl die neuen Anforderungen an die Wissenschaftskompetenz in der KI-Ära als auch die damit verbundenen konzeptionellen und praktischen Herausforderungen adressiert.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Diese Arbeit stellt ein systemweites Inferenz-Optimierungskonzept für DiT-basierte Videogenerierungsmodelle vor, das durch die Einführung einer sequenzparallelen Variante der kausalen Rotary-Positional-Embeddings (Causal-RoPE SP) sowie durch Operator-Fusion und Vorberechnung den Speicherbedarf und die Latenz drastisch reduziert und damit Echtzeit-Anwendungen ermöglicht.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Die Arbeit stellt SIL-GPO vor, einen auf Graph-Attention-Netzwerken und Selbst-Imitationslernen basierenden Reinforcement-Learning-Ansatz, der die Orchestrierung von Edge-AI-Mikrodiensten durch gleichzeitige Optimierung von Bereitstellung und Routing unter ressourcenbeschränkten Bedingungen effizienter gestaltet als bestehende Methoden.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Die Arbeit stellt CalibFusion vor, einen differenzierbaren Transformer-basierten Ansatz zur End-to-End-Verfeinerung der Radarkamera-Extrinsik, der speziell für die robuste Fusion in wasserbasierten Umgebungen mit texturarmen Flächen und Clutter entwickelt wurde und die Genauigkeit der 2D-Objektdetektion verbessert.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

Die Arbeit stellt ERP-RiskBench vor, ein leakage-sicheres Ensemble-Learning-Framework zur zuverlässigen Erkennung von Finanzrisiken in ERP-Systemen, das durch eine robuste Datenbasis und strikte Validierungsprotokolle überhöhte Leistungsschätzungen vermeidet und Procurement-Kontrollen als entscheidende Prädiktoren identifiziert.

Sanjay Mishra2026-03-10🤖 cs.LG

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Die Studie zeigt, dass sich die bei Bildmodellen beobachteten Vorteile der semantischen Rauschinitialisierung nicht signifikant auf Text-zu-Video-Generierung übertragen lassen, da die zeitliche Kopplung zu einer Instabilität führt, die den Gesamtscore im Vergleich zur Standard-Gaußschen Rauschinitialisierung nicht verbessert.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

Das Paper stellt AutoFigure-Edit vor, ein End-to-End-System, das aus langen wissenschaftlichen Texten vollständig bearbeitbare und stilistisch anpassbare wissenschaftliche Illustrationen in SVG-Format generiert.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Diese Arbeit stellt ein hybrides Few-Shot-Learning-Modell vor, das Siamesische und Prototypische Netzwerke mit Explainable AI (Grad-CAM) kombiniert, um Pflanzenkrankheiten bei Mais, Reis und Weizen auch bei begrenzten annotierten Daten mit hoher Genauigkeit und Transparenz zu identifizieren.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Die Arbeit stellt PRPO und MCDR-Bench vor, ein Framework, das durch parallele relative Policy-Optimierung und eine objektive Fehler-basierte Evaluierung die tiefgehenden Analysefähigkeiten von Large Vision-Language Models für Diagramme systematisch verbessert.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Die Arbeit stellt MultiGen vor, ein Diffusions-Game-Engine-System, das durch eine persistente externe Speicherkomponente und eine modulare Architektur sowohl eine direkte, bearbeitbare Kontrolle über die Spielumgebung als auch konsistente Echtzeit-Multiplayer-Interaktionen ermöglicht.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Die Arbeit stellt VB vor, ein neues Benchmark-System, das die Fähigkeit von Vision-Language-Modellen testet, Sichtbarkeit in Bildern zu beurteilen und bei Unsicherheit eine Antwort zu verweigern, wobei kontrollierte minimale Änderungen genutzt werden, um die Robustheit und Begründungsfähigkeit der Modelle zu evaluieren.

Neil Tripathi2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Das Paper stellt "Narrative Weaver" vor, ein neuartiges Framework, das durch die Integration eines multimodalen Sprachmodells für die narrative Planung und eines dynamischen Speichers für die visuelle Konsistenz erstmals eine kontrollierte, langstreckige und multimodal gesteuerte Generierung von visuellen Inhalten ermöglicht, wobei gleichzeitig ein neues Benchmark-Dataset für E-Commerce-Werbung veröffentlicht wird.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Die Studie stellt eine Methode vor, bei der durch die Einführung spezieller Blick-Tokens, die menschliche Augenbewegungen nachahmen, Vision-Language-Modelle für medizinische Bildanalyse optimiert werden, was zu verbesserten Ergebnissen sowohl im Trainingsbereich als auch bei der Generalisierung auf neue Datensätze führt.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Diese Arbeit erweitert das Mining von Spezifikationen aus Ausführungsstraces über reine Boolesche Abstraktionen hinaus, indem sie Syntax-gesteuerte Synthese mit der temporalen Logik TSL $_f$ kombiniert, um datenbewusste Transformationen und Spezifikationen zu lernen und damit das passive Lernen von reaktiven Programmen in puncto Robustheit und Sample-Effizienz signifikant zu verbessern.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Die Arbeit stellt ATLAS vor, ein effizientes Reinforcement-Finetuning-Framework, das kleine Sprachmodelle durch lernbare Kontextsteuerung und rubrikbasierte Belohnungsfunktionen befähigt, in großen Tool-Umgebungen robust zu agieren und dabei die Leistung von Frontier-Modellen bei deutlich geringeren Ressourcen zu erreichen.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Diese Arbeit stellt einen hierarchischen Planungsansatz vor, der durch die Kombination von geostationären Satellitendaten für eine langfristige Strategie und onboard-Sensordaten für die kurzfristige Verfeinerung die Leistung dynamischer Satellitenbeobachtungsmissionen bis zu 41 % steigert, insbesondere bei spärlich verteilten Zielen.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

Die Arbeit stellt ProtAlign vor, ein kontrastives Lernframework, das Proteinsequenzen und -strukturen in einen gemeinsamen Einbettungsraum überführt, um deren wechselseitige Beziehung zu nutzen und Aufgaben wie die Kreuzmodalsuche sowie die Funktionsvorhersage zu verbessern.

Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Die vorgestellte Arbeit führt das neue Paradigma der universellen Wasserzeichen-Präsenzerkennung (UWPD) ein, das mithilfe des neu erstellten UniFreq-100K-Datensatzes und des vorgeschlagenen Frequency Shield Networks (FSNet) eine algorithmenunabhängige Erkennung unsichtbarer Wasserzeichen ohne vorheriges Wissen über die Einbettungsmethode ermöglicht.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

← Zurück Weiter →