Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Die Arbeit stellt SIL-GPO vor, einen auf Graph-Attention-Netzwerken und Selbst-Imitationslernen basierenden Reinforcement-Learning-Ansatz, der die Orchestrierung von Edge-AI-Mikrodiensten durch gleichzeitige Optimierung von Bereitstellung und Routing unter ressourcenbeschränkten Bedingungen effizienter gestaltet als bestehende Methoden.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Das Paper stellt "Narrative Weaver" vor, ein neuartiges Framework, das durch die Integration eines multimodalen Sprachmodells für die narrative Planung und eines dynamischen Speichers für die visuelle Konsistenz erstmals eine kontrollierte, langstreckige und multimodal gesteuerte Generierung von visuellen Inhalten ermöglicht, wobei gleichzeitig ein neues Benchmark-Dataset für E-Commerce-Werbung veröffentlicht wird.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Die Studie stellt eine Methode vor, bei der durch die Einführung spezieller Blick-Tokens, die menschliche Augenbewegungen nachahmen, Vision-Language-Modelle für medizinische Bildanalyse optimiert werden, was zu verbesserten Ergebnissen sowohl im Trainingsbereich als auch bei der Generalisierung auf neue Datensätze führt.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Diese Arbeit erweitert das Mining von Spezifikationen aus Ausführungsstraces über reine Boolesche Abstraktionen hinaus, indem sie Syntax-gesteuerte Synthese mit der temporalen Logik TSLf_f kombiniert, um datenbewusste Transformationen und Spezifikationen zu lernen und damit das passive Lernen von reaktiven Programmen in puncto Robustheit und Sample-Effizienz signifikant zu verbessern.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Die Arbeit stellt ATLAS vor, ein effizientes Reinforcement-Finetuning-Framework, das kleine Sprachmodelle durch lernbare Kontextsteuerung und rubrikbasierte Belohnungsfunktionen befähigt, in großen Tool-Umgebungen robust zu agieren und dabei die Leistung von Frontier-Modellen bei deutlich geringeren Ressourcen zu erreichen.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Diese Arbeit stellt einen hierarchischen Planungsansatz vor, der durch die Kombination von geostationären Satellitendaten für eine langfristige Strategie und onboard-Sensordaten für die kurzfristige Verfeinerung die Leistung dynamischer Satellitenbeobachtungsmissionen bis zu 41 % steigert, insbesondere bei spärlich verteilten Zielen.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Die vorgestellte Arbeit führt das neue Paradigma der universellen Wasserzeichen-Präsenzerkennung (UWPD) ein, das mithilfe des neu erstellten UniFreq-100K-Datensatzes und des vorgeschlagenen Frequency Shield Networks (FSNet) eine algorithmenunabhängige Erkennung unsichtbarer Wasserzeichen ohne vorheriges Wissen über die Einbettungsmethode ermöglicht.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

Die Arbeit stellt FutureBoosting vor, einen hybriden KI-Ansatz, der die Vorhersagekraft von Regressionsmodellen für Strompreise durch die Integration von aus einem eingefrorenen Zeitreihen-Foundation-Modell generierten Merkmalen signifikant verbessert und dabei sowohl historische Muster als auch Feature-Interaktionen effektiv nutzt.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

Der Safe Transformer ist ein modularer Ansatz, der durch die Einführung eines expliziten, interpretierbaren und steuerbaren Sicherheitsbits zwischen den Transformer-Schichten eine transparente und kontrollierbare Ausrichtung von Sprachmodellen ermöglicht, ohne dass ein vollständiges Neutrainieren erforderlich ist.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG