cs.AI Arbeiten | Gist.Science

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Die Arbeit stellt VB vor, ein neues Benchmark-System, das die Fähigkeit von Vision-Language-Modellen testet, Sichtbarkeit in Bildern zu beurteilen und bei Unsicherheit eine Antwort zu verweigern, wobei kontrollierte minimale Änderungen genutzt werden, um die Robustheit und Begründungsfähigkeit der Modelle zu evaluieren.

Neil Tripathi2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Das Paper stellt "Narrative Weaver" vor, ein neuartiges Framework, das durch die Integration eines multimodalen Sprachmodells für die narrative Planung und eines dynamischen Speichers für die visuelle Konsistenz erstmals eine kontrollierte, langstreckige und multimodal gesteuerte Generierung von visuellen Inhalten ermöglicht, wobei gleichzeitig ein neues Benchmark-Dataset für E-Commerce-Werbung veröffentlicht wird.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Die Studie stellt eine Methode vor, bei der durch die Einführung spezieller Blick-Tokens, die menschliche Augenbewegungen nachahmen, Vision-Language-Modelle für medizinische Bildanalyse optimiert werden, was zu verbesserten Ergebnissen sowohl im Trainingsbereich als auch bei der Generalisierung auf neue Datensätze führt.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Diese Arbeit erweitert das Mining von Spezifikationen aus Ausführungsstraces über reine Boolesche Abstraktionen hinaus, indem sie Syntax-gesteuerte Synthese mit der temporalen Logik TSL $_f$ kombiniert, um datenbewusste Transformationen und Spezifikationen zu lernen und damit das passive Lernen von reaktiven Programmen in puncto Robustheit und Sample-Effizienz signifikant zu verbessern.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Die Arbeit stellt ATLAS vor, ein effizientes Reinforcement-Finetuning-Framework, das kleine Sprachmodelle durch lernbare Kontextsteuerung und rubrikbasierte Belohnungsfunktionen befähigt, in großen Tool-Umgebungen robust zu agieren und dabei die Leistung von Frontier-Modellen bei deutlich geringeren Ressourcen zu erreichen.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Diese Arbeit stellt einen hierarchischen Planungsansatz vor, der durch die Kombination von geostationären Satellitendaten für eine langfristige Strategie und onboard-Sensordaten für die kurzfristige Verfeinerung die Leistung dynamischer Satellitenbeobachtungsmissionen bis zu 41 % steigert, insbesondere bei spärlich verteilten Zielen.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

Die Arbeit stellt ProtAlign vor, ein kontrastives Lernframework, das Proteinsequenzen und -strukturen in einen gemeinsamen Einbettungsraum überführt, um deren wechselseitige Beziehung zu nutzen und Aufgaben wie die Kreuzmodalsuche sowie die Funktionsvorhersage zu verbessern.

Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Die vorgestellte Arbeit führt das neue Paradigma der universellen Wasserzeichen-Präsenzerkennung (UWPD) ein, das mithilfe des neu erstellten UniFreq-100K-Datensatzes und des vorgeschlagenen Frequency Shield Networks (FSNet) eine algorithmenunabhängige Erkennung unsichtbarer Wasserzeichen ohne vorheriges Wissen über die Einbettungsmethode ermöglicht.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

Bi Directional Feedback Fusion for Activity Aware Forecasting of Indoor CO2 and PM2.5

Diese Arbeit stellt ein bidirektionales Feedback-Fusionsframework vor, das Umweltdaten und menschliche Aktivitäten kombiniert, um die Vorhersagegenauigkeit von indoor CO₂- und PM2,5-Konzentrationen durch adaptive Kontextmodulation und mehrskalige Zeitmodule signifikant zu verbessern.

Harshala Gammulle, Lidia Morawska, Sridha Sridharan, Clinton Fookes2026-03-10🤖 cs.LG

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

Die Arbeit stellt FutureBoosting vor, einen hybriden KI-Ansatz, der die Vorhersagekraft von Regressionsmodellen für Strompreise durch die Integration von aus einem eingefrorenen Zeitreihen-Foundation-Modell generierten Merkmalen signifikant verbessert und dabei sowohl historische Muster als auch Feature-Interaktionen effektiv nutzt.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

Der Safe Transformer ist ein modularer Ansatz, der durch die Einführung eines expliziten, interpretierbaren und steuerbaren Sicherheitsbits zwischen den Transformer-Schichten eine transparente und kontrollierbare Ausrichtung von Sprachmodellen ermöglicht, ohne dass ein vollständiges Neutrainieren erforderlich ist.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Die Arbeit stellt einen verstärkungslernbasierten Ansatz vor, der durch dichteinvariantes Eingabe-Encoding, zufallsbasiertes Dichte-Training und physikbasierte Belohnungsgestaltung eine sichere Navigation in dichten Menschenmengen ermöglicht und dabei sowohl das Einfrieren analytischer Methoden als auch das Abstürzen herkömmlicher Lernverfahren bei veränderter Dichte überwindet.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

Die Arbeit stellt Calibrated Credit Intelligence (CCI) vor, ein Framework, das Bayesianische neuronale Netze, fairheitsbeschränkte Gradient Boosting-Modelle und eine schiftbewusste Fusionsstrategie kombiniert, um unter sich ändernden Datenverteilungen zuverlässige, gut kalibrierte und faire Kreditrisikobewertungen zu gewährleisten.

Srikumar Nayak2026-03-10🤖 cs.LG

Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

Die Arbeit beschreibt ein Experiment zur dezentralen, kollaborativen Autoformalisierung algebraischer Topologie, bei dem mehrere LLM-basierte Agenten in einem bountysbasierten Marktmechanismus dynamisch Lemmas vorschlagen, Beweise führen und diese durch ein interaktives Theorembeweissystem verifizieren lassen.

Chad E. Brown, Cezary Kaliszyk, Josef Urban2026-03-10💻 cs

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

Die vorgeschlagene Methode „Rank-Factorized Implicit Neural Bias" (RIB) ermöglicht die effiziente Nutzung von FlashAttention in Super-Resolution-Transformern, indem sie relative Positionsbias durch niedrig-rangige neuronale Repräsentationen ersetzt, was zu einer signifikanten Steigerung der Bildqualität bei gleichzeitiger drastischer Verkürzung von Trainings- und Inferenzzeiten führt.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Das Paper stellt ResearchEnvBench vor, einen Benchmark, der die Fähigkeit autonomer Agenten bewertet, komplexe Ausführungsumgebungen für Forschungscode zu synthetisieren, und dabei erhebliche Defizite aktueller State-of-the-Art-Modelle bei der Abhängigkeitsauflösung und Versionskonfiguration aufzeigt.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng Qiu2026-03-10💻 cs

ViroGym: Realistic Large-Scale Benchmarks for Evaluating Viral Proteins

Die Studie stellt ViroGym vor, ein umfassendes Benchmark-System, das auf einer großen Sammlung von experimentellen Daten zu viralen Proteinen basiert, um Protein-Sprachmodelle für die Vorhersage von Varianteneffekten zu evaluieren und die rationale Auswahl von Antigenen für Impfstoffe zu unterstützen.

Yichen Zhou, Jonathan Golob, Amir Karimi, Stefan Bauer, Patrick Schwab2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Die Arbeit stellt ein effizientes Framework für heterogene dezentrale Diffusionsmodelle vor, das durch die Kombination unterschiedlicher Trainingsziele (DDPM und Flow Matching), eine innovative Umrechnung zur Inferenz und eine optimierte Architektur den Rechenaufwand im Vergleich zu vorherigen Ansätzen um das 16-fache senkt und gleichzeitig die Bildqualität sowie die Vielfalt verbessert.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Die vorgestellte Arbeit schlägt einen Rahmen vor, der vortrainierte generative Modelle feinabstimmt, um realistische Proben direkt innerhalb komplexer, physikalisch oder sicherheitskritisch eingeschränkter Bereiche zu erzeugen und dabei einen neuen Kompromiss zwischen Constraint-Einhaltung und Probenqualität erreicht.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

Stabilizing Reinforcement Learning for Diffusion Language Models

Die Arbeit stellt StableDRL vor, eine für Diffusion-Sprachmodelle optimierte Reformulierung von GRPO, die durch unbedingtes Clipping und Selbstnormalisierung die Instabilität und den Reward-Kollaps bei der Nachtrainierung verhindert.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

← Zurück Weiter →