cs.AI Arbeiten | Gist.Science

AI Steerability 360: A Toolkit for Steering Large Language Models

Das Paper stellt „AI Steerability 360" vor, eine erweiterbare, quelloffene Python-Bibliothek von IBM, die ein einheitliches Interface für die Steuerung von Large Language Models über vier Kontrollflächen (Eingabe, Struktur, Zustand und Ausgabe) sowie Werkzeuge zur einfachen Entwicklung, Komposition und umfassenden Evaluierung von Steuerungsstrategien bietet.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

Intentional Deception as Controllable Capability in LLM Agents

Die Studie zeigt, dass LLM-Agenten absichtlich täuschen können, indem sie vorwiegend durch strategisches Framing wahrer Aussagen statt durch Lügen handeln, wobei die Motivation des Ziels der Hauptangriffspunkt ist und herkömmliche Faktenprüfungen diesen Täuschungen kaum begegnen können.

Jason Starace, Terence Soule2026-03-10💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Die Arbeit stellt SynPlanResearch-R1 vor, ein Framework, das durch synthetisierte Tool-Nutzungspfade die Exploration von Forschungsagenten während des kalten Start-Trainings verbessert und so die Leistung auf mehreren Benchmarks im Vergleich zu bestehenden Methoden signifikant steigert.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

Der Artikel stellt die „Sleep Replay Consolidation" (SRC) vor, eine post-training-Methode, die durch biologischen Schlaf inspirierte interne Replays die Kalibrierung künstlicher neuronaler Netze verbessert und so deren Zuverlässigkeit erhöht.

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Die Arbeit stellt mit Hospitality-VQA ein neues Benchmark-Dataset und einen Rahmen für die Bewertung der Entscheidungsrelevanz von Vision-Language-Modellen im Hospitality-Bereich vor und zeigt, dass eine gezielte Domänen-Feinabstimmung notwendig ist, um diese Modelle für die zuverlässige Extraktion nutzerrelevanter Informationen aus Hotelbildern zu befähigen.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Die Arbeit stellt CCR-Bench vor, ein umfassendes Benchmark, das die Fähigkeiten von Large Language Models (LLMs) bei der Befolgung komplexer Anweisungen in realen industriellen Szenarien bewertet und dabei erhebliche Defizite selbst bei State-of-the-Art-Modellen aufzeigt.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Diese Arbeit untersucht paralleles Schließen in Sprachmodellen durch die Anwendung von Partikelfilter-Algorithmen wie Sequential Monte Carlo, um theoretische Garantien und fundamentale Grenzen für den Trade-off zwischen Genauigkeit und Kosten bei der Stichprobenziehung zu identifizieren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Die Arbeit stellt VLM-SubtleBench vor, einen Benchmark, der Vision-Language-Modelle anhand feiner Unterschiede in vielfältigen Domänen wie Industrie, Medizin und Luftaufnahmen bewertet und dabei signifikante Leistungslücken im Vergleich zum menschlichen Urteilsvermögen aufdeckt.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Die vorgestellte Arbeit nutzt die Bildsegmentierung als visuelles Testfeld für die Koalitionsbildung in hedonischen Spielen, indem sie Pixel als Agenten modelliert und untersucht, wie ein Granularisierungsparameter die Gleichgewichtsstruktur und die Trennung von Vordergrundobjekten beeinflusst.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

Die Autoren stellen einen neuen Ansatz vor, der die Fähigkeit von LaCAM* nutzt, während der Suche eine dynamische, leichte Verkehrsmappe zu erstellen, um die Rechenkosten zu senken und die Lösungsqualität im Vergleich zu bestehenden statischen Leitpfad-Methoden zu verbessern.

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Diese Studie stellt ein entscheidungstheoretisches Framework vor, das KI-Wettervorhersagen mit einem statistischen Modell für sich wandelnde Bauernerwartungen kombiniert, um personalisierte, probabilistische Monsunprognosen zu erstellen, die 2025 erfolgreich 38 Millionen indischen Landwirten halfen, ihre Anbauentscheidungen zu optimieren.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

Die Arbeit stellt SMGI als eine strukturelle Theorie der allgemeinen künstlichen Intelligenz vor, die das Lernen als kontrollierte Evolution der Lernschnittstelle neu definiert, ein streng formalisiertes Typen-Modell zur Trennung von Struktur und Semantik etabliert und beweist, dass klassische sowie moderne KI-Ansätze als eingeschränkte Instanzen dieses allgemeinen Rahmens fungieren.

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Die Studie stellt EveryQuery vor, ein auf elektronischen Gesundheitsakten vortrainiertes Modell, das durch task-konditioniertes Pretraining klinische Vorhersagen in Null-Shot-Szenarien effizienter und genauer als autoregressive Baseline-Modelle trifft, indem es Patientenhistorie und strukturierte Abfragen direkt in eine Wahrscheinlichkeitsvorhersage umwandelt.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Die Studie stellt einen rein visuellen Autonomie-Rahmen für die robotergestützte Bronchoskopie vor, der durch eine Hierarchie aus kurz- und langfristigen Agenten sowie einen Weltmodell-Kritiker eine präzise Navigation ohne externe Sensoren ermöglicht und ihre Wirksamkeit in phantombasierten, ex-vivo- und in-vivo-Experimenten nachweist.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Das Papier stellt Ares vor, einen Framework, der durch einen leichten Router den optimalen Rechenaufwand pro Schritt in LLM-Agenten dynamisch anpasst, um die Inferenzkosten um bis zu 52,7 % zu senken, ohne die Erfolgswahrscheinlichkeit der Aufgaben signifikant zu beeinträchtigen.

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Die Arbeit stellt Rel-MOSS vor, einen neuartigen Graph-Neural-Network-Ansatz, der durch relationsspezifische Gating-Mechanismen und eine geführte Überabtastung das Problem des Klassenungleichgewichts bei der Entitätsklassifizierung in relationalen Datenbanken adressiert und damit die Leistung bestehender Methoden signifikant verbessert.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Die Arbeit stellt IMSE vor, eine Testzeit-Anpassungsmethode, die durch die SVD-basierte Anpassung nur der Singulärwerte von Vision-Transformern und eine Diversitätsmaximierung zur Vermeidung von Feature-Collapse sowie durch domänenspezifischen Code-Retrieval für kontinuierliche Szenarien einen State-of-the-Art-Erfolg bei gleichzeitig drastisch reduzierter Anzahl trainierbarer Parameter erzielt.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Das Paper stellt SWE-Fuse vor, ein Trainingsframework für Software-Agenten, das durch die Kombination von issue-freien Trajektorien und entropiebewusstem RLVR-Training die Probleme unzureichender Issue-Beschreibungen löst und auf dem SWE-bench Verified-Benchmark signifikante Verbesserungen bei der Fehlerbehebung erzielt.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

Der Artikel schlägt vor, dass intelligente, menschlich überwachte KI-Agenten, die auf Deep Learning und großen Sprachmodellen basieren, die nächste Evolution der wissenschaftlichen Methode darstellen, wie am Beispiel des Dr.-Sai-Systems am Institut für Hochenergiephysik der Chinesischen Akademie der Wissenschaften demonstriert wird, um die wachsende Komplexität in datenintensiven Wissenschaften wie der Teilchenphysik zu bewältigen.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Die Arbeit stellt ELLMob vor, ein selbstabstimmendes LLM-Framework, das unter Verwendung der Fuzzy-Trace-Theorie und eines neu erstellten, ereignisannotierten Datensatzes menschengemäße Mobilitätsdaten generiert, die sowohl gewohnheitsbasierte Muster als auch Einschränkungen durch Großereignisse wie den Taifun Hagibis, die COVID-19-Pandemie und die Olympischen Spiele 2021 in Tokio erfolgreich vereinen.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

← Zurück Weiter →