cs.AI Arbeiten | Gist.Science

Localizing and Correcting Errors for LLM-based Planners

Die vorgestellte Arbeit stellt eine Methode namens L-ICL vor, die durch gezielte, schrittweise Korrekturen von Verstößen gegen Domänenbeschränkungen die Fähigkeit von LLMs zur Planung in symbolischen Umgebungen signifikant verbessert.

Aditya Kumar, William W. Cohen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Diese Arbeit präsentiert Fallstudien und bewährte Techniken, die zeigen, wie Forscher mit Google's Gemini-Modellen erfolgreich zusammenarbeiten, um offene Probleme in der theoretischen Informatik und anderen Disziplinen zu lösen, neue Beweise zu generieren und KI als vielseitigen Partner im kreatischen Entdeckungsprozess zu etablieren.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Diese Arbeit argumentiert für einen Paradigmenwechsel in der Unsicherheitsquantifizierung von großen Sprachmodellen hin zu interaktiven Agenten und stellt ein neues Rahmenwerk vor, das auf drei Säulen – einer allgemeinen Formulierung, der Identifizierung spezifischer technischer Herausforderungen und zukünftigen Forschungsrichtungen – basiert.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Diese Studie zeigt, dass herkömmliche attributionsbasierte Erklärungen für statische Vorhersagen auf agente KI-Systeme nicht übertragbar sind, und empfiehlt stattdessen eine trajectorienbasierte, spurengestützte Diagnose, um Fehler wie inkonsistente Zustandsverfolgung effektiv zu lokalisieren.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

Die Arbeit stellt Aletheia vor, einen autonomen mathematischen Forschungsagenten, der auf dem Gemini Deep Think-Modell basiert und durch iterative Generierung, Verifizierung und Revision von Lösungen in natürlicher Sprache sowohl Olympiadaufgaben als auch komplexe Forschungsarbeiten, einschließlich vollständig KI-generierter und kollaborativer wissenschaftlicher Beiträge, bewältigt.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Die Arbeit stellt mit AgoraBench, nutzungsbasierten Metriken und einem menschlichen Präferenz-Datensatz ein neues Framework vor, das die Verhandlungsfähigkeiten von LLMs durch Feinabstimmung und Prompting signifikant verbessert und sie an menschliche Präferenzen sowie ökonomische Prinzipien anpasst.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

Die Studie zeigt, dass bei der kollaborativen „Vibe Coding"-Programmierung menschliche Führung durch übergeordnete Anweisungen entscheidend für den Erfolg ist, während rein KI-gesteuerte Ansätze oft scheitern und hybride Modelle am besten funktionieren, wenn Menschen die Anleitung übernehmen und die KI die Evaluierung durchführt.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Die Arbeit stellt DataChef-32B vor, ein System, das mittels Reinforcement Learning automatisch optimale Datenrezepte zur Anpassung von Large Language Models generiert und dabei die Leistung menschlicher Experten erreicht oder sogar übertrifft.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Das Paper stellt SWE-MiniSandbox vor, eine leichte, containerfreie Methode zur skalierbaren Reinforcement-Learning-Training von Software-Engineering-Agenten, die durch Kernel-isolierte Workspaces und Pre-Caching-Techniken den Speicherbedarf und die Vorbereitungszeit im Vergleich zu herkömmlichen Container-Ansätzen drastisch reduziert, ohne die Leistung zu beeinträchtigen.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Die vorgestellte Arbeit schlägt eine neue Proxy-Level-Scoring-Formel namens „Peak + Accumulation" vor, die durch die Kombination von Spitzenrisiko, Persistenz und Kategoriediversität Multi-Turn-Prompt-Injection-Angriffe ohne LLM-Einsatz mit hoher Genauigkeit erkennt und dabei die Schwächen herkömmlicher gewichteter Durchschnittsmethoden überwindet.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Diese Studie widerlegt die Illusion einer objektiven „Ground Truth" in der Datenannotation, indem sie aufzeigt, wie systematische Verzerrungen und der Druck zur Konsensbildung menschliche Meinungsverschiedenheiten als Rauschen unterdrücken, und fordert stattdessen eine pluralistische Infrastruktur, die kulturelle Vielfalt als essenzielles Signal anerkennt.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Die Studie stellt AHSIV vor, einen adaptiven Rahmen zur Auswahl von Prognosemodellen, der durch die Berücksichtigung von Horizont-induzierter Degradation und Nachfrageschwankungen die Instabilität bei der Modellbewertung über verschiedene Zeithorizonte hinweg adressiert und so robuste Entscheidungen für heterogene Nachfragemuster ermöglicht.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Das Paper stellt IntelliAsk vor, ein Modell, das durch Bestärkendes Lernen mit einer speziell entwickelten Belohnungsfunktion (IntelliReward) und einem optimierten Trainingsverfahren (DAPO) hochwertige, evidenzbasierte Forschungsfragen generiert, die menschlichen Gutachterstandards entsprechen und gleichzeitig die allgemeinen Fähigkeiten des Modells verbessern.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Diese Arbeit präsentiert empirische Ergebnisse einer deterministischen, graphbasierten C++-Implementierung, die zeigt, dass semantische Kontinuität durch lokale Zustandsänderungen statt durch probabilistische Neuorganisation erreicht werden kann, was zu einer invarianten Rechenzeit und thermischen Effizienz führt, die unabhängig von der Gesamtknotengröße ist.

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Das Paper stellt FLoRG vor, ein Framework für das federierte Fine-Tuning von Sprachmodellen, das durch die Aggregation einer einzelnen Gram-Matrix und die Anwendung von Procrustes-Alignment Aggregationsfehler sowie Dekompositionsdrift vermeidet, die Kommunikationseffizienz drastisch steigert und eine höhere Genauigkeit als bestehende Methoden erzielt.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Die Studie widerlegt die weit verbreitete Annahme, dass Sprach-LLMs ASR-LLM-Pipelines überlegen sind, und zeigt durch mechanistische Analysen, dass diese Modelle in den meisten Anwendungsfällen lediglich teure Kaskaden darstellen, die unter Rauschbedingungen sogar schlechter abschneiden als ihre textbasierten Pendants.

Jayadev Billa2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Die Arbeit stellt EMPO $^2$ vor, ein hybrides Reinforcement-Learning-Framework, das durch die Kombination von On- und Off-Policy-Optimierung sowie einem Gedächtnismechanismus die Explorationsfähigkeit von LLM-Agenten signifikant verbessert und so zu überlegener Leistung und Anpassungsfähigkeit in neuen Umgebungen führt.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Diese Arbeit erklärt das Phänomen des Modality Collapse in multimodalen LLMs als Informationsverlust durch fehlende Übereinstimmung zwischen Quell- und Textdaten, wobei die zugängliche Information durch die Generalisierte Gegenseitige Information begrenzt ist und primär vom Trainingsziel des Decoders abhängt, nicht von der Encoder-Architektur.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Die Arbeit stellt CoME vor, ein neuartiges Agenten-Architekturkonzept, das durch spezialisierte Experten, eine progressive Trainingsstrategie und einen informationsgeleiteten DPO-Ansatz die hybriden Reasoning-Fähigkeiten mobiler Agenten für eine präzisere Aufgabenausführung verbessert.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

Die Arbeit stellt den ToCS-Benchmark vor, der zeigt, dass KI-Code-Agenten beim Verständnis von Softwarearchitekturen in mehrdateigen Umgebungen oft scheitern, wobei ihre Fähigkeit zur aktiven Exploration, zur Nutzung strukturierter Glaubenszustände und zur Konsistenz des Wissens stark vom jeweiligen Modell abhängt.

Grigory Sapunov2026-03-09🤖 cs.AI

← Zurück Weiter →

cs.AI

Localizing and Correcting Errors for LLM-based Planners

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Towards Autonomous Mathematics Research

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Why Human Guidance Matters in Collaborative Vibe Coding

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR→\rightarrow→LLM Pipelines?

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Theory of Code Space: Do Code Agents Understand Software Architecture?

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?