cs.AI Arbeiten | Gist.Science

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Diese umfassende Übersicht fasst die Entwicklung von großen Sprachmodellen zu autonomen KI-Agenten zusammen, indem sie eine einheitliche Taxonomie für etwa 60 Evaluierungs-Benchmarks vorstellt, Agenten-Frameworks und Kollaborationsprotokolle analysiert sowie Anwendungen in verschiedenen Domänen und zukünftige Forschungsrichtungen beleuchtet.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

Die Arbeit stellt SFIBA vor, einen räumlich basierten, unsichtbaren Backdoor-Angriff, der durch die Kombination von Frequenzbereichs-Methoden und morphologischen Einschränkungen eine spezifische und schwer erkennbare Mehrziel-Manipulation von Deep-Learning-Modellen ermöglicht.

Yangxu Yin, Honglong Chen, Yudong Gao, Peng Sun, Zhishuai Li, Weifeng Liu2026-03-10💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

Precision Proactivity: Measuring Cognitive Load in Real-World AI-Assisted Work

Die Studie zeigt, dass bei 34 Finanzexperten, die GPT-4o für komplexe Bewertungsaufgaben nutzten, extrane kognitive Belastung die Leistung stärker beeinträchtigt als intrinsische Belastung, wobei proaktive KI-Eingriffe zwar die Ergebnisqualität steigern, aber bei weniger erfahrenen Nutzern zu einer asymmetrischen Belastung führen, die durch häufige, modellinitiierte Aufgabenwechsel am stärksten negativ beeinflusst wird.

Brandon Lepine, Juho Kim, Pamela Mishkin, Matthew Beane2026-03-10💻 cs

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Die Arbeit stellt Ready2Unlearn vor, einen proaktiven Lernzeit-Ansatz, der Modelle mittels Meta-Learning-Prinzipien so trainiert, dass sie zukünftige Löschungsanforderungen effizienter und prinzipienorientierter erfüllen können, anstatt sich ausschließlich auf reaktive Nachbearbeitung zu verlassen.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Der Artikel stellt FreeKV vor, ein trainingsfreies Framework zur Algorithmen-System-Optimierung, das durch spekulative Abrufverfahren und hybride Speicherkonzepte die Effizienz des KV-Cache-Retrieval für LLMs erheblich steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

Die Studie stellt einen neuro-symbolischen Ansatz vor, der durch das Abrufen analoger Probleme und die Nutzung eines formalen Verifizierers die Fähigkeit von Large Language Models zur Erzeugung korrekter Beweise in der euklidischen Geometrie signifikant verbessert.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Die Arbeit stellt MAS-ZERO vor, ein bahnbrechendes, selbstentwickelndes Inferenzzeit-Framework, das Multi-Agenten-Systeme ohne Validierungsdatensätze automatisch anpasst und durch dynamische Problemanalyse sowie Meta-Feedback signifikant höhere Genauigkeiten bei Reasoning-, Coding- und Agentenaufgaben im Vergleich zu manuellen und bestehenden automatischen Ansätzen erzielt.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Dieses Paper stellt AgarCL vor, eine auf dem Spiel Agar.io basierende Forschungsplattform für kontinuierliches Reinforcement Learning, die eine nicht-episodische, hochdimensionale Umgebung mit stochastischen Dynamiken bietet und zeigt, dass herkömmliche Methoden sowie spezielle kontinuierliche Lernansätze dort nur begrenzte Verbesserungen erzielen.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

Maximum Principle of Optimal Probability Density Control

Diese Arbeit entwickelt ein theoretisches Rahmenwerk für die optimale Steuerung von Wahrscheinlichkeitsdichten auf Maßräumen, das ein Maximum-Prinzip und die Hamilton-Jacobi-Bellman-Gleichung für unendlichdimensionale Verteilungsräume bereitstellt und durch einen skalierbaren Algorithmus mit tiefen neuronalen Netzen zur Lösung von Großraum-Multi-Agenten-Problemen ergänzt wird.

Nathan Gaby, Xiaojing Ye2026-03-10🤖 cs.LG

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Diese Arbeit stellt eine neue Methode vor, die durch das Einfügen von instruction-hierarchie-Signalen in die Zwischendarstellungen von Sprachmodellen die Anfälligkeit für Prompt-Injection-Angriffe im Vergleich zu bestehenden Ansätzen um das 1,6- bis 9,2-fache reduziert, ohne die Nützlichkeit des Modells signifikant zu beeinträchtigen.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

Die vorgestellte Arbeit führt OCN (Orthogonal Common Neighbor) ein, eine neue Methode zur Link-Vorhersage, die durch Orthogonalisierung und Normalisierung Redundanz und Over-Smoothing bei höherordentlichen gemeinsamen Nachbarn adressiert und dadurch die Leistung bestehender Ansätze signifikant verbessert.

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Diese Arbeit stellt eine neuartige Repräsentation lokaler Proteinumgebungen vor, die auf Zwischenschichten atomarer Grundmodelle basiert und nicht nur Struktur- und chemische Merkmale präzise erfasst, sondern auch den Aufbau datengesteuerter Priors sowie die Entwicklung eines hochpräzisen, physikbasierten Vorhersagemodells für NMR-Chemische Verschiebungen ermöglicht.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Die Arbeit stellt MMTU vor, ein umfassendes Benchmark mit über 28.000 Fragen zu 25 realen Tabellenaufgaben, das die aktuellen Grenzen von KI-Modellen bei der Experten-Nutzung strukturierter Daten aufzeigt und als Impuls für zukünftige Fortschritte dient.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Die Arbeit stellt BemaGANv2 vor, einen fortschrittlichen GAN-basierten Vocoder für die hochauflösende Langzeit-Audiogenerierung, der durch den Einsatz von AMP-Modulen im Generator und einer systematischen Evaluierung verschiedener Diskriminator-Kombinationen (insbesondere MED und MRD) zeitliche Kohärenz und harmonische Struktur über längere Zeiträume verbessert.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Die Arbeit stellt Co-LoRA vor, eine Methode zur personalisierten Federated Learning, die durch eine aufgabenrelevante Aggregationsstrategie und ein dimensionsinvariantes Modul sowohl Daten- als auch Modellheterogenität in realistischen, multimodalen Szenarien effektiv adressiert und dabei den aktuellen Stand der Technik übertrifft.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

Die Arbeit stellt ContextMatters vor, ein Framework, das Large Language Models und klassische Planung kombiniert, um durch kontextabhängige Ziellockerung auf 3D-Scene-Graphen die Erfolgsrate von Embodied Agents in komplexen Umgebungen signifikant zu steigern.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Die Autoren stellen einen halb-selbstüberwachten Lernansatz namens GLMask vor, der mit minimaler manueller Annotation eine hochleistungsfähige Instanzsegmentierung ermöglicht und sowohl bei der Erkennung von Weizenähren als auch auf dem COCO-Datensatz neue State-of-the-Art-Ergebnisse erzielt.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Die Arbeit stellt SamS vor, einen effizienten Algorithmus, der durch adaptive, batch-basierte Stichprobenplanung den Direct Preference Optimization (DPO) für Large Language Models verbessert, indem er die sich entwickelnden Modellzustände während des Trainings berücksichtigt, ohne den Kernalgorithmus zu verändern.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Die vorgestellte Methode „Motivation-enhanced Reinforcement Finetuning" (MeRF) verbessert das Reinforcement Learning mit verifizierbaren Belohnungen bei großen Reasoning-Modellen, indem sie die Belohnungsfunktion als kontextuelle Motivation direkt in den Prompt integriert, um die Generierung mit dem Optimierungsziel auszurichten und so die Leistung signifikant zu steigern.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

← Zurück Weiter →