cs.AI Arbeiten | Gist.Science

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Diese Studie zeigt, dass große Sprachmodelle zwar durch Fine-Tuning und RLHF weibliche Charaktere in Berufen überrepräsentieren, diese jedoch paradoxerweise weiterhin stärker an geschlechtsspezifischen Stereotypen als an realen Arbeitsmarktdaten ausgerichtet sind, was die Notwendigkeit ausgewogener Gegenmaßnahmen unterstreicht.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan Chen2026-03-10💬 cs.CL

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Diese Arbeit stellt eine Methode zur robusten Rekonstruktion von zwei Händen aus monokularen Bildern vor, die heterogene 2D-Strukturpriors aus Vision-Modellen mit einem kollisionsfreien Diffusionsmodell kombiniert, um Interaktionsfehler und Handdurchdringungen auch bei starken Verdeckungen zu vermeiden.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

MediTools -- Medical Education Powered by LLMs

Das Forschungsprojekt MediTools nutzt Large Language Models, um die medizinische Ausbildung durch interaktive Tools wie dermatologische Fall-Simulationen, KI-gestützte Literaturrecherche und Nachrichten-Zusammenfassungen zu revolutionieren und klinische Fähigkeiten zu verbessern.

Amr Alshatnawi, Remi Sampaleanu, David Liebovitz2026-03-10💻 cs

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Diese Studie verbessert die Vorhersage des metabolischen Syndroms durch einen neuartigen hybriden Rahmen (MetaBoost) zur Optimierung des Datenbalancings und durch eine kontrafaktische Analyse, die Blutzucker und Triglyceride als entscheidende klinische Risikofaktoren identifiziert.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Diese umfassende Übersicht fasst die Entwicklung von großen Sprachmodellen zu autonomen KI-Agenten zusammen, indem sie eine einheitliche Taxonomie für etwa 60 Evaluierungs-Benchmarks vorstellt, Agenten-Frameworks und Kollaborationsprotokolle analysiert sowie Anwendungen in verschiedenen Domänen und zukünftige Forschungsrichtungen beleuchtet.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

Die Arbeit stellt SFIBA vor, einen räumlich basierten, unsichtbaren Backdoor-Angriff, der durch die Kombination von Frequenzbereichs-Methoden und morphologischen Einschränkungen eine spezifische und schwer erkennbare Mehrziel-Manipulation von Deep-Learning-Modellen ermöglicht.

Yangxu Yin, Honglong Chen, Yudong Gao, Peng Sun, Zhishuai Li, Weifeng Liu2026-03-10💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

Precision Proactivity: Measuring Cognitive Load in Real-World AI-Assisted Work

Die Studie zeigt, dass bei 34 Finanzexperten, die GPT-4o für komplexe Bewertungsaufgaben nutzten, extrane kognitive Belastung die Leistung stärker beeinträchtigt als intrinsische Belastung, wobei proaktive KI-Eingriffe zwar die Ergebnisqualität steigern, aber bei weniger erfahrenen Nutzern zu einer asymmetrischen Belastung führen, die durch häufige, modellinitiierte Aufgabenwechsel am stärksten negativ beeinflusst wird.

Brandon Lepine, Juho Kim, Pamela Mishkin, Matthew Beane2026-03-10💻 cs

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Die Arbeit stellt Ready2Unlearn vor, einen proaktiven Lernzeit-Ansatz, der Modelle mittels Meta-Learning-Prinzipien so trainiert, dass sie zukünftige Löschungsanforderungen effizienter und prinzipienorientierter erfüllen können, anstatt sich ausschließlich auf reaktive Nachbearbeitung zu verlassen.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Der Artikel stellt FreeKV vor, ein trainingsfreies Framework zur Algorithmen-System-Optimierung, das durch spekulative Abrufverfahren und hybride Speicherkonzepte die Effizienz des KV-Cache-Retrieval für LLMs erheblich steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

Die Studie stellt einen neuro-symbolischen Ansatz vor, der durch das Abrufen analoger Probleme und die Nutzung eines formalen Verifizierers die Fähigkeit von Large Language Models zur Erzeugung korrekter Beweise in der euklidischen Geometrie signifikant verbessert.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Die Arbeit stellt MAS-ZERO vor, ein bahnbrechendes, selbstentwickelndes Inferenzzeit-Framework, das Multi-Agenten-Systeme ohne Validierungsdatensätze automatisch anpasst und durch dynamische Problemanalyse sowie Meta-Feedback signifikant höhere Genauigkeiten bei Reasoning-, Coding- und Agentenaufgaben im Vergleich zu manuellen und bestehenden automatischen Ansätzen erzielt.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Dieses Paper stellt AgarCL vor, eine auf dem Spiel Agar.io basierende Forschungsplattform für kontinuierliches Reinforcement Learning, die eine nicht-episodische, hochdimensionale Umgebung mit stochastischen Dynamiken bietet und zeigt, dass herkömmliche Methoden sowie spezielle kontinuierliche Lernansätze dort nur begrenzte Verbesserungen erzielen.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

Maximum Principle of Optimal Probability Density Control

Diese Arbeit entwickelt ein theoretisches Rahmenwerk für die optimale Steuerung von Wahrscheinlichkeitsdichten auf Maßräumen, das ein Maximum-Prinzip und die Hamilton-Jacobi-Bellman-Gleichung für unendlichdimensionale Verteilungsräume bereitstellt und durch einen skalierbaren Algorithmus mit tiefen neuronalen Netzen zur Lösung von Großraum-Multi-Agenten-Problemen ergänzt wird.

Nathan Gaby, Xiaojing Ye2026-03-10🤖 cs.LG

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Diese Arbeit stellt eine neue Methode vor, die durch das Einfügen von instruction-hierarchie-Signalen in die Zwischendarstellungen von Sprachmodellen die Anfälligkeit für Prompt-Injection-Angriffe im Vergleich zu bestehenden Ansätzen um das 1,6- bis 9,2-fache reduziert, ohne die Nützlichkeit des Modells signifikant zu beeinträchtigen.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

Die vorgestellte Arbeit führt OCN (Orthogonal Common Neighbor) ein, eine neue Methode zur Link-Vorhersage, die durch Orthogonalisierung und Normalisierung Redundanz und Over-Smoothing bei höherordentlichen gemeinsamen Nachbarn adressiert und dadurch die Leistung bestehender Ansätze signifikant verbessert.

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Diese Arbeit stellt eine neuartige Repräsentation lokaler Proteinumgebungen vor, die auf Zwischenschichten atomarer Grundmodelle basiert und nicht nur Struktur- und chemische Merkmale präzise erfasst, sondern auch den Aufbau datengesteuerter Priors sowie die Entwicklung eines hochpräzisen, physikbasierten Vorhersagemodells für NMR-Chemische Verschiebungen ermöglicht.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Die Arbeit stellt MMTU vor, ein umfassendes Benchmark mit über 28.000 Fragen zu 25 realen Tabellenaufgaben, das die aktuellen Grenzen von KI-Modellen bei der Experten-Nutzung strukturierter Daten aufzeigt und als Impuls für zukünftige Fortschritte dient.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Die Arbeit stellt BemaGANv2 vor, einen fortschrittlichen GAN-basierten Vocoder für die hochauflösende Langzeit-Audiogenerierung, der durch den Einsatz von AMP-Modulen im Generator und einer systematischen Evaluierung verschiedener Diskriminator-Kombinationen (insbesondere MED und MRD) zeitliche Kohärenz und harmonische Struktur über längere Zeiträume verbessert.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

← Zurück Weiter →