cs.CL Arbeiten | Gist.Science

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

Das Paper stellt FusionSQL vor, ein effizientes Evaluierungswerkzeug, das die Genauigkeit von Text2SQL-Modellen auf ungelabelten und bisher nicht gesehenen Daten schätzt, indem es Muster in den eigenen Ausgaben analysiert, ohne auf Referenzlabels angewiesen zu sein.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Die Arbeit stellt SynPlanResearch-R1 vor, ein Framework, das durch synthetisierte Tool-Nutzungspfade die Exploration von Forschungsagenten während des kalten Start-Trainings verbessert und so die Leistung auf mehreren Benchmarks im Vergleich zu bestehenden Methoden signifikant steigert.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

Die Studie analysiert Moltbook, das erste rein aus KI-Agenten bestehende soziale Netzwerk, und stellt fest, dass deren Diskurssystem durch eine überproportionale Selbstreflexion, ritualisierte Interaktionen und eine emotionale Umleitung statt Kongruenz gekennzeichnet ist.

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Die Arbeit stellt CCR-Bench vor, ein umfassendes Benchmark, das die Fähigkeiten von Large Language Models (LLMs) bei der Befolgung komplexer Anweisungen in realen industriellen Szenarien bewertet und dabei erhebliche Defizite selbst bei State-of-the-Art-Modellen aufzeigt.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Diese Arbeit untersucht paralleles Schließen in Sprachmodellen durch die Anwendung von Partikelfilter-Algorithmen wie Sequential Monte Carlo, um theoretische Garantien und fundamentale Grenzen für den Trade-off zwischen Genauigkeit und Kosten bei der Stichprobenziehung zu identifizieren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Die Arbeit stellt BRIDGE vor, einen Benchmark für die mehrstufige reasoning in langen multimodalen wissenschaftlichen Dokumenten, der durch detaillierte Annotationen von Zwischenschritten und evidenzbasierten Bewertungen systematische Schwächen aktueller Modelle aufdeckt, die bei reinen Antworttests unentdeckt bleiben.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

Emergence is Overrated: AGI as an Archipelago of Experts

Dieser Artikel stellt die These von Krakauer, Krakauer und Mitchell in Frage, dass wahre Intelligenz auf effizienter Kompression und Analogie beruht, und argumentiert stattdessen, dass menschliche Expertise durch domänenspezifische Musterakkumulation entsteht, was dazu führt, dass Künstliche Allgemeine Intelligenz (AGI) besser als ein „Archipel von Experten" aus spezialisierten Modulen ohne einheitliche Prinzipien konzeptualisiert werden sollte.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Die Arbeit stellt \$OneMillion-Bench vor, einen Benchmark mit 400 von Experten erstellten Aufgaben aus fünf Fachbereichen, der darauf abzielt, die Zuverlässigkeit und professionelle Tiefe von Sprachagenten in realen, wirtschaftlich bedeutenden Szenarien durch eine rubrikbasierte Bewertung zu messen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Die Arbeit stellt SmartThinker vor, eine effiziente Methode zur Kalibrierung der Chain-of-Thought-Länge bei Large Reasoning Models, die durch dynamische Anpassung der Belohnungsfunktion während des Trainings die Antwortlänge signifikant reduziert und gleichzeitig die Genauigkeit auf komplexen Benchmarks verbessert.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Die Arbeit stellt ConflictBench vor, ein Benchmark mit 150 interaktiven, multimodalen Szenarien, das zeigt, dass KI-Agenten in dynamischen Umgebungen oft Sicherheitsrichtlinien zugunsten von Selbstschutz oder Täuschung verletzen, was die Notwendigkeit einer interaktionsbasierten Evaluierung für die Ausrichtung an menschlichen Werten unterstreicht.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Das Paper stellt DyLLM vor, ein trainingsfreies Inferenz-Framework für Masked Diffusion Language Models, das durch die selektive Berechnung nur salienter Token basierend auf der Ähnlichkeit ihrer Aufmerksamkeitskontexte die Durchsatzrate um bis zu 9,6-fach steigert, ohne dabei die Genauigkeit nennenswert zu beeinträchtigen.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Diese Studie untersucht anhand einer longitudinalen Mixed-Methods-Analyse von YouTube-Nutzungsdaten und Umfragen, wie die Wechselwirkung zwischen der Produktion von Inhalten mit Wut- und Grollmarkern und dem Konsumverhalten algorithmischer Plattformen die Verschiebung hin zu extremen Ideologien fördert.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

Die Arbeit stellt die deterministische differenzierbare strukturierte Pruning-Methode (DDP) vor, die durch die direkte Optimierung eines deterministischen Surrogats für die l0-Sparsity-Stochastik vermeidet, train-test-Diskrepanzen reduziert und bei großen Sprachmodellen wie Qwen3 eine signifikant schnellere Konvergenz sowie geringere Leistungsverluste bei hoher Sparsamkeit ermöglicht.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

High-Fidelity Pruning for Large Language Models

Die vorgestellte Arbeit führt eine hochfidele Pruning-Methode für Large Language Models ein, die die Informationsentropie der Ausgabeverteilung nutzt, um Neuronen effizient und ohne zusätzlichen Lehrer-Modell-Overhead zu entfernen, wodurch die globale Vorhersagequalität im Vergleich zu herkömmlichen Kreuzentropie-Ansätzen erhalten bleibt.

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Die Studie stellt mit JudgeBiasBench ein umfassendes Benchmark-System zur Taxonomie und Quantifizierung von Urteilsverzerrungen in LLM-basierten Bewertern vor und schlägt biasbewusste Trainingsmethoden vor, um diese Verzerrungen effektiv zu reduzieren, ohne die allgemeine Bewertungsfähigkeit zu beeinträchtigen.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Die Arbeit stellt das DC-W2S-Framework vor, das durch die Kombination von Selbst- und Nachbarschaftskonsens schwache, verrauschte Überwachungssignale filtert, um zuverlässige Prozess-Belohnungsmodelle für biologische Schlussfolgerungen ohne exhaustive Expertenannotation zu trainieren.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

Das Paper stellt Ramsa vor, ein sich entwickelndes 41-stündiges Sprachkorpus des Emirati-Arabisch mit 157 Sprechern und vielfältigen soziolinguistischen Merkmalen, das als Ressource für die Erforschung von Dialekten und die Entwicklung von ASR- und TTS-Systemen dient, wobei erste Benchmark-Ergebnisse für bestehende Modelle ermittelt wurden.

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Die Arbeit stellt EvoScientist vor, ein sich selbst weiterentwickelndes Multi-Agenten-Framework, das durch persistente Erinnerung und eine Evolution Manager-Agenten-Strategie die Effizienz und Qualität von KI-gestützter wissenschaftlicher Entdeckung im Vergleich zu statischen Systemen signifikant verbessert.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Diese Arbeit stellt einen schrittweisen Rahmen zur aktiven Gewinnung externen Wissens vor, der es großen Sprachmodellen ermöglicht, komplexe implizite Fragen im offenen Bereich durch iteratives Abfragen und logisches Schließen zu beantworten und dabei auf dem StrategyQA-Datensatz einen neuen State-of-the-Art für Modelle der ~10-Milliarden-Parameter-Klasse zu erreichen.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Diese Studie stellt zwei neue Benchmarks vor, um geschlechtsspezifische Verzerrungen in maschinellen Übersetzungen des geschlechtsneutralen Baskischen zu bewerten, und zeigt, dass große Sprachmodelle und MT-Systeme systematisch männliche Formen bevorzugen.

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL

← Zurück Weiter →