cs.CL Arbeiten | Gist.Science

DRBench: A Realistic Benchmark for Enterprise Deep Research

Die Arbeit stellt DRBench vor, ein realistisches Benchmark für die Bewertung von KI-Agenten bei komplexen, mehrstufigen Forschungsfragen in Unternehmensumgebungen, die sowohl öffentliche Webquellen als auch interne Wissensdatenbanken einbeziehen.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

Das Paper stellt den Latent Speech-Text Transformer (LST) vor, der durch die Aggregation von Sprach-Token zu latenten Patches die Sequenzlängen von Sprache und Text angleicht, was sowohl die Recheneffizienz als auch die Leistung in Sprach- und Textaufgaben im Vergleich zu herkömmlichen autoregressiven Modellen signifikant verbessert.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Das Paper stellt AlphaApollo vor, ein System für tiefes agentices Denken, das durch die Orchestrierung von Modellen und Tools mittels mehrstufiger agenter Reasoning-, Lern- und Evolutionsmechanismen die Leistung von Foundation-Modellen bei komplexen mathematischen Aufgaben signifikant verbessert.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Die Arbeit stellt mit NavSpace ein neues Benchmark-System zur systematischen Evaluierung der räumlichen Intelligenz von Navigationsagenten vor und führt das überlegene Modell SNav ein, das sowohl auf diesem Benchmark als auch in realen Robotertests neue Maßstäbe setzt.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Die Arbeit stellt SynthWorlds vor, ein Framework zur Erzeugung paralleler Korpora mit identischer Struktur, aber unterschiedlichem faktischem Gehalt, um die reasoning-Fähigkeiten von Sprachmodellen unabhängig von ihrem parametrischen Weltwissen zu evaluieren und eine persistierende Wissenslücke zwischen reinem Schlussfolgern und auswendigem Lernen aufzuzeigen.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Das Paper stellt ReViewGraph vor, ein Framework, das durch die Simulation von Debatten zwischen Autoren und Gutachtern mittels großer Sprachmodelle sowie die Anwendung von Graph-Neuronalen-Netzwerken auf diese heterogenen Interaktionsgraphen die Genauigkeit automatischer Papierbewertungen signifikant verbessert.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Die Studie zeigt, dass der Einsatz generativer KI dazu führt, dass wissenschaftliche Texte von Autoren aus nicht-englischsprachigen Ländern sich zunehmend dem US-amerikanischen Englisch annähern, was auf eine Verringerung sprachlicher Barrieren in der globalen Wissenschaft hindeutet, jedoch auch Fragen zur wachsenden Abhängigkeit von einem einzigen linguistischen Standard aufwirft.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Das Paper stellt PRISM vor, ein multimodales Framework zur stimmungsbasierten Meinungsanalyse, das durch die Einführung des nutzerzentrierten Datensatzes U-MStance und die Integration longitudinaler Nutzer-Personas sowie multimodaler Schlussfolgerung die Grenzen bestehender Modelle in Bezug auf Pseudo-Multimodalität und Nutzerhomogenität überwindet.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Die Arbeit vergleicht die Stabilität von Fake-News-Erkennung mit der Sensitivität von Viralitätsvorhersagen gegenüber operativen Parametern und schlägt praktische, ressourcenschonende Pipelines vor, um von reinen Wahrheitsprüfungen hin zu einer umfassenderen Analyse von Informationsstörungen überzugehen.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Diese Studie stellt ELERAG vor, eine für den Bildungssektor optimierte Retrieval-Augmented-Generation-Architektur, die durch die Integration von Entity Linking und einer hybriden Neuordnung auf Basis von Reciprocal Rank Fusion die faktenbasierte Genauigkeit bei der Beantwortung von Fragen auf Italienisch in domänenspezifischen Kontexten signifikant verbessert.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Das Paper stellt DEER vor, einen Benchmark mit einem expertenbasierten Taxonomie-Rubrik und einem Claim-Verifikationsmechanismus, um die Qualität von Deep-Research-Agenten bei der Generierung fachkundiger Berichte systematisch zu bewerten und diagnostische Einblicke zu liefern.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Die Arbeit stellt CRANE vor, ein neues Analyseframework, das mithilfe gezielter Neuronen-Interventionen und nicht bloßer Aktivierungsmessungen sprachspezifische Neuronen in mehrsprachigen großen Sprachmodellen präziser identifiziert und dabei eine asymmetrische, aber nicht ausschließliche Spezialisierung dieser Neuronen aufzeigt.

Yifan Le, Yunliang LiWed, 11 Ma🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Die Arbeit stellt EVM-QuestBench vor, ein ausführungsbasiertes Benchmark-System mit dynamischer Evaluierung, das die Lücke in der Sicherheits- und Genauigkeitsbewertung von Sprachmodellen bei der Generierung von Transaktionscodes für EVM-kompatible Blockchains schließt.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Diese Arbeit führt die erste systematische Untersuchung zur Kodierung von Akzentinformationen in diskreten Sprachrepräsentationstokens durch und stellt ein einheitliches Evaluierungsframework vor, das zeigt, dass die Schichtauswahl den größten Einfluss hat, ASR-Überwachung die Akzentinformationen erheblich reduziert und eine naive Verkleinerung des Codebooks nicht ausreicht, um Akzente von phonetischen und Sprechereigenschaften zu trennen.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Die Arbeit stellt EigenData vor, ein einheitliches Framework, das durch einen selbstentwickelnden Multi-Agenten-Prozess synthetische Trainingsdaten mit verifizierbaren Belohnungen kombiniert, um effizient und skalierbar leistungsfähige, interaktive Tool-Nutzungs-Agenten ohne teure menschliche Annotation zu trainieren.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Diese Arbeit stellt eine Methode vor, bei der große Sprachmodelle durch die Integration einer adaptiven, latenten Chain-of-Thought auf Token-Ebene während des Vor-Trainings ihre Effizienz und Leistung steigern, indem sie den Rechenaufwand dynamisch an die Schwierigkeit jedes Tokens anpassen, ohne dabei die Parameterzahl zu erhöhen.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Query-focused and Memory-aware Reranker for Long Context Processing

Die Autoren stellen einen leichten und effektiven Reranker vor, der auf Aufmerksamkeitswerten ausgewählter Schichten in Sprachmodellen basiert, um eine listweise Relevanzschätzung ohne Likert-Skalen-Supervision zu ermöglichen und dabei neue State-of-the-Art-Ergebnisse auf Benchmarks für lange Kontexte und Dialogverständnis zu erzielen.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie ZhouWed, 11 Ma💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Die Arbeit stellt „Missing-by-Design" (MBD) vor, ein einheitliches Framework für multimodale Sentiment-Analyse, das durch strukturierte Repräsentationslernen und einen zertifizierbaren Parameter-Modifikationsprozess die selektive und nachweisbare Löschung spezifischer Datenmodalitäten ermöglicht, ohne die Vorhersagegenauigkeit bei unvollständigen Eingaben zu beeinträchtigen.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon FongWed, 11 Ma🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Die Arbeit stellt AuditBench vor, einen Benchmark mit 56 Sprachmodellen, die versteckte, problematische Verhaltensweisen aufweisen, um die Wirksamkeit von Ausrichtungsaudit-Techniken zu evaluieren und dabei festzustellen, dass schwarze-Box-Tools sowie scaffolding-basierte Prompts effektiver sind als weiße-Box-Methoden, während die Auditierbarkeit stark von der Trainingsmethode abhängt.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Die Arbeit stellt SkillCraft vor, einen Benchmark und ein Evaluierungsprotokoll, das die Fähigkeit von LLM-Agenten testet, wiederverwendbare Werkzeugkombinationen („Skills") zu bilden und zu nutzen, was zu erheblichen Effizienzsteigerungen und einer starken Korrelation zwischen Erfolg und kompositorischer Fähigkeit führt.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

← Zurück Weiter →