cs.CL Arbeiten | Gist.Science

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Die Studie stellt mit der Approximate Question-side Effect (AQE)-Methode ein Verfahren vor, um zu zeigen, dass bestehende Methoden zur Halluzinationserkennung in Sprachmodellen stark auf Benchmark-Manipulationen statt auf echtes internes Bewusstsein angewiesen sind.

Yeongbin Seo, Dongha Lee, Jinyoung Yeo2026-03-11💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Die Studie stellt v-HUB vor, ein neues Benchmark für das Verständnis von Videohumor, das zeigt, dass multimodale Sprachmodelle durch die Einbeziehung von Umgebungsgeräuschen ihre Fähigkeit verbessern können, Humor in visuellen Szenarien zu erfassen.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

DRBench: A Realistic Benchmark for Enterprise Deep Research

Die Arbeit stellt DRBench vor, ein realistisches Benchmark für die Bewertung von KI-Agenten bei komplexen, mehrstufigen Forschungsfragen in Unternehmensumgebungen, die sowohl öffentliche Webquellen als auch interne Wissensdatenbanken einbeziehen.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji2026-03-11💬 cs.CL

Latent Speech-Text Transformer

Das Paper stellt den Latent Speech-Text Transformer (LST) vor, der durch die Aggregation von Sprach-Token zu latenten Patches die Sequenzlängen von Sprache und Text angleicht, was sowohl die Recheneffizienz als auch die Leistung in Sprach- und Textaufgaben im Vergleich zu herkömmlichen autoregressiven Modellen signifikant verbessert.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Das Paper stellt AlphaApollo vor, ein System für tiefes agentices Denken, das durch die Orchestrierung von Modellen und Tools mittels mehrstufiger agenter Reasoning-, Lern- und Evolutionsmechanismen die Leistung von Foundation-Modellen bei komplexen mathematischen Aufgaben signifikant verbessert.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Die Arbeit stellt mit NavSpace ein neues Benchmark-System zur systematischen Evaluierung der räumlichen Intelligenz von Navigationsagenten vor und führt das überlegene Modell SNav ein, das sowohl auf diesem Benchmark als auch in realen Robotertests neue Maßstäbe setzt.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Die Arbeit stellt SynthWorlds vor, ein Framework zur Erzeugung paralleler Korpora mit identischer Struktur, aber unterschiedlichem faktischem Gehalt, um die reasoning-Fähigkeiten von Sprachmodellen unabhängig von ihrem parametrischen Weltwissen zu evaluieren und eine persistierende Wissenslücke zwischen reinem Schlussfolgern und auswendigem Lernen aufzuzeigen.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim Althoff2026-03-11💬 cs.CL

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Die Studie stellt „Information Capacity" als neue Metrik vor, die die Effizienz von Large Language Models durch die Analyse ihrer Textkompressionsleistung unter Berücksichtigung von Tokenizer-Effizienz und Rechenkomplexität bewertet, um ressourcenschonendere Skalierungsstrategien zu ermöglichen.

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Das Paper stellt ReViewGraph vor, ein Framework, das durch die Simulation von Debatten zwischen Autoren und Gutachtern mittels großer Sprachmodelle sowie die Anwendung von Graph-Neuronalen-Netzwerken auf diese heterogenen Interaktionsgraphen die Genauigkeit automatischer Papierbewertungen signifikant verbessert.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min Yang2026-03-11💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Die Studie zeigt, dass der Einsatz generativer KI dazu führt, dass wissenschaftliche Texte von Autoren aus nicht-englischsprachigen Ländern sich zunehmend dem US-amerikanischen Englisch annähern, was auf eine Verringerung sprachlicher Barrieren in der globalen Wissenschaft hindeutet, jedoch auch Fragen zur wachsenden Abhängigkeit von einem einzigen linguistischen Standard aufwirft.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf Weder2026-03-11💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Das Paper stellt PRISM vor, ein multimodales Framework zur stimmungsbasierten Meinungsanalyse, das durch die Einführung des nutzerzentrierten Datensatzes U-MStance und die Integration longitudinaler Nutzer-Personas sowie multimodaler Schlussfolgerung die Grenzen bestehender Modelle in Bezug auf Pseudo-Multimodalität und Nutzerhomogenität überwindet.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu2026-03-11💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Die Arbeit vergleicht die Stabilität von Fake-News-Erkennung mit der Sensitivität von Viralitätsvorhersagen gegenüber operativen Parametern und schlägt praktische, ressourcenschonende Pipelines vor, um von reinen Wahrheitsprüfungen hin zu einer umfassenderen Analyse von Informationsstörungen überzugehen.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)2026-03-11💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Diese Studie stellt ELERAG vor, eine für den Bildungssektor optimierte Retrieval-Augmented-Generation-Architektur, die durch die Integration von Entity Linking und einer hybriden Neuordnung auf Basis von Reciprocal Rank Fusion die faktenbasierte Genauigkeit bei der Beantwortung von Fragen auf Italienisch in domänenspezifischen Kontexten signifikant verbessert.

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Das Paper stellt DEER vor, einen Benchmark mit einem expertenbasierten Taxonomie-Rubrik und einem Claim-Verifikationsmechanismus, um die Qualität von Deep-Research-Agenten bei der Generierung fachkundiger Berichte systematisch zu bewerten und diagnostische Einblicke zu liefern.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee2026-03-11💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Die Arbeit stellt CRANE vor, ein neues Analyseframework, das mithilfe gezielter Neuronen-Interventionen und nicht bloßer Aktivierungsmessungen sprachspezifische Neuronen in mehrsprachigen großen Sprachmodellen präziser identifiziert und dabei eine asymmetrische, aber nicht ausschließliche Spezialisierung dieser Neuronen aufzeigt.

Yifan Le, Yunliang Li2026-03-11🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Die Arbeit stellt EVM-QuestBench vor, ein ausführungsbasiertes Benchmark-System mit dynamischer Evaluierung, das die Lücke in der Sicherheits- und Genauigkeitsbewertung von Sprachmodellen bei der Generierung von Transaktionscodes für EVM-kompatible Blockchains schließt.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi2026-03-11💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Diese Arbeit führt die erste systematische Untersuchung zur Kodierung von Akzentinformationen in diskreten Sprachrepräsentationstokens durch und stellt ein einheitliches Evaluierungsframework vor, das zeigt, dass die Schichtauswahl den größten Einfluss hat, ASR-Überwachung die Akzentinformationen erheblich reduziert und eine naive Verkleinerung des Codebooks nicht ausreicht, um Akzente von phonetischen und Sprechereigenschaften zu trennen.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell2026-03-11⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Die Arbeit stellt EigenData vor, ein einheitliches Framework, das durch einen selbstentwickelnden Multi-Agenten-Prozess synthetische Trainingsdaten mit verifizierbaren Belohnungen kombiniert, um effizient und skalierbar leistungsfähige, interaktive Tool-Nutzungs-Agenten ohne teure menschliche Annotation zu trainieren.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu2026-03-11🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Diese Arbeit stellt eine Methode vor, bei der große Sprachmodelle durch die Integration einer adaptiven, latenten Chain-of-Thought auf Token-Ebene während des Vor-Trainings ihre Effizienz und Leistung steigern, indem sie den Rechenaufwand dynamisch an die Schwierigkeit jedes Tokens anpassen, ohne dabei die Parameterzahl zu erhöhen.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin2026-03-11💬 cs.CL

← Zurück Weiter →