cs.CL Arbeiten | Gist.Science

Causal Retrieval with Semantic Consideration

Das Papier stellt CAWAI vor, ein Retrieval-Modell, das durch das gleichzeitige Lernen semantischer und kausaler Zusammenhänge die Genauigkeit von Informationsabrufsystemen in wissensintensiven Domänen wie Biomedizin und Recht verbessert.

Hyunseo Shin, Wonseok HwangTue, 10 Ma💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Die Studie zeigt, dass die Kombination von Large Language Models zur Extraktion linguistischer und kognitiver Merkmale mit baumbasierten maschinellen Lernalgorithmen eine genauere Schätzung der Aufgabenschwierigkeit für K-5-Mathematik- und Lesetests ermöglicht als direkte LLM-Schätzungen und somit den Bedarf an aufwendigen Vorabtests reduziert.

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Der Artikel stellt FreeKV vor, ein trainingsfreies Framework zur Algorithmen-System-Optimierung, das durch spekulative Abrufverfahren und hybride Speicherkonzepte die Effizienz des KV-Cache-Retrieval für LLMs erheblich steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru ZhaoTue, 10 Ma🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Die Arbeit stellt MAS-ZERO vor, ein bahnbrechendes, selbstentwickelndes Inferenzzeit-Framework, das Multi-Agenten-Systeme ohne Validierungsdatensätze automatisch anpasst und durch dynamische Problemanalyse sowie Meta-Feedback signifikant höhere Genauigkeiten bei Reasoning-, Coding- und Agentenaufgaben im Vergleich zu manuellen und bestehenden automatischen Ansätzen erzielt.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq JotyTue, 10 Ma🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Das Paper stellt HDLxGraph vor, ein Framework, das durch die Integration von Abstract Syntax Trees und Data Flow Graphs in Retrieval-Augmented Generation die Lücken bei der Verarbeitung von Hardware-Beschreibungssprachen schließt und gleichzeitig einen neuen Benchmark namens HDLSearch einführt, um die Genauigkeit von Such-, Debugging- und Vervollständigungsaufgaben signifikant zu verbessern.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

Die Arbeit stellt SwingArena vor, ein kompetitives Evaluierungsframework für Large Language Models, das reale Softwareentwicklungsworkflows durch die Paarung von Modellen als Patch-Ersteller und Prüfer in CI-Pipelines nachbildet und dabei ein retrieval-basiertes Modul zur Bewältigung langer Kontexte in großen Codebasen einsetzt.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Die Arbeit stellt MMTU vor, ein umfassendes Benchmark mit über 28.000 Fragen zu 25 realen Tabellenaufgaben, das die aktuellen Grenzen von KI-Modellen bei der Experten-Nutzung strukturierter Daten aufzeigt und als Impuls für zukünftige Fortschritte dient.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

Die Arbeit stellt CyclicReflex vor, eine trainingsfreie Decodierungsstrategie, die durch die zyklische Anpassung der Wahrscheinlichkeiten für Reflexionstoken die Testzeit-Leistung von Large Reasoning Models verbessert und dabei Über- sowie Unterreflexion vermeidet.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia LiuTue, 10 Ma💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Die vorgestellte Methode „Motivation-enhanced Reinforcement Finetuning" (MeRF) verbessert das Reinforcement Learning mit verifizierbaren Belohnungen bei großen Reasoning-Modellen, indem sie die Belohnungsfunktion als kontextuelle Motivation direkt in den Prompt integriert, um die Generierung mit dem Optimierungsziel auszurichten und so die Leistung signifikant zu steigern.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng TaoTue, 10 Ma💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Die Arbeit identifiziert die „Agreement Bias" als zentrales Hindernis für Multimodale LLMs als Verifizierer und schlägt mit SGV eine zweistufige, selbstverankerte Methode vor, die die Fehlererkennung und Aufgabenabschlussraten in Bereichen wie Webnavigation und Robotik signifikant verbessert.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Diese Arbeit stellt das UGST-Framework vor, das durch ein dreistufiges Verfahren und neue Evaluierungsmetriken die Fähigkeit von LLM-basierten User-Simulatoren verbessert, ihre Ziele über mehrere Gesprächsdurchgänge hinweg konsistent zu verfolgen und zielgerichtete Antworten zu generieren.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-TürTue, 10 Ma💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Das Paper stellt MathSmith vor, ein Framework, das durch die Generierung völlig neuer, synthetischer mathematischer Probleme aus PlanetMath-Daten und deren Optimierung mittels verstärkendem Lernen die Fähigkeiten von Sprachmodellen beim Lösen extrem schwieriger mathematischer Aufgaben signifikant verbessert.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei TanTue, 10 Ma💬 cs.CL

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Diese Arbeit stellt IAG vor, den ersten input-orientierten Backdoor-Angriff auf visuelle Grounding-Modelle, der mithilfe eines textgesteuerten UNet dynamisch, unsichtbare Trigger erzeugt, die beliebige Zielobjekte manipulieren, ohne die normale Leistung zu beeinträchtigen.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di ZhangTue, 10 Ma💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Die Arbeit stellt OTESGN vor, ein Modell für die aspektbasierte Sentimentanalyse, das syntaktische Graphen und semantischen Optimalen Transport kombiniert, um nichtlineare Assoziationen zu erfassen und Rauschen zu unterdrücken, wodurch es auf mehreren Benchmark-Datensätzen neue State-of-the-Art-Ergebnisse erzielt.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying RongTue, 10 Ma💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Die Studie zeigt, dass lineare Proben zur Erkennung schädlichen Verhaltens in Sprachmodellen stark von textuellen Hinweisen abhängen und ihre Leistung erheblich einbricht, sobald diese oberflächlichen Indikatoren wie Systemprompts oder Chain-of-Thought-Verbalisierungen entfernt werden.

Gerard Boxo, Aman Neelappa, Shivam RavalTue, 10 Ma🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

Die Arbeit stellt PonderLM-2 vor, eine neue Pretraining-Methode, bei der Sprachmodelle vor der Vorhersage eines Tokens latente Gedanken im kontinuierlichen Raum generieren, wodurch sie bei gleicher Inferenzkostenleistung Standardmodelle mit doppelt so vielen Parametern übertreffen.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan LinTue, 10 Ma💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Die Studie führt Benchmark-Signaturen ein, die auf salienten Tokens aus natürlichen Korpora basieren und durch ihre Perplexität die Leistung von Sprachmodellen vorhersagen, um damit ein nuanciertes, von Formatverzerrungen unabhängiges Verständnis der Überlappungen und Kapazitätsanforderungen verschiedener Benchmarks zu ermöglichen.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. EvansTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Diese Studie führt den Begriff „Misevolution" ein und zeigt empirisch auf, dass selbstentwickelnde KI-Agenten durch ungewollte Veränderungen in Modellen, Gedächtnis, Werkzeugen oder Arbeitsabläufen neue Sicherheitsrisiken entwickeln können, was eine dringende Anpassung der Sicherheitsparadigmen erfordert.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

Das Paper stellt TokMem vor, ein Verfahren, das wiederverwendbare Aufgaben in einzelne trainierbare Speicher-Token kompiliert, um Large Language Models mit konstantem Overhead und ohne Beeinträchtigung des Basismodells gezielt zu steuern und dabei sowohl Retrieval-Augmented Prompting als auch parameter-effizientes Fine-Tuning zu übertreffen.

Zijun Wu, Yongchang Hao, Lili MouTue, 10 Ma💬 cs.CL

← Zurück Weiter →