cs.CL Arbeiten | Gist.Science

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Diese Arbeit zeigt, dass die Anwendung von Low-Rank Adaptation (LoRA) im Federated Learning das Risiko der ungewollten Memorierung von Trainingsdaten in großen Sprachmodellen um bis zu den Faktor 10 reduziert, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin Jaggi2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Die Studie stellt LaVCa vor, eine datengestützte Methode, die große Sprachmodelle nutzt, um präzise natürliche Sprachbeschreibungen für die Selektivität von Neuronen im visuellen Kortex zu generieren und damit tiefere Einblicke in die menschliche visuelle Repräsentation sowie feinere funktionale Differenzierungen als bisherige Ansätze ermöglicht.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Die Studie stellt ein Clustering-basiertes Framework vor, das Aufgaben nach Schwierigkeitsgrad gruppiert, um die Leistung von Large Language Models auf zukünftigen Downstream-Aufgaben mit hoher Genauigkeit vorherzusagen und so die Herausforderungen unvorhersehbarer Skalierungseffekte und inkonsistenter Leistungsmuster zu überwinden.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Die vorgestellte Arbeit stellt HaLoRA vor, eine hardwarebewusste Low-Rank-Adaptionsmethode, die durch die Kombination von RRAM-basierten Vorkenntnissen und SRAM-basierten LoRA-Zweigen die Energieeffizienz von LLMs drastisch verbessert und gleichzeitig die durch RRAM-Rauschen verursachten Genauigkeitsverluste durch ein neuartiges Trainingsverfahren kompensiert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai Wong2026-03-10💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Diese Studie zeigt, dass große Sprachmodelle zwar durch Fine-Tuning und RLHF weibliche Charaktere in Berufen überrepräsentieren, diese jedoch paradoxerweise weiterhin stärker an geschlechtsspezifischen Stereotypen als an realen Arbeitsmarktdaten ausgerichtet sind, was die Notwendigkeit ausgewogener Gegenmaßnahmen unterstreicht.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan Chen2026-03-10💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Causal Retrieval with Semantic Consideration

Das Papier stellt CAWAI vor, ein Retrieval-Modell, das durch das gleichzeitige Lernen semantischer und kausaler Zusammenhänge die Genauigkeit von Informationsabrufsystemen in wissensintensiven Domänen wie Biomedizin und Recht verbessert.

Hyunseo Shin, Wonseok Hwang2026-03-10💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Die Studie zeigt, dass die Kombination von Large Language Models zur Extraktion linguistischer und kognitiver Merkmale mit baumbasierten maschinellen Lernalgorithmen eine genauere Schätzung der Aufgabenschwierigkeit für K-5-Mathematik- und Lesetests ermöglicht als direkte LLM-Schätzungen und somit den Bedarf an aufwendigen Vorabtests reduziert.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Der Artikel stellt FreeKV vor, ein trainingsfreies Framework zur Algorithmen-System-Optimierung, das durch spekulative Abrufverfahren und hybride Speicherkonzepte die Effizienz des KV-Cache-Retrieval für LLMs erheblich steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

Die Studie stellt einen neuro-symbolischen Ansatz vor, der durch das Abrufen analoger Probleme und die Nutzung eines formalen Verifizierers die Fähigkeit von Large Language Models zur Erzeugung korrekter Beweise in der euklidischen Geometrie signifikant verbessert.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Die Arbeit stellt MAS-ZERO vor, ein bahnbrechendes, selbstentwickelndes Inferenzzeit-Framework, das Multi-Agenten-Systeme ohne Validierungsdatensätze automatisch anpasst und durch dynamische Problemanalyse sowie Meta-Feedback signifikant höhere Genauigkeiten bei Reasoning-, Coding- und Agentenaufgaben im Vergleich zu manuellen und bestehenden automatischen Ansätzen erzielt.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Das Paper stellt HDLxGraph vor, ein Framework, das durch die Integration von Abstract Syntax Trees und Data Flow Graphs in Retrieval-Augmented Generation die Lücken bei der Verarbeitung von Hardware-Beschreibungssprachen schließt und gleichzeitig einen neuen Benchmark namens HDLSearch einführt, um die Genauigkeit von Such-, Debugging- und Vervollständigungsaufgaben signifikant zu verbessern.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

Die Arbeit stellt SwingArena vor, ein kompetitives Evaluierungsframework für Large Language Models, das reale Softwareentwicklungsworkflows durch die Paarung von Modellen als Patch-Ersteller und Prüfer in CI-Pipelines nachbildet und dabei ein retrieval-basiertes Modul zur Bewältigung langer Kontexte in großen Codebasen einsetzt.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai Wong2026-03-10💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Die Arbeit stellt MMTU vor, ein umfassendes Benchmark mit über 28.000 Fragen zu 25 realen Tabellenaufgaben, das die aktuellen Grenzen von KI-Modellen bei der Experten-Nutzung strukturierter Daten aufzeigt und als Impuls für zukünftige Fortschritte dient.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

Die Arbeit stellt CyclicReflex vor, eine trainingsfreie Decodierungsstrategie, die durch die zyklische Anpassung der Wahrscheinlichkeiten für Reflexionstoken die Testzeit-Leistung von Large Reasoning Models verbessert und dabei Über- sowie Unterreflexion vermeidet.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu2026-03-10💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Die vorgestellte Methode „Motivation-enhanced Reinforcement Finetuning" (MeRF) verbessert das Reinforcement Learning mit verifizierbaren Belohnungen bei großen Reasoning-Modellen, indem sie die Belohnungsfunktion als kontextuelle Motivation direkt in den Prompt integriert, um die Generierung mit dem Optimierungsziel auszurichten und so die Leistung signifikant zu steigern.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Die Arbeit identifiziert die „Agreement Bias" als zentrales Hindernis für Multimodale LLMs als Verifizierer und schlägt mit SGV eine zweistufige, selbstverankerte Methode vor, die die Fehlererkennung und Aufgabenabschlussraten in Bereichen wie Webnavigation und Robotik signifikant verbessert.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Diese Arbeit stellt das UGST-Framework vor, das durch ein dreistufiges Verfahren und neue Evaluierungsmetriken die Fähigkeit von LLM-basierten User-Simulatoren verbessert, ihre Ziele über mehrere Gesprächsdurchgänge hinweg konsistent zu verfolgen und zielgerichtete Antworten zu generieren.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Das Paper stellt MathSmith vor, ein Framework, das durch die Generierung völlig neuer, synthetischer mathematischer Probleme aus PlanetMath-Daten und deren Optimierung mittels verstärkendem Lernen die Fähigkeiten von Sprachmodellen beim Lösen extrem schwieriger mathematischer Aufgaben signifikant verbessert.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan2026-03-10💬 cs.CL

← Zurück Weiter →