Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

Die Studie identifiziert eine systematische Kollaps-Pathologie in ALiBi-basierten BLOOM-Modellen, bei der ein Großteil der Aufmerksamkeitsköpfe nur auf den Anfangstoken reagiert, und stellt eine chirurgische Reinitialisierung vor, die durch gezieltes Zurücksetzen spezifischer Parameter die Funktionsfähigkeit der Köpfe auf einem einzelnen Consumer-GPU wiederherstellt und zeigt, dass vortrainierte Konfigurationen suboptimale lokale Minima darstellen können.

Palmer SchallonWed, 11 Ma💬 cs.CL

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Diese Studie stellt eine vollständig open-source, lokal einsetzbare Pipeline vor, die auf dem \texttt{qwen2.5-72b}-Modell basiert und mit einer hohen Genauigkeit longitudinale Tumorinformationen aus unstrukturierten radiologischen Berichten extrahiert, wodurch Datenschutz und Reproduzierbarkeit in der klinischen Onkologie gewährleistet werden.

Luc Builtjes, Alessa HeringWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Diese Studie stellt einen automatisierten Klassifikationsrahmen zur kardiovaskulären Risikobewertung bei geriatrischen Patienten vor, der unstrukturierte elektronische Patientenakten nutzt und zeigt, dass eine maßgeschneiderte Transformer-Architektur traditionelle Methoden sowie generative Large Language Models übertrifft.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

Diese Forschung entwickelt und validiert durch Expertenbewertung eine Methode zur Schätzung der Ähnlichkeit von Rezepten, die semantische, lexikalische und domänenspezifische Aspekte wie Zutaten und Nährwerte kombiniert, um Anwendungen in der Lebensmittelindustrie und personalisierten Ernährung zu unterstützen.

Denica Kjorvezir, Danilo Najkov, Eva Valencič, Erika Jesenko, Barbara Koroišic Seljak, Tome Eftimov, Riste StojanovWed, 11 Ma💬 cs.CL

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Das Paper stellt ESAinsTOD vor, ein einheitliches End-to-End-Framework für aufgabenorientierte Dialoge, das durch instruktions- und schemabewusste Ausrichtungsmechanismen sowie Vollparameter-Feinabstimmung von LLMs eine überlegene Generalisierung, Robustheit und Leistung auf verschiedenen Benchmarks und in Low-Resource-Szenarien erreicht.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Die Arbeit stellt ActiveUltraFeedback vor, eine modulare Active-Learning-Pipeline, die durch die gezielte Auswahl unsicherer oder qualitativ stark unterschiedlicher Antwortpaare hochwertige Präferenzdaten mit nur einem Sechstel des Annotationsaufwands im Vergleich zu statischen Baselines generiert und so die Leistung von Large Language Models signifikant verbessert.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Die Arbeit stellt Mousse vor, einen neuen Optimierer, der durch die Kombination von Muons spektraler Stabilität mit Shampoons kroneckerfaktorisierter Vorbedingung die geometrische Anpassungsfähigkeit in stark konditionierten Landschaften verbessert und so das Training von Sprachmodellen um etwa 12 % beschleunigt.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Die Arbeit stellt MUGEN vor, ein umfassendes Benchmark-System zur Evaluierung von Large Audio-Language-Modellen im Mehr-Audio-Verständnis, das signifikante Leistungseinbußen bei steigender Eingabeanzahl aufdeckt und durch trainingsfreie Strategien wie Audio-Permutational Self-Consistency in Kombination mit Chain-of-Thought die Genauigkeit nachweislich verbessert.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Die Arbeit stellt EXPLORE-Bench vor, einen neuen Benchmark auf Basis realer Egocentric-Videos, der zeigt, dass multimodale Sprachmodelle bei der Vorhersage langfristiger physischer Konsequenzen aus Ego-Perspektive erhebliche Schwierigkeiten haben, während eine schrittweise Zerlegung der Aktionen die Leistung zwar verbessert, aber mit hohem Rechenaufwand einhergeht.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

Dieser Artikel stellt eine aktualisierte und kombinierte Version des EPIC-EuroParl-UdS-Korporas vor, das um linguistische Annotationen und informationstheoretische Metriken erweitert wurde, um Forschungen zur Sprachvariation, Übersetzungsanalyse und insbesondere zur Vorhersage von Füllwörtern im Dolmetschen mittels probabilistischer Modelle zu unterstützen.

Maria Kunilovskaya, Christina PollkläsenerWed, 11 Ma💬 cs.CL

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Das Paper stellt One-Eval vor, ein agentisches System, das natürliche Sprachanfragen in ausführbare, nachvollziehbare und anpassbare Evaluierungsworkflows für Large Language Models umwandelt, um manuelle Aufwände zu reduzieren und die Reproduzierbarkeit in industriellen Anwendungen zu verbessern.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao ZhangWed, 11 Ma💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Diese Arbeit stellt eine Methode vor, die Chow-Liu-Bäume nutzt, um die Verarbeitungsreihenfolge von Textchunks in Chain-of-Agents-Frameworks zu optimieren, wodurch Informationsverluste reduziert und die Genauigkeit bei langen Kontexten im Vergleich zu herkömmlichen Ansätzen signifikant verbessert wird.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. CWed, 11 Ma💬 cs.CL