cs.CL Arbeiten | Gist.Science

Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

Diese Studie liefert Politikwissenschaftlern einen Entscheidungsrahmen, der zeigt, dass das Fine-Tuning allgemeiner Modelle wie ModernBERT für häufige Ereigniskategorien oft ausreicht und spezialisierte Modelle nur bei seltenen Ereignissen oder hohen Genauigkeitsanforderungen notwendig sind.

Shreyas MeherWed, 11 Ma💬 cs.CL

Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

Die Studie identifiziert eine systematische Kollaps-Pathologie in ALiBi-basierten BLOOM-Modellen, bei der ein Großteil der Aufmerksamkeitsköpfe nur auf den Anfangstoken reagiert, und stellt eine chirurgische Reinitialisierung vor, die durch gezieltes Zurücksetzen spezifischer Parameter die Funktionsfähigkeit der Köpfe auf einem einzelnen Consumer-GPU wiederherstellt und zeigt, dass vortrainierte Konfigurationen suboptimale lokale Minima darstellen können.

Palmer SchallonWed, 11 Ma💬 cs.CL

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Die Arbeit stellt X-GS vor, ein erweiterbares Open-Source-Framework, das 3D-Gaussian-Splatting-Methoden mit multimodalen Modellen vereint, um durch eine effiziente Pipeline in Echtzeit semantisch angereicherte SLAM-Systeme für Aufgaben wie Objekterkennung und Bildbeschreibung zu ermöglichen.

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Diese Studie stellt eine vollständig open-source, lokal einsetzbare Pipeline vor, die auf dem \texttt{qwen2.5-72b}-Modell basiert und mit einer hohen Genauigkeit longitudinale Tumorinformationen aus unstrukturierten radiologischen Berichten extrahiert, wodurch Datenschutz und Reproduzierbarkeit in der klinischen Onkologie gewährleistet werden.

Luc Builtjes, Alessa HeringWed, 11 Ma💬 cs.CL

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Diese Keynote-Präsentation für ECIR 2025 untersucht das Zusammenspiel zwischen parametrischem und kontextuellem Wissen in Sprachmodellen, wobei der Fokus auf der Diagnose von Wissenskonflikten und der Bewertung liegt, wie Modelle kontextuelle Informationen nutzen oder ignorieren.

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Diese Studie stellt einen automatisierten Klassifikationsrahmen zur kardiovaskulären Risikobewertung bei geriatrischen Patienten vor, der unstrukturierte elektronische Patientenakten nutzt und zeigt, dass eine maßgeschneiderte Transformer-Architektur traditionelle Methoden sowie generative Large Language Models übertrifft.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

Diese Forschung entwickelt und validiert durch Expertenbewertung eine Methode zur Schätzung der Ähnlichkeit von Rezepten, die semantische, lexikalische und domänenspezifische Aspekte wie Zutaten und Nährwerte kombiniert, um Anwendungen in der Lebensmittelindustrie und personalisierten Ernährung zu unterstützen.

Denica Kjorvezir, Danilo Najkov, Eva Valencič, Erika Jesenko, Barbara Koroišic Seljak, Tome Eftimov, Riste StojanovWed, 11 Ma💬 cs.CL

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Das Paper stellt ESAinsTOD vor, ein einheitliches End-to-End-Framework für aufgabenorientierte Dialoge, das durch instruktions- und schemabewusste Ausrichtungsmechanismen sowie Vollparameter-Feinabstimmung von LLMs eine überlegene Generalisierung, Robustheit und Leistung auf verschiedenen Benchmarks und in Low-Resource-Szenarien erreicht.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Die Arbeit stellt ActiveUltraFeedback vor, eine modulare Active-Learning-Pipeline, die durch die gezielte Auswahl unsicherer oder qualitativ stark unterschiedlicher Antwortpaare hochwertige Präferenzdaten mit nur einem Sechstel des Annotationsaufwands im Vergleich zu statischen Baselines generiert und so die Leistung von Large Language Models signifikant verbessert.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Die Arbeit stellt Mousse vor, einen neuen Optimierer, der durch die Kombination von Muons spektraler Stabilität mit Shampoons kroneckerfaktorisierter Vorbedingung die geometrische Anpassungsfähigkeit in stark konditionierten Landschaften verbessert und so das Training von Sprachmodellen um etwa 12 % beschleunigt.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

Die Studie zeigt, dass Large Language Models in RAG-Systemen zwar effektiv natürliche Sprachabfragen in strukturierte Metadatenfilter für den Zugriff auf Ernährungsdaten übersetzen können, jedoch bei komplexen Fragen mit nicht explizit darstellbaren Einschränkungen an ihre Grenzen stoßen.

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic SeljakWed, 11 Ma💬 cs.CL

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Die Arbeit stellt MUGEN vor, ein umfassendes Benchmark-System zur Evaluierung von Large Audio-Language-Modellen im Mehr-Audio-Verständnis, das signifikante Leistungseinbußen bei steigender Eingabeanzahl aufdeckt und durch trainingsfreie Strategien wie Audio-Permutational Self-Consistency in Kombination mit Chain-of-Thought die Genauigkeit nachweislich verbessert.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Die Arbeit stellt RbtAct vor, ein neues Framework, das Rebuttals als implizite Supervision nutzt, um mit einem auf Llama-3.1-8B-Instruct basierenden Modell generierte Peer-Review-Feedbacks zu verbessern, die durch eine neue Aufgabe und den RMR-75K-Datensatz spezifischer und handlungsorientierter sind.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman CohanWed, 11 Ma🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Die Arbeit stellt EXPLORE-Bench vor, einen neuen Benchmark auf Basis realer Egocentric-Videos, der zeigt, dass multimodale Sprachmodelle bei der Vorhersage langfristiger physischer Konsequenzen aus Ego-Perspektive erhebliche Schwierigkeiten haben, während eine schrittweise Zerlegung der Aktionen die Leistung zwar verbessert, aber mit hohem Rechenaufwand einhergeht.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

Die Arbeit stellt FoodOntoRAG vor, ein feintuning-freies, ontologie-agnostisches Pipeline-System, das durch Retrieval-Augmented Generation (RAG) und multi-agentische Entscheidungsfindung eine robuste und interpretierbare Verknüpfung von Lebensmittelentitäten auch bei Ontologie-Drift ermöglicht.

Jan Drole, Ana Gjorgjevikj, Barbara Korouši'c Seljak, Tome EftimovWed, 11 Ma💬 cs.CL

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

Dieser Artikel stellt eine aktualisierte und kombinierte Version des EPIC-EuroParl-UdS-Korporas vor, das um linguistische Annotationen und informationstheoretische Metriken erweitert wurde, um Forschungen zur Sprachvariation, Übersetzungsanalyse und insbesondere zur Vorhersage von Füllwörtern im Dolmetschen mittels probabilistischer Modelle zu unterstützen.

Maria Kunilovskaya, Christina PollkläsenerWed, 11 Ma💬 cs.CL

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Das Paper stellt MITRA vor, ein auf On-Premise-RAG basierendes KI-System für physikalische Kollaborationen wie CMS, das durch eine automatisierte Dokumentenextraktion und eine zweistufige Vektordatenbank-Architektur präzise kontextbezogene Antworten auf Forschungsfragen liefert, während sensible Daten vollständig privat bleiben.

Abhishikth Mallampalli, Sridhara DasuWed, 11 Ma🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Das Paper stellt One-Eval vor, ein agentisches System, das natürliche Sprachanfragen in ausführbare, nachvollziehbare und anpassbare Evaluierungsworkflows für Large Language Models umwandelt, um manuelle Aufwände zu reduzieren und die Reproduzierbarkeit in industriellen Anwendungen zu verbessern.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao ZhangWed, 11 Ma💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Diese Arbeit stellt eine Methode vor, die Chow-Liu-Bäume nutzt, um die Verarbeitungsreihenfolge von Textchunks in Chain-of-Agents-Frameworks zu optimieren, wodurch Informationsverluste reduziert und die Genauigkeit bei langen Kontexten im Vergleich zu herkömmlichen Ansätzen signifikant verbessert wird.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. CWed, 11 Ma💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Die Studie zeigt, dass Sprachmodelle, deren Vorhersagen stark mit einfachen N-Gramm-Statistiken übereinstimmen, die menschliche Lesedauer besser vorhersagen als komplexere Transformer-Modelle, da die Lesedauer eher auf diese einfachen statistischen Muster als auf hochkomplexe linguistische Strukturen reagiert.

James A. Michaelov, Roger P. LevyWed, 11 Ma💬 cs.CL

← Zurück Weiter →