cs.CL Arbeiten | Gist.Science

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Der Artikel stellt POET-X vor, eine speichereffiziente und skalierbare Variante des POET-Frameworks, die durch optimierte orthogonale Transformationen die Stabilität beim Training großer Sprachmodelle beibehält und deren Vorverarbeitung auf einer einzigen GPU ermöglicht, wo herkömmliche Optimierer wie AdamW an Speicherproblemen scheitern.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Diese Arbeit stellt eine neue Methode für die offene Vokabular-Tarnobjekt-Instanzsegmentierung vor, die Diffusionsmodelle nutzt, um durch die Fusion von visuellen und textuellen Merkmalen getarnte Objekte auch in unbekannten Klassen präzise zu segmentieren.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Die RAEE-Framework-Methode verbessert die effiziente Inferenz von Large Language Models, indem sie den Early-Exit-Prozess durch den Einsatz eines Retrieval-Augmented-Ansatzes optimiert, der Exit-Informationen ähnlicher Daten nutzt, um sowohl die Rechengeschwindigkeit zu erhöhen als auch die Leistung in Zero-Shot-Szenarien zu steigern.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Die vorgestellte Forschung entwickelt ein innovatives System, das Large Language Models mit dem ANU Scholarly Knowledge Graph und einem Deep Document Model kombiniert, um semantische Abfragen zu wissenschaftlichen Arbeiten der Informatik an der ANU präziser und effizienter zu verarbeiten.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Diese Studie untersucht, wie Sprachmodelle die syntaktischen Einschränkungen der englischen Passivbildung erlernen, indem sie durch Manipulation der Trainingsdaten nachweisen, dass sowohl die Häufigkeit der Verben (Einschleifung) als auch ihre semantischen Eigenschaften (Betroffenheit) unabhängig voneinander zur Lernleistung beitragen.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

Die Arbeit stellt LMUnit vor, ein neues Paradigma zur feinkörnigen Bewertung von Sprachmodellen durch natürliche Sprachtests und ein einheitliches Bewertungsmodell, das die menschliche Einigkeit verbessert und State-of-the-Art-Ergebnisse auf Evaluierungsbenchmarks erzielt.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Diese Arbeit identifiziert und untersucht „Preference Leakage", ein Kontaminationsproblem bei der Verwendung von LLMs als Richter, das durch die Verwandtschaft zwischen Daten-Generatoren und Bewertungsmodellen entsteht und zu einer systematischen Verzerrung führt, die schwerer zu erkennen ist als bisher bekannte Bias-Phänomene.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

OSCAR: Online Soft Compression And Reranking

Das Paper stellt OSCAR vor, eine neuartige Online-Methode zur weichen Kompression und Neuordnung von Suchergebnissen, die die Rechenkosten von Retrieval-Augmented Generation (RAG) erheblich senkt, ohne dabei die Genauigkeit von Large Language Models zu beeinträchtigen.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

Diese Arbeit stellt \data, einen interaktionsfokussierten Datensatz, und \model, ein neues Verfahren zur Verfeinerung von Text-zu-Bild-Generierung durch Zerlegung und MLLM-gestützte Kritik, vor, um die Darstellung komplexer Objektinteraktionen zu verbessern.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Die Arbeit stellt N2M-RSI vor, ein formales, implementierungsunabhängiges Modell, das zeigt, wie KI-Agenten durch die Rückkopplung ihrer eigenen Ausgaben als Trainingsdaten eine unbeschränkte Komplexität erreichen können, sobald sie einen bestimmten Informationsintegrations-Schwellenwert überschreiten.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Diese Studie stellt mit PubHealthBench einen neuen Benchmark vor, der über 8000 Fragen zu britischen öffentlichen Gesundheitsinformationen enthält und zeigt, dass zwar fortschrittliche proprietäre LLMs bei Multiple-Choice-Fragen menschliche Leistungen übertreffen, ihre Genauigkeit bei freien Textantworten jedoch weiterhin verbesserungswürdig ist und zusätzliche Sicherheitsvorkehrungen erfordert.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Die Arbeit stellt MoB vor, eine Methode zur visuellen Token-Pruning, die durch die Formulierung als bi-zielgerichtetes Abdeckungsproblem und die Nutzung von Hausdorff-Distanz sowie $\epsilon$ -Abdeckungstheorie einen optimalen Kompromiss zwischen Prompt-Ausrichtung und visueller Erhaltung findet, wodurch bei Multimodalen Large Language Models wie LLaVA eine signifikante Beschleunigung bei minimalem Leistungsverlust erreicht wird.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Das Paper stellt R1-Code-Interpreter vor, ein durch mehrstufiges Curriculum-Learning und verstärkendes Lernen optimiertes Sprachmodell, das durch autonomes Generieren von Code-Abfragen komplexe Aufgaben löst und dabei die Leistung von GPT-4o übertrifft.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Die Arbeit stellt „Supervised Calibration" (SC) vor, ein auf Verlustminimierung basierendes Framework, das durch das Lernen optimaler affiner Transformationen im Logit-Raum und die Integration spezieller Regularisierungstechniken die Grenzen bestehender Kalibrierungsmethoden überwindet und so die Leistung von Large Language Models beim In-Context Learning signifikant verbessert.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Diese Arbeit untersucht systematisch, wie Vorurteile in Trainingsdaten zu einer Fehlausrichtung von Präferenzmodellen führen, die oberflächliche Merkmale wie Länge oder Stil überbewerten, und schlägt eine Methode zur Nachschulung mittels kontrastiver Datenverstärkung vor, um diese Verzerrungen effektiv zu reduzieren und die Zuverlässigkeit der Modelle zu erhöhen.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Die Studie stellt CounselBench vor, ein umfassendes Benchmarking-Framework, das mit Hilfe von 100 Fachleuten für psychische Gesundheit entwickelt wurde, um die Leistung und Sicherheitsrisiken von großen Sprachmodellen bei der Beantwortung offener Patientenfragen im Bereich der psychischen Gesundheit zu evaluieren und zu testen.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

Diese Arbeit stellt eine trainingsfreie Methode namens „Internal Confidence" vor, die die Unsicherheit von Large Language Models auf Anfrageebene vor der Generierung abschätzt, um adaptive Inferenzprozesse wie Retrieval-Augmented Generation oder das Auslassen von Antworten kosteneffizient zu steuern und so die Zuverlässigkeit der KI zu erhöhen.

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Die vorgestellte Methode verbessert die Erkennungsgenauigkeit von Wörtern mit Aussprache-Rechtschreib-Unterschieden in automatischen Spracherkennungssystemen durch die Nutzung von Korrekturdaten während der Inferenz, was zu einer signifikanten Reduzierung des Fehleranteils bei verzerrten Wörtern führt, ohne die Gesamtleistung zu beeinträchtigen.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Die Arbeit stellt RLVER vor, ein Reinforcement-Learning-Framework, das verifizierbare Emotionsbelohnungen von simulierten Nutzern nutzt, um die emotionale Intelligenz von Sprachmodellen signifikant zu steigern, ohne dabei deren kognitive Fähigkeiten zu beeinträchtigen.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

Das Paper stellt UQLM, ein Python-Paket vor, das fortschrittliche Techniken zur Unsicherheitsquantifizierung nutzt, um Halluzinationen in großen Sprachmodellen durch die Berechnung von Konfidenzwerten zu erkennen und so die Zuverlässigkeit der Ausgaben zu erhöhen.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

← Zurück Weiter →