cs.CL Arbeiten | Gist.Science

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Die Autoren stellen ein leichtgewichtiges, zweistufiges Vision-Language-Framework vor, das auf einem Swin Transformer und T5-basierten Decodern aufbaut, um bei der visuellen Fragebeantwortung für Pflanzenkrankheiten sowohl hohe Genauigkeit als auch Erklärbarkeit zu erreichen.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Der NC-Bench-Evaluierungsrahmen bewertet die konversationelle Kompetenz von Large Language Models nicht anhand von Inhalten, sondern anhand der strukturellen und formalen Aspekte natürlicher Gespräche, indem er auf dem IBM Natural Conversation Framework basierende Testsets für grundlegende Sequenzen, RAG-Integration und komplexe Anfragen nutzt.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Diese Arbeit bietet die erste systematische Übersicht über die bidirektionale Interaktion zwischen Large Language Models und Multi-Armed Bandits auf Komponentenebene, wobei sie sowohl die Vorteile von Bandit-Algorithmen für LLM-Herausforderungen als auch die Rolle von LLMs bei der Neudefinition von Bandit-Komponenten analysiert.

Siguang Chen, Chunli Lv, Miao XieTue, 10 Ma🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Die Arbeit stellt MAS-Orchestra vor, ein Trainingsframework, das Multi-Agenten-Systeme durch holistische Orchestrierung als Reinforcement-Learning-Problem formuliert, und führt mit MASBENCH eine kontrollierte Benchmark ein, um die Bedingungen für den Vorteil von Multi-Agenten-Systemen gegenüber Einzelagenten zu analysieren und deren Effizienz sowie Leistung signifikant zu steigern.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Die Studie stellt das Determinismus-Faithfulness Assurance Harness (DFAH) vor, einen Rahmen zur unabhängigen Messung von Nachvollziehbarkeit und Genauigkeit bei Tool-nutzenden LLM-Agenten im Finanzsektor, der zeigt, dass Determinismus und Genauigkeit nicht korrelieren und daher beide separat bewertet werden müssen, um regulatorische Audit-Anforderungen zu erfüllen.

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

Diese Arbeit stellt EFT-CoT vor, ein Multi-Agenten-Chain-of-Thought-Framework auf Basis der Emotionsfokussierten Therapie (EFT), das durch die Entwicklung des Datensatzes EFT-Instruct und des Modells EFT-LLM eine überlegene empathische Tiefe und professionelle Struktur in der KI-gestützten psychologischen Beratung gegenüber bestehenden Ansätzen ermöglicht.

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Dieses Paper stellt eine effiziente Modifikation von X-Codec-2.0 vor, die durch eine Senkung der Latent-Rate auf 25 Hz und eine Erhöhung der Abtastrate auf 24 kHz die zeitliche Effizienz und die wahrgenommene Audioqualität im multilingualen Sprachkontext signifikant verbessert.

Husein ZolkepliTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

Das Paper stellt RedSage vor, ein lokal einsetzbares, quelloffenes Cybersecurity-LLM, das durch domänenspezifisches Vor- und Nachtraining sowie einen agentenbasierten Augmentierungsprozess entwickelt wurde und auf dem neu eingeführten RedSage-Bench sowie etablierten Benchmarks signifikante Verbesserungen gegenüber Baseline-Modellen erzielt.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Das Paper stellt Mem-T vor, einen autonomen Speicher-Agenten, der zusammen mit dem tree-basierten Reinforcement-Learning-Framework MoT-GRPO durch die Umwandlung von spärlichen Terminal-Rewards in dichte, schrittweise Supervision eine effiziente und leistungsfähige End-to-End-Optimierung von Langzeit-Speicherstrategien ermöglicht.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Die Studie zeigt, dass die Struktur der Schwartz-Höherwert-Kategorien als induktive Verzerrung nützlich ist, jedoch die Kalibrierung und Ensemble-Methoden im Vergleich zu starren hierarchischen Gating-Mechanismen oder eigenständigen kompakten LLMs die entscheidenden Verbesserungen bei der Erkennung menschlicher Werte auf Satzebene liefern.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Die Arbeit stellt LatentMem vor, ein lernbares Multi-Agenten-Gedächtnisframework, das durch eine rollenspezifische Anpassung und die Optimierung kompakter latenter Repräsentationen mittels LMPO die Leistung bestehender Systeme signifikant steigert, ohne deren zugrundeliegende Architekturen zu verändern.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Diese Studie zeigt, dass spektrale Metriken, die aus strukturellen Netzwerken von Anforderungstexten abgeleitet werden, den Integrationsaufwand mit einer Korrelation von über 0,95 präziser vorhersagen können als herkömmliche strukturelle Kennzahlen.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Die Arbeit stellt CoCoA vor, einen trainingfreien Decodierungsalgorithmus, der durch die Analyse von Inkonsistenzen zwischen den inneren Schichten von Large Language Models Halluzinationen reduziert und so die faktische Korrektheit ohne Nachtraining verbessert.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Neuro-Symbolic Synergy for Interactive World Modeling

Die Arbeit stellt NeSyS vor, ein Neuro-Symbolisches Framework, das die semantische Ausdruckskraft von Large Language Models mit der logischen Konsistenz symbolischer Weltmodelle kombiniert, um durch wechselseitiges Training und direkte Wahrscheinlichkeitsbeschränkungen Halluzinationen zu reduzieren und gleichzeitig die Trainingsdatenmenge um 50 % zu verringern.

Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi ZhouTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

Die Studie untersucht Methoden zur Wiederherstellung der Seitenreihenfolge in 5.461 verschütteten niederländischen WOO-Dokumenten und zeigt, dass spezialisierte Modelle bei langen Dokumenten deutlich besser abschneiden als Seq2Seq-Transformer, die aufgrund unterschiedlicher Ordnungsstrategien bei kurzen und langen Texten sowie fehlender Generalisierungsfähigkeit versagen.

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Diese Studie stellt einen reaktionsfreien Framework vor, der mithilfe von Topic Modeling und semantischen Embeddings psychologische Skalen effizient vereinfacht, indem sie die inhärente semantische Struktur der Items nutzt, um die Skalenlänge im Durchschnitt um 60,5 % zu reduzieren, ohne dabei die psychometrische Güte oder die zugrundeliegenden Konstrukte zu beeinträchtigen.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

Die Arbeit schlägt eine geometrische Taxonomie von Halluzinationen in LLMs vor, die Unwahrhaftigkeit, Konfabulation und faktische Fehler unterscheidet, und stellt darauf aufbauend neue Detektionsmethoden vor, die insbesondere bei Konfabulationen hohe Genauigkeit erreichen, während sie gleichzeitig methodische Grenzen bei der Erkennung faktischer Fehler aufzeigen.

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Das Papier argumentiert, dass der Erfolg von Code-Generierung im Vergleich zu Reinforcement Learning auf einer hierarchischen Lernbarkeit beruht, die durch die Informationsstruktur und die Verfügbarkeit von Feedback bestimmt wird, und zeigt auf, dass die Grenzen des maschinellen Lernens weniger von der Modellgröße als vielmehr von der grundlegenden Lernbarkeit der Aufgaben abhängen.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Die vorgestellte Arbeit führt XTF ein, ein erklärbares Framework zur Filterung von Token-level-Rauschen in Fine-Tuning-Datensätzen durch die Zerlegung von Token-Beiträgen in drei Attribute, was die Leistung von Large Language Models in verschiedenen Downstream-Aufgaben signifikant verbessert.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Das Paper stellt CogitoRAG vor, ein RAG-Framework, das menschliche kognitive Gedächtnisprozesse nachahmt, indem es semantische Gist-Extraktion, einen multidimensionalen Wissensgraphen und einen Diffusionsmechanismus nutzt, um bei komplexen Fragen die semantische Integrität zu bewahren und die Leistung gegenüber bestehenden Methoden signifikant zu steigern.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL

← Zurück Weiter →