cs.CL papers | Gist.Science

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Dit artikel presenteert een lichtgewicht, twee-traps vision-language framework dat Swin Transformer en T5 combineert voor uitlegbare visuele vraag-antwoordtaken bij gewasziektes, waarbij hoge nauwkeurigheid en generalisatie worden bereikt op de CDDM- en PlantVillageVQA-datasets.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Het NC-Bench-paper introduceert een nieuw, theorieonderbouwd benchmarkkader dat zich richt op de vorm en structuur van natuurlijke gesprekken in plaats van inhoud, en waarmee de conversatievaardigheden van grote taalmodellen worden geëvalueerd via drie sets die basispatronen, RAG-integratie en complexe verzoeken testen.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Dit artikel biedt het eerste componenten-gebaseerde overzicht van de wederzijdse interactie tussen grote taalmodellen en multi-armed bandits, waarbij wordt onderzocht hoe deze technologieën elkaar wederzijds verbeteren in zowel besluitvorming als taalverwerking.

Siguang Chen, Chunli Lv, Miao XieTue, 10 Ma🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Dit paper introduceert MAS-Orchestra, een trainingsframework dat multi-agent systemen optimaliseert door orkestratie te formuleren als function-calling reinforcement learning, en MASBENCH, een gecontroleerde benchmark die aantoont dat de voordelen van multi-agent systemen sterk afhankelijk zijn van taakstructuur en niet universeel gelden.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Dit paper introduceert het Determinism-Faithfulness Assurance Harness (DFAH), een framework dat aantoont dat besluitvormingsdeterminisme en nauwkeurigheid bij financiële tool-gebruikende LLM-agenten niet met elkaar correleren en daarom onafhankelijk moeten worden gemeten om te voldoen aan auditvereisten.

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

Deze paper introduceert EFT-CoT, een multi-agent framework dat Emotion-Focused Therapy (EFT) operationaliseert voor mentale gezondheidsvragen, en presenteert het bijbehorende EFT-Instruct-dataset en EFT-LLM-model die in experimenten superieure empathische diepgang en professionele structuur tonen ten opzichte van bestaande methoden.

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Dit artikel presenteert een verbeterde versie van X-Codec-2.0 die door een lagere latente rate van 25 Hz en een hogere sample rate van 24 kHz, de efficiëntie en perceptuele kwaliteit voor meertalige spraak significant verhoogt zonder de kernarchitectuur te wijzigen.

Husein ZolkepliTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

Het paper introduceert RedSage, een open-source cybersecurity-assistent die door middel van domeinspecifieke voortgezette pretraining en agentische augmentatie de prestaties op zowel cybersecurity- als algemene LLM-benchmarks significant verbetert.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Mem-T introduceert een autonoom geheugenagent met een hiërarchische database en een nieuwe RL-techniek genaamd MoT-GRPO om het trainingsprobleem van schaarse beloningen bij lange-taken te overwinnen, wat leidt tot aanzienlijk betere prestaties en efficiëntie dan bestaande frameworks.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Deze studie concludeert dat de Schwartz-hoogwaardige waardenstructuur bij het detecteren van menselijke waarden op zinneniveau vooral nuttig is als inductieve bias en dat de grootste prestatiewinsten worden behaald via kalibratie en ensemble-methoden, terwijl harde hiërarchische poortmodellen en compacte LLM's als standalone-systemen minder effectief blijken.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Het artikel introduceert LatentMem, een leerbaar raamwerk voor multi-agent systemen dat agent-specifieke, token-efficiënte latent geheugens synthetiseert via een ervaringenbank en een geheugencomponist, aangevuld met Latent Memory Policy Optimization om de prestaties aanzienlijk te verbeteren zonder bestaande frameworks aan te passen.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Deze studie toont aan dat spectrale maatstaf, afgeleid van netwerkanalyses van natuurlijke taalvereisten, de integratie-inspanning nauwkeuriger voorspellen dan traditionele structurele of dichtheidsgebonden metrics, waardoor een nieuwe brug wordt geslagen tussen complexiteitsanalyse en vereistenengineering.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Dit paper introduceert CoCoA, een trainingsvrije decoderingsalgoritme dat hallucinaties in grote taalmodellen vermindert door de inconsistentie van representaties tussen de interne lagen te detecteren en te straffen, waardoor de feitelijke juistheid van de output zonder hertraining wordt verbeterd.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Neuro-Symbolic Synergy for Interactive World Modeling

Dit paper introduceert NeSyS, een neuro-symbolisch kader dat de semantische expressiviteit van grote taalmodellen combineert met de logische consistentie van symbolische wereldmodellen om hallucinaties te verminderen en de data-efficiëntie te verhogen in interactieve omgevingen.

Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi ZhouTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

Dit onderzoek presenteert een methode om pagina's van geshufelde Nederlandse vrijheidsinformatiedocumenten opnieuw te ordenen, waarbij een gespecialiseerd model de beste resultaten boekt met een Kendall's tau van 0,72 voor 15 pagina's, ondanks dat standaard seq2seq-transformatoren en curriculum learning bij langere documenten significant falen.

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Dit artikel introduceert een respons-vrij topic-modeling-framework dat de semantische structuur van psychologische schalen benut om deze met 60,5% te verkorten terwijl de psychometrische kwaliteit en factorstructuur behouden blijven.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

Dit artikel presenteert een geometrische taxonomie van hallucinaties in grote taalmodellen die drie fouttypen onderscheidt en twee detectiemethoden introduceert, waarbij wordt aangetoond dat bestaande benchmarks voor feitelijke fouten vaak worden beïnvloed door stijlconfounds in plaats van echte semantische afwijkingen.

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Dit paper stelt dat de voorspelbare schaalbaarheid van codegeneratie ten opzichte van versterkingslering wordt veroorzaakt door de specifieke informatie-structuur van code, en introduceert een hiërarchie van leerbaarheid die suggereert dat de toekomstige grenzen van machine learning meer afhangen van de aard van de taak dan van modelgrootte.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Dit paper introduceert XTF, een uitlegbaar framework dat ruis op token-niveau filtert door data bij te dragen aan drie attributen (redeneerbelang, kennisnoviteit en taakrelevantie) te analyseren en gradiënten te maskeren, wat de prestaties van afgestemde grote taalmodellen tot 13,7% verbetert.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Het paper introduceert CogitoRAG, een cognitief gestuurd RAG-framework dat hallucinaties vermindert door menselijk episodisch geheugen na te bootsen via gist-gebaseerde kennisgrafiekconstructie, query-decompositie en semantische diffusie, wat leidt tot superieure prestaties op complexe vraag- en antwoordtaken.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL

← Vorige Volgende →