cs.CL 편의 논문 | Gist.Science

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

이 논문은 Swin Transformer 비전 인코더와 시퀀스 - 시퀀스 언어 디코더를 통합한 경량 2 단계 멀티태스크 프레임워크를 제안하여 작물 질병 시각적 질문 응답 (VQA) 에서 높은 정확도와 설명 가능성을 달성하고 PlantVillageVQA 벤치마크에서도 우수한 일반화 성능을 입증했습니다.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench 는 IBM 의 자연 대화 프레임워크에 기반하여 LLM 의 주제나 작업 수행이 아닌 대화의 형식과 구조적 순서 관리 능력을 평가하는 새로운 벤치마크를 제안합니다.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

이 논문은 대규모 언어 모델 (LLM) 과 다중 팔 밴딧 (MAB) 간의 양방향 상호작용을 구성 요소 수준에서 체계적으로 검토하여, MAB 가 LLM 의 학습 및 개인화 문제를 해결하고 LLM 이 MAB 의 핵심 구성 요소를 재정의하여 의사결정을 개선하는 상호 보완적 관계와 향후 연구 방향을 제시합니다.

Siguang Chen, Chunli Lv, Miao XieTue, 10 Ma🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

이 논문은 전역적 오케스트레이션을 강화학습 기반으로 구현한 'MAS-Orchestra' 프레임워크와 다중 에이전트 시스템의 효용을 체계적으로 분석하는 'MASBENCH' 벤치마크를 제안하여, 단일 에이전트 대비 다중 에이전트 시스템의 성능 향상을 효율적으로 달성하고 그 작동 원리를 규명합니다.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

이 논문은 금융 서비스용 도구 활용 LLM 에이전트의 규제 감사 재현성을 보장하기 위해 결정론적 일관성과 정확도를 독립적으로 측정하는 '결정론-신뢰성 보장 하네스 (DFAH)' 프레임워크와 관련 벤치마크를 제안하며, 두 지표가 서로 상관관계가 없으므로 모두 독립적으로 평가해야 함을 실증합니다.

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

이 논문은 인지적 재구조화 중심의 기존 접근법의 한계를 극복하기 위해 감정중심치료 (EFT) 기반의 다중 에이전트 체인 오브 씽킹 프레임워크인 'EFT-CoT'를 제안하고, 이를 통해 고품질 데이터셋과 전용 모델을 구축하여 공감의 깊이와 전문성 측면에서 기존 모델 및 인간 응답을 능가하는 정신 건강 지원 시스템을 제시합니다.

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

이 논문은 X-Codec-2.0 의 잠재 공간 레이트를 50Hz 에서 25Hz 로 낮추고 샘플링 주파수를 16kHz 에서 24kHz 로 높이는 간단한 구조 개선을 통해 다국어 음성 모델의 효율성과 음질 (MOS 점수 0.29 향상) 을 동시에 개선한 결과를 제시합니다.

Husein ZolkepliTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

이 논문은 118 억 토큰 규모의 사이버 보안 데이터와 에이전트 기반 증강 파이프라인을 활용하여 훈련된 오픈소스 사이버 보안 특화 LLM 인 'RedSage'를 제안하고, 이를 통해 사이버 보안 전문성과 일반 추론 능력을 동시에 향상시켰음을 입증합니다.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

이 논문은 희소하고 지연된 보상 문제를 해결하기 위해 메모리 작업 트리를 통한 힌드사이트 크레딧 할당을 도입한 MoT-GRPO 학습 프레임워크와 경량 계층적 메모리 데이터베이스를 활용한 Mem-T 에이전트를 제안하여 장기 기억 관리 정책의 종단간 최적화와 성능 향상을 달성했습니다.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

이 논문은 Schwartz 의 고차원 가치 범주가 단일 문장 기반 인간 가치 감지 작업에서 경성 계층적 게이트링보다는 인덕티브 바이어스나 보정 및 앙상블 기법과 결합될 때 더 유용함을 보여줍니다.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

이 논문은 역할 인식 맞춤형 메모리와 정보 과부하 문제를 해결하기 위해 토큰 효율적인 잠재 메모리 프레임워크인 LatentMem 과 이를 최적화하는 LMPO 를 제안하여 다중 에이전트 시스템의 성능을 기존 방식 대비 최대 19.36% 향상시킨 연구입니다.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

이 논문은 자연어 처리를 통해 요구사항에서 추출한 구조적 네트워크의 스펙트럼 지표가 통합 노력과 0.95 이상의 높은 상관관계를 보임으로써, 요구사항 단계의 복잡성이 개발 비용과 일정에 미치는 영향을 예측하는 유효한 지표임을 입증합니다.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

이 논문은 사전 훈련된 대규모 언어 모델의 환각 현상을 완화하기 위해 모델의 내부 계층 간 불일치를 감지하여 추론 시 사실성을 높이는 새로운 훈련 없는 디코딩 알고리즘인 'CoCoA'를 제안하고 다양한 작업에서 그 유효성을 입증합니다.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Neuro-Symbolic Synergy for Interactive World Modeling

이 논문은 LLM 의 의미적 표현력과 기호적 세계 모델의 논리적 일관성을 결합하여 할루시네이션을 줄이고 데이터 효율성을 높이는 '뉴로-심볼릭 시너지 (NeSyS)' 프레임워크를 제안하며, 다양한 상호작용 환경에서 기존 방법보다 뛰어난 성능을 입증했습니다.

Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi ZhouTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

이 논문은 네덜란드 정보공개 문서를 대상으로 페이지 순서 복원 연구를 수행하여, 시퀀스 2 시퀀스 트랜스포머가 긴 문서에서 일반화 실패를 보인 반면, 모델 특화 전략이 긴 문서의 순서 재배열 성능을 크게 향상시켰음을 밝혔습니다.

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

이 논문은 기존 응답 기반 방법의 한계를 보완하기 위해 문맥 임베딩과 토픽 모델링을 활용한 응답 없는 심리 척도 간소화 프레임워크를 제안하며, 이를 통해 척도 길이를 평균 60.5% 단축하면서도 원래의 심리측정적 특성과 구조를 효과적으로 유지할 수 있음을 실증했습니다.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

이 논문은 LLM 의 환각 현상을 무신실성, 허구적 생성, 사실적 오류라는 세 가지 기하학적 유형으로 분류하고, 이를 기반으로 문맥 기반 및 문맥 없는 설정에서 각각의 오류를 탐지하는 새로운 지수 (SGI, DGI) 를 제안하며 TruthfulQA 와 같은 기존 벤치마크의 한계를 지적합니다.

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

이 논문은 코드가 강화학습보다 학습 가능한 정보 구조를 가지고 있어 예측 가능한 확장이 가능한 반면, 대부분의 강화학습 문제는 피드백의 질적 차이로 인해 단순한 모델 크기 확장에 한계가 있음을 지적하며, 표현 가능성·계산 가능성·학습 가능성의 세 가지 속성 간 관계를 규명하는 5 단계 학습 가능성 계층 구조를 제안합니다.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

이 논문은 문장 단위로 설계된 파인튜닝 데이터셋의 토큰 단위 노이즈를 '추론 중요도', '지식 신규성', '작업 관련성'이라는 세 가지 속성으로 분해하여 설명 가능한 필터링 프레임워크인 XTF 를 제안하고, 이를 통해 다양한 LLM 의 하위 작업 성능을 최대 13.7% 까지 향상시킨다는 것을 증명합니다.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

이 논문은 인간의 에피소드 기억 메커니즘에서 영감을 받아 의미적 요점 (Semantic Gist) 추출과 글로벌 의미 확산을 통해 복잡한 지식 통합 및 추론 능력을 획기적으로 향상시킨 새로운 RAG 프레임워크인 'CogitoRAG'를 제안하고 그 우수성을 입증합니다.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL

← 이전 다음 →