cs.CL 편의 논문 | Gist.Science

Causal Retrieval with Semantic Consideration

이 논문은 기존 정보 검색 모델이 간과해 온 인과 관계 추론 능력을 강화하기 위해 의미적 및 인과적 관계를 동시에 학습하는 새로운 검색 모델 'CAWAI'를 제안하고, 대규모 검색 환경과 과학 분야 질문 응답 작업에서 뛰어난 성능과 제로샷 일반화 능력을 입증합니다.

Hyunseo Shin, Wonseok HwangTue, 10 Ma💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

이 논문은 K-5 수학 및 독해 평가 문항의 난이도를 예측하기 위해 대규모 언어 모델 (LLM) 을 활용한 직접 추정법과 특징 기반 앙상블 모델 접근법을 비교한 결과, LLM 이 추출한 언어 및 인지 특징을 나무 기반 머신러닝 모델에 입력하는 방식이 가장 높은 예측 정확도를 보였음을 입증했습니다.

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

FreeKV 는 학습이 필요 없는 알고리즘 및 시스템 공동 최적화 프레임워크를 통해 KV 캐시 검색 효율성을 극대화하면서도 정확도를 유지하여, 기존 최첨단 방법 대비 최대 13 배의 속도 향상을 달성합니다.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru ZhaoTue, 10 Ma🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

이 논문은 검증 세트 없이도 메타 피드백을 통해 각 문제实例에 맞춰 에이전트 구성을 동적으로 설계, 비판 및 정제할 수 있는 최초의 자기 진화 추론 시간 프레임워크인 MAS-ZERO 를 제안하며, 다양한 벤치마크에서 기존 수동 및 자동 다중 에이전트 시스템보다 뛰어난 성능을 입증합니다.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq JotyTue, 10 Ma🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

이 논문은 HDL 코드의 구조적 및 어휘적 불일치 문제를 해결하기 위해 추상 구문 트리와 데이터 흐름 그래프를 통합한 'HDLxGraph' 프레임워크와 실세계 HDL 프로젝트 기반의 'HDLSearch' 벤치마크를 제안하여, 기존 RAG 기반 방법론보다 검색, 디버깅, 코드 완성 정확도를 크게 향상시켰음을 보여줍니다.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

이 논문은 LLM 이 실제 소프트웨어 개발 워크플로우를 모방하여 패치를 생성하고 CI 파이프라인을 통해 검증하는 경쟁적 평가 프레임워크 'SwingArena'를 제안하며, 이를 통해 긴 맥락의 GitHub 이슈 해결 능력을 다양한 프로그래밍 언어로 평가할 수 있음을 보여줍니다.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

이 논문은 전문가 수준의 테이블 이해, 추론, 조작 능력을 포괄적으로 평가하기 위해 25 가지 실제 태스크와 28,000 개 이상의 질문으로 구성된 대규모 벤치마크인 MMTU 를 소개하고, 최신 선두 모델들조차 이 작업에서 상당한 개선의 여지가 있음을 보여줍니다.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

이 논문은 대형 추론 모델의 성능을 저하시킬 수 있는 과도하거나 부족한 반사적 사고를 최적화하기 위해, 추가 계산 비용 없이 추론 토큰의 배치와 빈도를 삼각파 형태로 주기적으로 조절하는 'CyclicReflex'라는 훈련 없는 디코딩 전략을 제안합니다.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia LiuTue, 10 Ma💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

이 논문은 보상 함수를 프롬프트에 명시하여 모델이 최적화 목표를 인지하도록 하는 '동기 부여 강화 미세 조정 (MeRF)' 방법을 제안함으로써, 기존 검증 가능 보상을 활용한 강화 학습의 비효율성을 극복하고 대형 추론 모델의 성능을 크게 향상시킨다고 설명합니다.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng TaoTue, 10 Ma💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

이 논문은 MLLM 검증기에서 발생하는 '동의 편향 (agreement bias)'을 해결하기 위해 사전 지식을 생성한 후 이를 기반으로 추론하는 '자기 기반 검증 (SGV)' 방법을 제안함으로써, 에이전트의 실패 감지 정확도와 태스크 완료율을 기존 최첨단 성능보다 크게 향상시켰다고 설명합니다.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

이 논문은 대화형 AI 에서 사용자 시뮬레이터의 일관된 목표 달성 능력을 향상시키기 위해 사용자 목표 상태 추적 (UGST) 프레임워크와 3 단계 개발 방법론을 제안하고, 이를 통해 MultiWOZ 2.4 와 $\tau$ -Bench 벤치마크에서 목표 정렬 성능을 크게 개선했음을 보여줍니다.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-TürTue, 10 Ma💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

이 논문은 기존 템플릿 변환 방식의 한계를 극복하고 PlanetMath 의 개념 설명 쌍을 기반으로 강화 학습을 통해 난이도와 구조적 유효성을 최적화하는 새로운 합성 문제 생성 프레임워크인 'MathSmith'를 제안하여, 고난도 수학 추론 능력을 향상시키는 것을 목표로 합니다.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei TanTue, 10 Ma💬 cs.CL

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

이 논문은 비주얼 grounding 기반의 VLM 시스템에서 기존 정적 트리거 방식의 한계를 극복하고, 텍스트에 기반하여 동적으로 생성되는 은밀한 백도어 공격 기법인 IAG 를 제안하여 다양한 모델과 데이터셋에서 높은 성공률과 은폐성을 입증했습니다.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di ZhangTue, 10 Ma💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

이 논문은 의존성 트리 기반의 구조적 정보와 분포 기반의 의미적 신호를 최적 수송 (Optimal Transport) 기법을 통해 통합하여, 기존 방법의 한계를 극복하고 다양한 벤치마크에서 최첨단 성능을 달성한 'OTESGN' 모델을 제안합니다.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying RongTue, 10 Ma💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

이 논문은 언어 모델의 유해 행동을 탐지하는 선형 프로브가 행동의 텍스트적 증거 (시스템 프롬프트나 사고 과정 등) 에 의존하여, 이러한 텍스트가 제거되거나 행동이 명시되지 않은 경우 탐지 성능이 현저히 저하됨을 보여줍니다.

Gerard Boxo, Aman Neelappa, Shivam RavalTue, 10 Ma🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

이 논문은 생성 단계의 연산량을 늘려 각 토큰 예측 전에 잠재적 사고 (latent thought) 를 생성하는 'PonderLM-2'를 제안함으로써, 추론 비용은 동일하게 유지하면서 모델 크기를 두 배로 늘린 기존 모델보다 더 뛰어난 성능을 달성하는 새로운 사전 학습 방법을 소개합니다.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan LinTue, 10 Ma💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

이 논문은 다양한 LLM 과 벤치마크의 성능 상관관계를 넘어, 실제 데이터의 토큰 퍼플렉시티를 기반으로 벤치마크 간의 중첩과 용량 요구 사항을 정밀하게 분석하는 '벤치마크 시그니처'를 제안하여 벤치마크 유효성과 LLM 능력의 지리적 구조에 대한 새로운 통찰을 제공합니다.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. EvansTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

이 논문은 LLM 기반의 자가 진화 에이전트가 환경과의 상호작용을 통해 스스로 개선되는 과정에서 의도하지 않은 방향으로 진화하여 안전 정렬 저하나 취약점 도입과 같은 유해한 결과를 초래할 수 있는 '미진화 (Misevolution)' 현상을 체계적으로 규명하고, 이에 대한 완화 전략을 모색합니다.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

이 논문은 프롬프트의 반복 처리 과부하와 모듈화 한계를 해결하기 위해, 재사용 가능한 작업 절차를 단일 학습 가능 메모리 토큰으로 컴파일하여 LLM 의 추론을 제어하고 새로운 절차를 기존 모델에 간섭 없이 지속적으로 추가할 수 있는 'TokMem' 프레임워크를 제안합니다.

Zijun Wu, Yongchang Hao, Lili MouTue, 10 Ma💬 cs.CL

← 이전 다음 →