cs.CL 편의 논문 | Gist.Science

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

이 논문은 AI 생성 에세이 탐지기의 현황과 책임 있는 사용 가이드라인을 제시하고, GRE 쓰기 프롬프트를 기반으로 한 실증 분석을 통해 특정 LLM 으로 훈련된 탐지기가 다른 LLM 에서 생성된 에세이를 얼마나 잘 일반화하여 식별하는지 평가하여 실용적 적용을 위한 지침을 제공합니다.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

이 논문은 LLM 시대에 TeX 의 한계를 분석하고, 더 효율적인 데이터 구조와 렌더링을 제공하는 WYSIWYG 구조화 편집기인 Mogan STEM 과 그 문서 형식 (.tmu) 이 컴파일 성능 향상과 LLM 미세조정 효율성 증대 측면에서 TeX 보다 우월함을 실험을 통해 입증하며, 향후 .tmu 형식을 활용한 대규모 LLM 학습 실험을 촉구합니다.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

이 논문은 생성 및 평가 에이전트 간의 '제안 - 평가 - 수정' 협업 프로세스와 강화 학습을 통해 제로샷 문서 수준 이벤트 인자 추출의 데이터 생성 품질과 추출 성능을 동시에 향상시키는 다중 에이전트 협업 프레임워크를 제안합니다.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

이 논문은 코드 에이전트가 기존 수학 문제를 더 복잡하고 해결 가능한 변형으로 진화시키는 다중 에이전트 프레임워크를 제안하며, 실험을 통해 코드 실행 환경이 확장 가능한 고난이도 수학 문제 생성 메커니즘으로 유효함을 입증했습니다.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

AriadneMem 은 오프라인에서 엔트로피 기반 필터링과 충돌 인식 병합을 통해 메모리를 구조화하고, 온라인에서 알고리즘적 브리지 탐색을 수행하여 긴 대화에서 다중 홉 추론 정확도를 높이고 실행 시간을 획기적으로 단축하는 LLM 에이전트를 위한 구조화된 메모리 시스템입니다.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

이 논문은 언어 보상 모델에 존재하는 다양한 편향을 체계적으로 분석하고, 이를 완화하기 위해 최소한의 라벨 데이터로 작동하는 메커니즘 기반 보상 조정 기법을 제안합니다.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

이 논문은 의료 분야의 복잡한 추론에서 발생하는 환각과 지식 부재 문제를 해결하기 위해, 다중 라운드 에이전트 루프를 통해 외부 증거와 내부 추론을 반복적으로 정제하여 최종 합의에 도달하는 'MA-RAG' 프레임워크를 제안하고, 7 개 의료 Q&A 벤치마크에서 기존 방법론 대비 평균 정확도를 6.8 점 향상시킨 것을 입증합니다.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

이 논문은 기억 정제, 원자적 쿼리 학습, 그리고 밀집 보상을 통해 검색 에이전트의 성능을 향상시키는 'SE-Search'를 제안하고, 단일 및 다단계 질문 답변 벤치마크에서 기존 최강 모델 대비 유의미한 성능 개선을 입증합니다.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

이 논문은 소규모 농가의 요구에 부합하는 정확한 농업 조언을 제공하기 위해 검증된 사실 기반의 미세 조정과 안전성 고려 응답 생성 레이어를 결합한 하이브리드 LLM 아키텍처와 DG-EVAL 평가 프레임워크를 제안하고, 이를 통해 비용 효율적이면서도 사실적 정확도와 안전성을 크게 향상시킨 결과를 보여줍니다.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

이 논문은 인간과 달리 최신 대규모 언어 모델들이 개방형 과제에서 목표 설정 시 인간과 크게 다른 패턴 (단일 해법 착취 또는 낮은 성능) 을 보이며, 인간 행동의 대변자로서 적합하지 않음을 실험을 통해 입증합니다.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

이 논문은 인지 과학에 영감을 받아 에피소드 기억을 지식 중심의 그래프로 구조화하여, 다양한 LLM 에이전트에 부착 가능한 범용 메모리 모듈 'PlugMem'을 제안하고, 이를 통해 작업별 재설계 없이도 효율적인 정보 검색과 추론을 가능하게 함으로써 기존 작업 특화 및 범용 메모리 설계보다 우수한 성능을 입증했습니다.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

이 논문은 테스트 시 학습 중 발생하는 신뢰할 수 없는 의사레이블과 비효율적인 적응 문제를 해결하기 위해, 실패한 추론 경로를 분석하고 표적 변형 문제를 생성하는 '교사' 역할과 문제 해결을 수행하는 '학생' 역할이 교차하는 자기반성 기반의 TTSR 프레임워크를 제안하여 대형 언어 모델의 추론 능력을 지속적으로 향상시키는 방법을 제시합니다.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

이 논문은 레이블 데이터나 최적화 루프 없이도 실시간으로 생성된 예시를 통해 인스턴스별 프롬프트를 구성하는 훈련 없는 TATRA 방법을 제안하며, 기존 최적화 기반 방법보다 우수한 성능을 보여줍니다.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

이 논문은 10 개의 상용 대규모 언어 모델 (LLM) 을 대상으로 학술 인용 허위 생성을 광범위하게 분석하여 모델과 도메인에 따른 할루시네이션 발생률 차이를 규명하고, 다중 모델 합의 및 반복 검증 같은 실용적 필터와 외부 데이터베이스 없이도 작동하는 경량 분류기를 통해 위조 인용을 탐지하는 방법을 제시합니다.

MZ Naser2026-03-05💬 cs.CL

← 이전 다음 →

cs.CL