cs.CL 편의 논문 | Gist.Science

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

이 논문은 재학습 없이 소수의 예시만으로 대규모 언어 모델의 행동을 효과적으로 제어할 수 있도록, 인-컨텍스트 학습 동역학을 근사하는 새로운 프레임워크인 COLD-Steer 를 제안합니다.

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

이 논문은 단일 회수 retrieval 의 한계를 극복하고 반복적인 도구 호출 루프를 통해 복잡한 스프레드시트의 이해와 편집을 가능하게 하는 멀티모달 에이전트 프레임워크 'Beyond Rows to Reasoning(BRTR)'을 제안하며, 다양한 벤치마크에서 기존 방법론을 크게 상회하는 성능을 입증했습니다.

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul2026-03-09💬 cs.CL

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

이 논문은 대비 학습을 통해 음성 및 컨텍스트 표현을 정렬하는 경량 프로젝션 모듈을 도입하여, 다양한 언어와 억양을 지원하는 모듈식 컨텍스트 인식 다국어 자동 음성 인식 (ASR) 프레임워크를 제안하고 실전 대화 데이터에서 5% 이상의 성능 향상을 입증합니다.

Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar2026-03-09💬 cs.CL

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

이 논문은 SemEval-2026 의 정치적 회피 탐지 과제를 위해 KCLarity 팀이 제안한 인코더 기반 모델과 제로샷 접근법의 두 가지 모델링 전략을 비교 분석하여, 공개 테스트 세트에서는 RoBERTa-large 가, 숨겨진 평가 세트에서는 GPT-5.2 가 각각 더 우수한 일반화 성능을 보였음을 보고합니다.

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

이 논문은 병원 직원의 실제 요청을 기반으로 MIMIC-III 와 eICU 데이터베이스에 매핑된 다양한 시간 표현과 답변 불가능한 질문을 포함하는 새로운 의료 기록용 텍스트 -SQL 벤치마크인 'EHRSQL'을 제안합니다.

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

Large Language Models are Contrastive Reasoners

이 논문은 정답과 오답을 모두 생성하도록 유도하는 '대조적 프롬프팅 (Contrastive Prompting)' 기법이 별도의 예시 없이도 LLM 의 추론 능력을 획기적으로 향상시켜 기존 최첨단 방법들을 능가함을 보여줍니다.

Liang Yao2026-03-06💻 cs

INMS: Memory Sharing for Large Language Model based Agents

이 논문은 개별적으로 작동하는 대형 언어 모델 에이전트 간의 동적 지식 공유를 가능하게 하는 비동기 상호작용 프레임워크인 INMS 를 제안하여, 공유된 대화 기억 풀을 통해 에이전트들의 집단적 자기 향상과 성능을 크게 개선함을 보여줍니다.

Hang Gao, Yongfeng Zhang2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

이 논문은 하이브리드 윈도우 어텐션, 보상 역전파, 토큰 길이 기반 학습 전략 등을 통해 학습 및 추론 효율성과 비디오 생성 품질을 동시에 극대화한 고품질 비디오 생성 프레임워크 'EasyAnimate'를 제안합니다.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

이 논문은 유사성과 다양성을 동시에 만족하는 벡터 검색 문제 (VRSD) 가 NP-완전임을 증명하고, 매개변수 없는 휴리스틱 알고리즘을 제안하여 기존 MMR 및 k-DPP 기법보다 우수한 성능을 입증합니다.

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

이 논문은 리트리벌 증강 생성 (RAG) 기술을 적용한 NotebookLM 이 내부 모델인 Gemini 2.0 Flash 보다 췌장암 병기 결정 정확도가 높고 근거 제시를 통해 투명성을 확보하여 임상 진단에 유용함을 입증했습니다.

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

본 논문은 시맨틱 지식 그래프와 프롬프트 휴리스틱을 결합한 논리 증강 생성 (LAG) 프레임워크를 제안하여, 라벨이 없는 다중 모달 데이터에서 암묵적인 유추 관계를 추출하고 시각적 은유 이해 및 설명 가능한 추론 성능을 기존 방법론과 인간을 능가하는 수준으로 향상시켰음을 보여줍니다.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

이 논문은 대규모 언어 모델 (LLM) 과 지식 그래프를 활용하여 기후 변화 관련 뉴스의 과학적 정확성을 반자동으로 평가하는 도구를 개발하고 전문가 및 사용자 검증을 통해 그 유용성을 입증했으나, 현재 지식 그래프의 부재와 처리 규모의 한계로 인해 대중 매체의 포괄적 사실 확인을 위해서는 FAIR 원칙에 부합하는 기반 지식과 추가 연구가 필요함을 시사합니다.

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

이 논문은 클라우드 컴퓨팅의 가상 머신 스케줄링 문제를 해결하기 위해 대규모 언어 모델 (LLM) 을 활용한 계층적 에이전트 프레임워크 'MiCo'를 제안하며, 이를 통해 기존 방법들의 한계를 극복하고 대규모 시나리오에서 96.9% 의 높은 경쟁 비율을 달성함을 입증합니다.

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

이 논문은 Simpson 의 역설이나 선택 편향과 같은 통계적 함정을 식별하고 해결하는 능력을 평가하기 위해 'CausalPitfalls'라는 새로운 벤치마크를 제안하고, 이를 통해 현재 대규모 언어 모델 (LLM) 이 인과 추론에서 심각한 한계를 보임을 입증합니다.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

이 논문은 문법 제약과 자기지도식 비축약성 신호를 활용하여 셸 입력 - 출력 데이터를 생성하고 실행 행동을 모델링하는 새로운 환경인 ShIOEnv 를 제안하며, 이를 통해 기존 실행 기반 접근법보다 향상된 정확도를 달성하는 210 만 개의 데이터셋을 공개했습니다.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

이 논문은 웹 검색 결과가 모순되거나 노이즈가 많을 때 사실 기반 추론 능력을 평가하기 위한 새로운 벤치마크인 SealQA 를 소개하고, 최신 최첨단 언어 모델들조차 이 환경에서 심각한 성능 저하와 계산량 증가에 따른 개선 한계를 보임을 규명합니다.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

이 논문은 의사결정 시스템과 자연어 이해를 분리하여 유연성과 진단 가능성을 높이는 새로운 '신호 계약 (Signal Contract)'을 제안하고, 이를 통해 실시간 언어 기반 지향 및 탐색을 가능하게 하는 LUCIFER 프레임워크가 구조적으로 다른 두 가지 의사결정 에이전트에서 안전성과 정보 수집 효율성을 동시에 향상시킨다는 것을 입증합니다.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

본 논문은 일본 기업의 10 년간 공시 자료를 기반으로 회계 부정 탐지 및 수익 예측 등 복잡한 금융 과제를 수행하는 LLM 의 능력을 평가하기 위해 'EDINET-Bench'를 제안하고, 최첨단 모델조차 전문가 수준의 추론이 필요한 이러한 과제에서는 인간 전문가나 단순 통계 모델과 큰 차이가 없는 성능을 보임을 밝혀내어, 실제 금융 업무 환경을 반영한 더 정교한 평가 프레임워크의 필요성을 강조합니다.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

이 논문은 Jigsaw 퍼즐과 같은 새로운 과제를 통해 분석한 결과, 강화 미세 조정 (RFT) 이 지도 미세 조정 (SFT) 에 비해 이전 지식을 더 잘 보존하면서도 학습 동역학상 데이터 분포가 망각 현상의 핵심 요인임을 규명합니다.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

이 논문은 스페인어권 커뮤니티의 언어적·문화적 다양성을 반영한 생성형 대규모 언어 모델 (LLM) 의 평가 표준을 확립하기 위해 바스크어, 카탈로니아어, 갈리시아어 및 다양한 스페인어 변종을 포함한 66 개의 데이터셋과 50 개의 모델을 평가한 최초의 오픈소스 리더보드인 'La Leaderboard'를 소개합니다.

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs

← 이전 다음 →