COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics
이 논문은 재학습 없이 소수의 예시만으로 대규모 언어 모델의 행동을 효과적으로 제어할 수 있도록, 인-컨텍스트 학습 동역학을 근사하는 새로운 프레임워크인 COLD-Steer 를 제안합니다.
1077 편의 논문
이 논문은 재학습 없이 소수의 예시만으로 대규모 언어 모델의 행동을 효과적으로 제어할 수 있도록, 인-컨텍스트 학습 동역학을 근사하는 새로운 프레임워크인 COLD-Steer 를 제안합니다.
이 논문은 단일 회수 retrieval 의 한계를 극복하고 반복적인 도구 호출 루프를 통해 복잡한 스프레드시트의 이해와 편집을 가능하게 하는 멀티모달 에이전트 프레임워크 'Beyond Rows to Reasoning(BRTR)'을 제안하며, 다양한 벤치마크에서 기존 방법론을 크게 상회하는 성능을 입증했습니다.
이 논문은 대비 학습을 통해 음성 및 컨텍스트 표현을 정렬하는 경량 프로젝션 모듈을 도입하여, 다양한 언어와 억양을 지원하는 모듈식 컨텍스트 인식 다국어 자동 음성 인식 (ASR) 프레임워크를 제안하고 실전 대화 데이터에서 5% 이상의 성능 향상을 입증합니다.
이 논문은 SemEval-2026 의 정치적 회피 탐지 과제를 위해 KCLarity 팀이 제안한 인코더 기반 모델과 제로샷 접근법의 두 가지 모델링 전략을 비교 분석하여, 공개 테스트 세트에서는 RoBERTa-large 가, 숨겨진 평가 세트에서는 GPT-5.2 가 각각 더 우수한 일반화 성능을 보였음을 보고합니다.
이 논문은 병원 직원의 실제 요청을 기반으로 MIMIC-III 와 eICU 데이터베이스에 매핑된 다양한 시간 표현과 답변 불가능한 질문을 포함하는 새로운 의료 기록용 텍스트 -SQL 벤치마크인 'EHRSQL'을 제안합니다.
이 논문은 정답과 오답을 모두 생성하도록 유도하는 '대조적 프롬프팅 (Contrastive Prompting)' 기법이 별도의 예시 없이도 LLM 의 추론 능력을 획기적으로 향상시켜 기존 최첨단 방법들을 능가함을 보여줍니다.
이 논문은 개별적으로 작동하는 대형 언어 모델 에이전트 간의 동적 지식 공유를 가능하게 하는 비동기 상호작용 프레임워크인 INMS 를 제안하여, 공유된 대화 기억 풀을 통해 에이전트들의 집단적 자기 향상과 성능을 크게 개선함을 보여줍니다.
이 논문은 하이브리드 윈도우 어텐션, 보상 역전파, 토큰 길이 기반 학습 전략 등을 통해 학습 및 추론 효율성과 비디오 생성 품질을 동시에 극대화한 고품질 비디오 생성 프레임워크 'EasyAnimate'를 제안합니다.
이 논문은 유사성과 다양성을 동시에 만족하는 벡터 검색 문제 (VRSD) 가 NP-완전임을 증명하고, 매개변수 없는 휴리스틱 알고리즘을 제안하여 기존 MMR 및 k-DPP 기법보다 우수한 성능을 입증합니다.
이 논문은 리트리벌 증강 생성 (RAG) 기술을 적용한 NotebookLM 이 내부 모델인 Gemini 2.0 Flash 보다 췌장암 병기 결정 정확도가 높고 근거 제시를 통해 투명성을 확보하여 임상 진단에 유용함을 입증했습니다.
본 논문은 시맨틱 지식 그래프와 프롬프트 휴리스틱을 결합한 논리 증강 생성 (LAG) 프레임워크를 제안하여, 라벨이 없는 다중 모달 데이터에서 암묵적인 유추 관계를 추출하고 시각적 은유 이해 및 설명 가능한 추론 성능을 기존 방법론과 인간을 능가하는 수준으로 향상시켰음을 보여줍니다.
이 논문은 대규모 언어 모델 (LLM) 과 지식 그래프를 활용하여 기후 변화 관련 뉴스의 과학적 정확성을 반자동으로 평가하는 도구를 개발하고 전문가 및 사용자 검증을 통해 그 유용성을 입증했으나, 현재 지식 그래프의 부재와 처리 규모의 한계로 인해 대중 매체의 포괄적 사실 확인을 위해서는 FAIR 원칙에 부합하는 기반 지식과 추가 연구가 필요함을 시사합니다.
이 논문은 클라우드 컴퓨팅의 가상 머신 스케줄링 문제를 해결하기 위해 대규모 언어 모델 (LLM) 을 활용한 계층적 에이전트 프레임워크 'MiCo'를 제안하며, 이를 통해 기존 방법들의 한계를 극복하고 대규모 시나리오에서 96.9% 의 높은 경쟁 비율을 달성함을 입증합니다.
이 논문은 Simpson 의 역설이나 선택 편향과 같은 통계적 함정을 식별하고 해결하는 능력을 평가하기 위해 'CausalPitfalls'라는 새로운 벤치마크를 제안하고, 이를 통해 현재 대규모 언어 모델 (LLM) 이 인과 추론에서 심각한 한계를 보임을 입증합니다.
이 논문은 문법 제약과 자기지도식 비축약성 신호를 활용하여 셸 입력 - 출력 데이터를 생성하고 실행 행동을 모델링하는 새로운 환경인 ShIOEnv 를 제안하며, 이를 통해 기존 실행 기반 접근법보다 향상된 정확도를 달성하는 210 만 개의 데이터셋을 공개했습니다.
이 논문은 웹 검색 결과가 모순되거나 노이즈가 많을 때 사실 기반 추론 능력을 평가하기 위한 새로운 벤치마크인 SealQA 를 소개하고, 최신 최첨단 언어 모델들조차 이 환경에서 심각한 성능 저하와 계산량 증가에 따른 개선 한계를 보임을 규명합니다.
이 논문은 의사결정 시스템과 자연어 이해를 분리하여 유연성과 진단 가능성을 높이는 새로운 '신호 계약 (Signal Contract)'을 제안하고, 이를 통해 실시간 언어 기반 지향 및 탐색을 가능하게 하는 LUCIFER 프레임워크가 구조적으로 다른 두 가지 의사결정 에이전트에서 안전성과 정보 수집 효율성을 동시에 향상시킨다는 것을 입증합니다.
본 논문은 일본 기업의 10 년간 공시 자료를 기반으로 회계 부정 탐지 및 수익 예측 등 복잡한 금융 과제를 수행하는 LLM 의 능력을 평가하기 위해 'EDINET-Bench'를 제안하고, 최첨단 모델조차 전문가 수준의 추론이 필요한 이러한 과제에서는 인간 전문가나 단순 통계 모델과 큰 차이가 없는 성능을 보임을 밝혀내어, 실제 금융 업무 환경을 반영한 더 정교한 평가 프레임워크의 필요성을 강조합니다.
이 논문은 Jigsaw 퍼즐과 같은 새로운 과제를 통해 분석한 결과, 강화 미세 조정 (RFT) 이 지도 미세 조정 (SFT) 에 비해 이전 지식을 더 잘 보존하면서도 학습 동역학상 데이터 분포가 망각 현상의 핵심 요인임을 규명합니다.
이 논문은 스페인어권 커뮤니티의 언어적·문화적 다양성을 반영한 생성형 대규모 언어 모델 (LLM) 의 평가 표준을 확립하기 위해 바스크어, 카탈로니아어, 갈리시아어 및 다양한 스페인어 변종을 포함한 66 개의 데이터셋과 50 개의 모델을 평가한 최초의 오픈소스 리더보드인 'La Leaderboard'를 소개합니다.