SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization
이 논문은 추론 모델의 테스트 시간 적응 시 발생하는 수렴 문제를 해결하기 위해, 고엔트로피 분기 토큰만 선택적으로 업데이트하고 엔트로피 밴드 정규화를 적용하여 라벨 없이도 안정적이고 효과적인 성능 향상을 이루는 'SPINE' 프레임워크를 제안합니다.
1714 편의 논문
이 논문은 추론 모델의 테스트 시간 적응 시 발생하는 수렴 문제를 해결하기 위해, 고엔트로피 분기 토큰만 선택적으로 업데이트하고 엔트로피 밴드 정규화를 적용하여 라벨 없이도 안정적이고 효과적인 성능 향상을 이루는 'SPINE' 프레임워크를 제안합니다.
이 논문은 다중 도구 오케스트레이션 환경에서 LLM 기반 에이전트가 비민감 정보 조각들을 결합하여 예상치 못한 민감 정보를 유출하는 새로운 프라이버시 위험 (TOP-R) 을 최초로 체계적으로 규명하고, 이를 평가하는 벤치마크와 완화 전략을 제시합니다.
이 논문은 전역 평균 손실에 의존하는 기존 방식을 넘어, 슬라이딩 윈도우를 활용한 국소적 신호의 집합을 통해 파인튜닝된 대규모 언어 모델의 멤버십 추론 공격 정확도를 획기적으로 향상시킨 'WBC' 방법을 제안하고 그 우수성을 입증합니다.
이 논문은 다양한 학년 수준에 맞는 교육용 콘텐츠를 생성하기 위해 가독성 지표를 클러스터링하여 대규모 언어 모델을 파인튜닝하는 프레임워크를 제안하고, 이를 통해 프롬프트 기반 방법 대비 학년 적합성을 35.64% 포인트 향상시키면서도 사실적 정확성을 유지함을 입증했습니다.
이 논문은 USAS 프레임워크의 규칙 기반 시맨틱 태거를 다국어 신경망 모델과 실버 표준 데이터로 보완하여 성능을 향상시키고, 이를 검증하기 위한 대규모 평가와 오픈 소스 리소스를 제안합니다.
이 논문은 강화학습 후 학습을 거친 대형 추론 모델에서 발생하는 탐색 붕괴 문제를 해결하기 위해 추가 학습 없이 중간 계층의 엔트로피를 활용하는 '잠재적 탐색 디코딩 (LED)' 전략을 제안하여 추론 성능을 효과적으로 향상시킨다는 내용을 담고 있습니다.
이 논문은 대규모 언어 모델의 긴 문맥 처리 효율성을 높이기 위해, 관련성과 중복성을 동시에 고려한 '주변 정보 이득 (MIG)' 지표를 기반으로 coarse-to-fine 방식으로 문맥을 압축하는 COMI 프레임워크를 제안하고 다양한 작업에서 기존 기법보다 뛰어난 성능을 입증합니다.
본 논문은 구글의 제미니 (Gemini) 기반 모델을 활용하여 이론 컴퓨터 과학 및 물리학 등 다양한 분야에서 새로운 증명과 반례를 발견한 사례 연구와 반복적 정제, 문제 분해, 신경-상징적 루프 등 효과적인 인간-AI 협력 기법을 제시함으로써, 인공지능이 단순 자동화 도구를 넘어 과학적 발견의 진정한 파트너로 역할을 할 수 있음을 보여줍니다.
이 논문은 자연어 기반의 반복적 생성·검증·수정 과정을 통해 수학 연구 전 과정을 자율적으로 수행하는 에이전트 'Aletheia'를 소개하고, 이를 통해 무인 자동 생성 논문, 인간-AI 협업 증명, 그리고 오픈 문제 해결 등 AI 와 수학 연구의 새로운 지평을 열었음을 보여줍니다.
이 논문은 강화 학습을 활용하여 LLM 적응을 위한 최적의 데이터 레시피를 자동으로 생성하는 'DataChef-32B'를 제안하며, 인간 전문가가 설계한 레시피와 유사한 성능을 내고 공식 체크포인트를 능가하는 결과를 입증했습니다.
이 논문은 기계학습의 'ground truth' 패러다임이 인간 간 불일치를 단순한 기술적 노이즈로 오인하는 실증주의적 오류에 기반하며, 데이터 주석 과정에서 발생하는 합의의 함정과 서구 중심적 편향을 비판하고 불일치를 문화적 다양성을 반영하는 중요한 신호로 재해석하여 다원적 주석 인프라를 구축할 것을 주장합니다.
이 논문은 OpenReview 리뷰어 질문 데이터를 기반으로 'IntelliReward' 보상 모델을 학습시키고 이를 통해 강화학습을 적용한 'IntelliAsk' 모델을 개발하여, 기존 LLM 들보다 더 심층적이고 근거 기반이며 노력이 담긴 연구 질문을 생성할 수 있도록 했음을 제시합니다.
이 논문은 뉴스 담론에서의 어휘적 다양성과 프레이밍 변이를 포착할 수 있도록 '동일성'과 '근접 동일성' 관계를 모두 포함하는 새로운 교차 문서 코어퍼런스 주석 체계를 제안하고, 이를 NewsWCL50 및 ECB+ 데이터셋에 적용하여 재주석한 결과를 제시합니다.
이 논문은 말하기 LLM 이 기존 ASR-LLM 파이프라인보다 우월하다는 통념과 달리, 실제 대부분의 배포 시나리오에서는 고비용의 비효율적인 캐스케이드로 작동하며 오히려 잡음 환경에서 성능이 더 떨어질 수 있음을 메커니즘적 분석을 통해 입증합니다.
이 논문은 대규모 데이터 환경에서 기존 Text-to-SQL 평가 지표의 한계를 지적하고, 실행 효율성, 비용, 데이터 규모 영향을 종합적으로 반영하는 새로운 'Text-to-Big SQL' 평가 지표와 LLM 에이전트에 대한 통찰을 제시합니다.
이 논문은 정보이론적 관점에서 멀티모달 LLM 의 모달리티 붕괴 현상을 텍스트 정렬된 디코더의 불일치 해독 문제로 설명하며, 모델의 아키텍처가 아닌 학습 목표 (스코어링 규칙) 가 접근 가능한 정보의 한계를 결정한다는 것을 입증합니다.
이 논문은 모바일 에이전트의 혼합 능력 추론을 위해 네 가지 전문 가구를 가진 CoME 아키텍처와 점진적 훈련 전략, 그리고 정보 이득 기반의 Info-DPO 를 제안하여 기존 방법보다 우수한 성능을 입증했습니다.
이 논문은 RAG 와 LLM 기술을 활용하여 가짜 뉴스 탐지 성능을 높이고, 사용자 참여와 투명한 설명을 제공하는 브라우저 확장 프로그램 'Aletheia'를 제안하며, 실험과 사용자 연구를 통해 그 효과성을 입증했습니다.
이 논문은 이미지, 오디오, 텍스트 등 이질적인 모달리티를 별도의 전문가 모델이나 MoE 구조 없이 단일 밀집 Transformer 인코더로 압축하여 메모리 효율성을 극대화하면서도 경쟁력 있는 성능을 달성하는 'Omni-C'를 제안합니다.
이 논문은 문법 제약 하의 LLM 디코딩에서 문법적 동치성이 허용된 다음 토큰 집합에는 영향을 주지 않지만, 컴파일된 상태 공간과 온라인 구조적 모호성 비용 (SAC) 에는 결정적인 차이를 만든다는 것을 증명하고, 이를 기반으로 효율적인 디코딩 엔진의 하한을 규명하며 Transformer 아키텍처와의 통합을 위한 이론적 틀을 제시합니다.