Thoth: Mid-Training Bridges LLMs to Time Series Understanding
이 논문은 'Book-of-Thoth'라는 고품질 중간 학습 코퍼스를 활용하여 시계열 데이터와 자연어 간의 정렬을 달성한 최초의 범용 시계열 이해 LLM 인 'Thoth'를 제안하고, 이를 통해 기존 모델 대비 우수한 시계열 추론 성능과 데이터 부족 상황에서의 적응력을 입증합니다.
2426 편의 논문
이 논문은 'Book-of-Thoth'라는 고품질 중간 학습 코퍼스를 활용하여 시계열 데이터와 자연어 간의 정렬을 달성한 최초의 범용 시계열 이해 LLM 인 'Thoth'를 제안하고, 이를 통해 기존 모델 대비 우수한 시계열 추론 성능과 데이터 부족 상황에서의 적응력을 입증합니다.
이 논문은 기하학적 추론에서 단순한 지도 미세조정 (SFT) 이 시각적 생성과 논리적 추론 간의 인과적 의존성을 학습하지 못해 성능이 저하되는 문제를 지적하고, 강화학습 기반의 'Faire' 프레임워크를 통해 모델이 도면 생성과 추론 단계를 기능적으로 정렬하도록 함으로써 복잡한 기하학 문제 해결 능력을 획기적으로 향상시킨다는 점을 제시합니다.
이 논문은 모델 업그레이드나 도구 변경과 같은 동적 환경 변화에 적응하여 다중 에이전트 시스템의 통신 토폴로지를 조건부로 설계하는 CARD 프레임워크를 제안하고, 이를 통해 다양한 조건에서 고정식 또는 프롬프트 기반 방법보다 뛰어난 성능과 견고성을 입증합니다.
이 논문은 기존 텍스트 임베딩 공간 SONAR 를 확장하여 비전-언어 정렬을 수행한 V-SONAR 와 이를 기반으로 한 V-LCM 을 제안함으로써, 다양한 언어와 모달리티에 걸친 영상 캡셔닝 및 질문 응답 작업에서 기존 최첨단 모델을 능가하는 성능을 입증했습니다.
이 논문은 컨텍스트 창 제한과 평면적 메모리 접근법의 한계를 극복하기 위해 계층적 트리 구조를 기반으로 한 'Semantic XPath'를 제안하여, 기존 RAG 대비 성능을 176.7% 향상시키고 토큰 사용량을 9.1%로 획기적으로 줄인 대화형 AI 시스템의 새로운 패러다임을 제시합니다.
이 논문은 LLM 평가의 일관성, 재현성 및 데이터 유출 문제를 해결하기 위해 벤치마크와 정답을 서버 측에 격리하여 모듈형 플러그 앤 플레이 평가를 가능하게 하는 탈중앙화 평가 프로토콜 (DEP) 과 이를 구현한 툴킷을 제안합니다.
이 논문은 미세 조정 중 발생하는 안전성 저하를 해결하기 위해 샘플 단위가 아닌 토큰 단위로 위험을 정량화하고 제거하는 새로운 프레임워크 TOSS 와 점진적 정제 전략 TOSS-Pro 를 제안하여 안전성과 유용성을 동시에 향상시키는 방법을 제시합니다.
이 논문은 사실 검증 작업에서 마스킹 확산 모델 (MDLM) 이 초기에 정확한 결론을 내린 후 추론을 생성하는 과정에서 오히려 노이즈가 누적되어 성능이 저하되므로, 체인 오브 씽킹과 같은 지연된 추론 전략이 역효과를 낼 수 있음을 규명했습니다.
이 논문은 측정 이론과 심리측정적 타당성 이론을 기반으로 문화의 핵심 영역을 정의하고 이를 측정 가능한 지표로 전환하여 다양한 문화적 차원을 포괄적으로 평가할 수 있는 AI 의 문화적 지능을 정량화하는 통합 프레임워크를 제시합니다.
이 논문은 투명성과 신뢰성을 높이기 위해 Shapley 값 기반 설명 모듈을 통합한 XCom 이라는 새로운 변환기 기반 모델을 제안하여, 비교적 의견 마이닝 작업에서 우수한 성능과 해석 가능한 통찰력을 제공함을 보여줍니다.
이 논문은 소설이 대규모 언어 모델의 학습 데이터로서 AI 의 출력에 어떤 영향을 미치는지 BERT 모델을 분석하여 검증하고, 현대 문화 생산을 이해하기 위해서는 학습 데이터의 역할을 고려해야 한다고 주장합니다.
이 논문은 강화 학습 기반의 사고 모델 (Thinking-based MLLM) 에 그룹 상대적 정책 최적화 (GRPO) 를 적용하여 해로운 밈의 복합적 다중 모달 추론 능력을 향상시키고, 벤치마크에서 최첨단 성능을 달성한 새로운 프레임워크를 제안합니다.
이 논문은 다중 턴 대화에서 LLM 이 자신의 이전 출력에 기반할 때 모델마다 다른 방식으로 신뢰도 보정 오차가 변화하는 '자기 앵커링 보정 드리프트 (SACD)' 현상을 실증적으로 규명하고, 특히 클로드가 신뢰도 하락을, GPT 는 개방형 영역에서 오차 증가를, 지미는 자연스러운 보정 개선이 억제되는 양상을 보인다고 보고합니다.
이 논문은 최종 답변이 엄격한 템플릿을 따르도록 강제하여 파싱을 용이하게 하고 정확도를 높이는 '접미사 제약 탐욕 검색 (suffix-constrained greedy search)' 알고리즘을 제안합니다.
이 논문은 대규모 언어 모델의 의료 도메인 지식 한계를 구조화된 지식 그래프와 능동적 인-컨텍스트 학습을 통해 보완하여, 선진단 평가 시 환자에게 적합한 후속 질문을 생성하는 'KG-Followup' 모델을 제안하고 기존 최첨단 방법보다 재현율에서 5~8% 향상된 성능을 입증했습니다.
본 논문은 LLM 의 자기 설명이 실제 작업 상태가 아닌 의미적 맥락 (예: 도구 설명의 어조) 에 따라 변하는 '의미 불변성'을 결여하고 있음을 보여주며, 이는 모델의 자기 보고가 능력이나 진전을 입증하는 증거로 신뢰하기 어렵다는 점을 시사합니다.
이 논문은 기존 주의력 조향 방법의 메모리 비효율성을 해결하고, FlashAttention 과 호환되며 학습 없이 토큰 주의를 증폭시키는 'Spectral Editing Key Amplification(SEKA)'과 이를 동적으로 조정하는 'AdaSEKA'를 제안하여 기존 기법보다 높은 성능과 낮은 오버헤드를 달성함을 보여줍니다.
이 논문은 어텐션 분포를 평탄화하여 기억된 지식의 어휘 및 의미적 연관성을 직접 억제함으로써, 모델의 유용성을 유지하면서 민감 정보를 효과적으로 삭제하는 새로운 프레임워크인 '어텐션 스무딩 언러닝 (ASU)'을 제안합니다.
이 논문은 저자원 환경에서 긴 문서의 요약 시 발생하는 계산 병목 현상을 해결하기 위해 트랜스포머의 의미적 강점과 Mamba 의 선형 시간 처리 능력을 결합한 최초의 하이브리드 추출형 요약 모델을 제안하며, 다양한 도메인에서 기존 모델 대비 ROUGE 점수 향상과 추론 속도 개선을 입증했습니다.
이 논문은 10 년 이상의 개인 메시징 데이터를 기반으로 다양한 LLM 시뮬레이션 기법을 평가한 결과, 친분 있는 지인에게는 현재 기술이 '개인 튜링 테스트'를 통과하지 못하지만, 언어 스타일과 개인적 의견에 따라 파인튜닝과 검색/메모리 기반 접근법 간에 명확한 성능 trade-off 가 존재함을 규명했습니다.