RePo: Language Models with Context Re-Positioning
이 논문은 인지 부하 이론을 기반으로 컨텍스트의 고정된 순서 구조를 완화하여 불필요한 인지 부하를 줄이고, OLMo-2 모델을 기반으로 한 RePo 메커니즘을 통해 노이즈가 많은 맥락이나 긴 문맥에서도 성능을 향상시키는 새로운 언어 모델 접근법을 제안합니다.
9654 편의 논문
이 논문은 인지 부하 이론을 기반으로 컨텍스트의 고정된 순서 구조를 완화하여 불필요한 인지 부하를 줄이고, OLMo-2 모델을 기반으로 한 RePo 메커니즘을 통해 노이즈가 많은 맥락이나 긴 문맥에서도 성능을 향상시키는 새로운 언어 모델 접근법을 제안합니다.
이 논문은 텍스트, 이미지, 맥락 신호를 통합하고 LLM 과 SLM 의 시너지를 활용하여 다중 에이전트 및 다중 페르소나 기반의 증거 중심 프레임워크인 AMPEND-LS 를 제안함으로써 기존 방법들의 한계를 극복하고 정확성과 설명 가능성을 향상시킨 다중 모달 가짜 뉴스 탐지 연구를 소개합니다.
이 논문은 단일 모델 호출로 여러 토큰을 예측하여 생성 속도를 2.4 배 향상시키는 '병렬 토큰 예측 (PTP)' 프레임워크를 제안하고, 이를 통해 기존 언어 모델의 순차적 디코딩 한계를 극복함을 보여줍니다.
이 논문은 희소 변량 가우시안 프로세스를 콜모고로프 - 아르논 네트워크 토폴로지에 접목한 SVGP-KAN 프레임워크를 제안하여, 희소한 유속 측정 데이터로부터 시간 해상도가 있는 유동장을 재구성하고 예측의 불확실성을 정량화함으로써 기존 방법들의 성능을 유지하면서도 실험 설계에 실질적인 지침을 제공함을 보여줍니다.
이 논문은 건강한 세포와 악성 세포의 전기적 임피던스 특성을 분석하여 랜덤 포레스트 알고리즘을 활용한 머신러닝 모델이 약 90% 의 정확도로 세포의 악성도를 예측할 수 있음을 입증하고, 이를 기반으로 한 실시간 진단 도구 개발의 가능성을 제시합니다.
이 논문은 가중치와 업데이트 모두에 엄격한 스펙트럼 제약을 부과하여 P 정렬을 달성하고 대규모 모델 학습의 수렴 속도와 안정성을 혁신적으로 개선한 '스펙트럼 구체 최적화기 (SSO)'를 제안합니다.
이 논문은 기존 앙상블 학습의 한계를 극복하고 각 모델의 고유한 행동 프로파일을 기반으로 가중치를 동적으로 부여하는 '행동 프로파일링 앙상블 (BPE)' 프레임워크를 제안하여, 42 개 실제 데이터셋에서 최첨단 동적 앙상블 선택 방법보다 높은 예측 정확도와 낮은 계산 비용을 달성했음을 보여줍니다.
이 논문은 대형 언어 모델 (LLM) 의 추론 능력을 PDDL 기반의 행동 트리 및 반응형 제어에 통합하여 이종 로봇 팀의 장기적 협업 작업 성공률을 기존 대비 55% 로 획기적으로 향상시킨 'EmboTeam' 프레임워크와 새로운 벤치마크 'MACE-THOR'를 제안합니다.
본 논문은 엣지 장치의 메모리 제약을 해결하기 위해 공유된 3 값 (ternary) 프로토타입에 학습된 회전 변환을 적용하여 전문가 수에 따른 선형적 메모리 증가를 극복하고, 256 개의 전문가를 포함하면서도 정확도 손실 없이 150 배의 메모리 감축을 달성한 'ButterflyMoE'를 제안합니다.
이 논문은 사전 훈련 단계에서 Layer-Adaptive Expert Pruning (LAEP) 알고리즘을 도입하여 효율성을 49% 향상시키고 파라미터를 33.3% 줄인 1010B 총 파라미터 규모의 오픈소스 MoE 기반 기업용 대규모 언어 모델 'Yuan3.0 Ultra'를 제안합니다.
이 논문은 스마트 글래스 등 웨어러블 기기를 위한 장기간의 자전적 비디오 이해를 위해 개체 장면 그래프와 하이브리드 검색 도구를 활용한 에이전트 프레임워크 'EGAgent'를 제안하여, 기존 방법의 한계를 극복하고 EgoLifeQA 및 Video-MME(Long) 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 외부의 정답이나 검증된 추론 경로를 '권위 정보'로 활용하여 단일 모델이 스스로 교사와 학생 역할을 수행하며 온-정책 자기 증류 (OPSD) 를 통해 기존 온-정책 증류의 한계를 극복하고 강화학습 대비 효율성과 성능을 동시에 향상시킨 새로운 프레임워크를 제안합니다.
이 논문은 중규모 그래프에서도 계산적으로 실행 가능하도록 엣지 임베딩의 그라미안 행렬 표현과 조건부 확률 분포 재구성을 통해 확장성을 확보한 'CopulaGNN' 기반의 새로운 링크 부호 예측 모델을 제안하고, 이론적 선형 수렴 증명과 실험을 통해 기존 모델 대비 빠른 수렴 속도와 경쟁력 있는 성능을 입증합니다.
이 논문은 기존 연구의 제한적인 가정을 피하고 직접적인 분석을 통해 뮤온 (Muon) 옵티마이저의 수렴 속도를 개선하고 더 넓은 문제 설정을 포괄하는 정교한 수렴 보장을 제시합니다.
이 논문은 계산 비용이 큰 연산자를 가진 베이지안 역문제에서 오프라인 단계를 통해 효율성을 극대화하고 NUTS 와 같은 기존 방법보다 월등히 빠른 성능을 보이는 새로운 샘플링 기법인 Latent-IMH 를 제안하고 그 이론적 성능을 입증합니다.
이 논문은 텍스트 기반의 장소 정체성과 이동 궤적의 규칙성을 넘어 실제 사용 패턴을 포착하기 위해 대규모 인간 이동 데이터를 언어 모델 임베딩과 결합한 '이동 임베딩 POI(ME-POIs)' 프레임워크를 제안하고, 이를 통해 POI 의 기능과 정체성을 모두 효과적으로 학습하여 다양한 지도 enrichment 작업에서 기존 기법보다 우수한 성능을 입증했습니다.
이 논문은 트랜스포머 레이어를 최적화 알고리즘의 반복으로 해석하는 변분 프레임워크를 제안하고, 이를 바탕으로 네스테로프 가속 기법을 적용한 YuriiFormer 아키텍처를 개발하여 TinyStories 와 OpenWebText 데이터셋에서 기존 nanoGPT 보다 우수한 성능을 입증했습니다.
이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.
이 논문은 고정된 롤아웃 할당의 비효율성을 해결하기 위해 경량 가우시안 프로세스 모델을 통해 각 프롬프트의 성공 확률을 예측하고 이를 기반으로 분산을 최소화하는 볼록 최적화를 수행하여 롤아웃을 동적으로 할당하는 'VIP' 전략을 제안하여 온라인 강화학습의 샘플링 효율성을 크게 향상시킵니다.
이 논문은 전통적인 모델 중심의 시계열 예측을 넘어, 지각·계획·행동·성찰·기억을 갖춘 에이전트 워크플로우로 예측을 재정의하는 '에이전트 시계열 예측 (ATSF)' 패러다임을 제안하고 그 구현 방식과 기회 및 과제를 논의합니다.