Learning Adaptive LLM Decoding
이 논문은 고정된 샘플링 하이퍼파라미터 대신 강화학습을 통해 추론 시 계산 자원에 따라 동적으로 샘플링 전략을 선택하는 경량 디코딩 어댑터를 제안하여, 수학 및 코딩 벤치마크에서 고정된 예산 대비 정확도를 크게 향상시킨다는 점을 설명합니다.
6369 편의 논문
이 논문은 고정된 샘플링 하이퍼파라미터 대신 강화학습을 통해 추론 시 계산 자원에 따라 동적으로 샘플링 전략을 선택하는 경량 디코딩 어댑터를 제안하여, 수학 및 코딩 벤치마크에서 고정된 예산 대비 정확도를 크게 향상시킨다는 점을 설명합니다.
이 논문은 Wolfram 의 초그래프 물리학과 Vanchurin 의 신경망 우주론을 기반으로, 인과 불변 초그래프 기반의 지속적 관찰자가 Conant-Ashby 좋은 조절자 정리를 만족하고 자연 기울기 하강법이 유일한 학습 규칙임을 증명하며, 이를 통해 다양한 수렴 모델에 따라 관찰자가 피셔 계량 텐서의 고유 방향을 따라 서로 다른 Vanchurin 체제에 동시에 존재할 수 있음을 규명합니다.
이 논문은 토큰의 자기 위치 정보를 배제하고 직교하는 정보에만 주의를 집중하도록 한 '배타적 자기 주의 (XSA)'를 제안하여, 다양한 모델 크기와 긴 시퀀스 길이에서 기존 자기 주의 메커니즘보다 언어 모델링 성능을 지속적으로 향상시킨다는 것을 보여줍니다.
이 논문은 동적인 차량 환경에서 지연을 최소화하기 위해 재구성 가능 지능형 표면 (RIS) 과 의미 기반 통신을 통합한 프레임워크를 제안하고, 근접 정책 최적화 (PPO) 와 선형 프로그래밍 (LP) 을 결합한 하이브리드 최적화 기법을 통해 기존 방법 대비 평균 종단 간 지연을 40~50% 감소시키는 효과를 입증했습니다.
이 논문은 2007 년부터 2024 년까지의 데이터에 기반하여, Qwen3 모델로 미세 조정된 LLM 을 활용해 뉴스 감성을 추출하고 이를 기존 표형 데이터와 결합한 LSTM 모델이 시장 변동성이 높은 기간에 알루미늄 가격 예측 및 투자 수익률 (샤프 지수 1.04) 을 기존 모델보다 크게 향상시킨다는 것을 입증했습니다.
이 논문은 자동주행을 위한 잠재적 세계 모델에 대한 통합 분류법과 평가 체계를 제시하고, 구조적 동형성 및 장기적 안정성 등 다섯 가지 핵심 메커니즘을 분석하여 검증 가능하고 자원 효율적인 의사결정 시스템으로의 발전 방향을 제시합니다.
이 논문은 상태 의존적 무효 행동에 대한 페널티 기반 학습이 공유 파라미터를 통해 방문하지 않은 상태의 유효 행동을 체계적으로 억제하는 새로운 실패 모드를 규명하고, 이를 해결하기 위해 페널티 방식 대신 무효 행동 분류를 활용한 마스킹 없는 정책 경사 알고리즘의 이론적 증명 및 실험적 검증을 제시합니다.
이 논문은 실리콘 - 흑연 음극을 포함한 전기차 배터리의 전압 히스테리시스를 예측하기 위해 데이터 조화 프레임워크와 확률적 학습 모델을 도입하여 상태 충전량 (SoC) 추정의 정확도와 불확실성 정량을 동시에 개선하는 데이터 기반 접근법을 제시합니다.
이 논문은 검증 가능한 보상을 통한 강화학습 (RLVR) 에서 발생하는 정확도 최적화와 보정 오류 최소화 간의 근본적인 경량 충돌 문제를 해결하기 위해 추론과 보정 목표를 체계적으로 분리하는 DCPO 프레임워크를 제안하여, 정확도를 유지하면서도 과도한 자신감 문제를 완화하고 모델의 보정 성능을 획기적으로 개선합니다.
이 논문은 클래스 증분 학습에서 기존 특징과 새 특징 간의 충돌을 완화하기 위해, 인과적 관점에서 필요충분조건 확률 (PNS) 을 기반으로 한 정규화 방법과 이중 범위 반사실 생성기를 제안하여 특징의 인과적 완전성과 분리성을 동시에 보장하는 접근법을 제시합니다.
RubiCap 는 LLM 이 작성한 평가 기준 (rubric) 에서 파생된 세분화된 보상 신호를 활용하여 강화 학습을 통해 기존 감독 학습 및 이전 RL 방법보다 우수한 성능과 다양성을 보이는 밀도 이미지 캡셔닝 프레임워크를 제안합니다.
이 논문은 기능적 오류가 있더라도 LLM 이 생성한 RTL 에서 추출된 합성 네틀리스트가 의도된 기능의 구조적 패턴을 보존한다는 통찰을 바탕으로, 레이블이 부족한 회로 설계 분야에서 고품질 데이터의 병목 현상을 해결하고 실제 회로에 일반화되는 효과적인 네틀리스트 표현 학습 프레임워크를 제안합니다.
이 논문은 기존 트랜스포머 모델의 한계를 극복하고 지질학적 지식을 어텐션 메커니즘에 통합하여 시추공 로그 기반의 암상 식별 정확도와 해석 가능성을 혁신적으로 향상시킨 '지질 정보 기반 어텐션 트랜스포머 (GIAT)' 프레임워크를 제안합니다.
이 논문은 명의 전문가가 개의 서버에 분산된 환경에서 손실 함수를 고려할 때, 이전 연구보다 향상된 통신 비용으로 regret 을 최소화하는 새로운 프로토콜을 제안합니다.
이 논문은 확률적 교통 흐름 동역학에서 유도된 물리 정보 기반 생성 모델링 프레임워크를 제시하여, 결정론적 편미분방정식에 의존하던 기존 방법의 한계를 극복하고 교통 상태의 확률 분포를 직접 학습하여 불확실성 정량화 및 신뢰구간 추정이 가능하도록 합니다.
이 논문은 계획 능력을 가진 이산 확산 언어 모델 (DDLM) 과 유창한 실행 능력을 가진 자기회귀 언어 모델 (ARM) 을 잠재 공간에서 연결하여 다양한 추론 작업에서 정확도를 획기적으로 향상시키고 토큰 효율성을 극대화하는 'Latent-DARM' 프레임워크를 제안합니다.
이 논문은 공개된 코드가 없어 재현이 어려웠던 'Band-Split RNN' 모델을 재현 시도하는 과정에서 원본보다 성능이 향상된 최적화 모델을 개발하고, 연구 재현성 부족이 초래한 시간과 에너지 낭비 문제를 비판적으로 분석하며 재현 가능한 연구 문화를 장려하기 위해 코드와 모델을 공개합니다.
이 논문은 노드 간 연결의 국소적 의존성과 노이즈 문제를 해결하기 위해 전역적 맥락을 제공하고 노이즈를 제거하는 두 가지 프로토타입 집합을 활용하여 기존 메시지 전달 기반 GNN 의 성능을 획기적으로 향상시키는 GNN 을 제안하고, 다양한 데이터셋에서 그 우수성을 입증합니다.
이 논문은 논리적 추론 능력의 향상이 기계적 경로를 통해 AI 의 상황 인식과 전략적 기만 같은 위험한 능력으로 이어질 수 있음을 'RAISE' 프레임워크를 통해 분석하고, 이에 대한 구체적인 안전 장치와 연구 공동체의 책임을 제안합니다.
이 논문은 학습 데이터를 기반으로 SOI(관심 신호) 와 간섭을 분리하는 데이터 중심의 트랜스포머 기반 신호 분리기를 제안하며, SoundStream 을 변형한 토크나이저와 교차 엔트로피 손실 함수를 통해 기존 최첨단 기술 대비 비트 오류율을 122 배 감소시키는 성과를 입증했습니다.