Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple
이 논문은 추론 파이프라인의 처리량을 최적화하기 위해 사전 학습된 대규모 언어 모델의 주요 하이퍼파라미터와 스펙큘레이티브 디코딩 기반 추론 시스템의 효율성 간의 이론적 관계를 규명하여, 사전 학습 전에 최적 구성 요소를 예측할 수 있는 방법을 제시합니다.
3768 편의 논문
이 논문은 추론 파이프라인의 처리량을 최적화하기 위해 사전 학습된 대규모 언어 모델의 주요 하이퍼파라미터와 스펙큘레이티브 디코딩 기반 추론 시스템의 효율성 간의 이론적 관계를 규명하여, 사전 학습 전에 최적 구성 요소를 예측할 수 있는 방법을 제시합니다.
이 논문은 ESP32 마이크로컨트롤러에서 실시간으로 자율 항해가 가능하도록 23k 파라미터의 경량화된 2D 합성곱 신경망을 개발하여, 외부 컴퓨팅 자원 없이도 저비용 로봇에 반응형 자율 제어를 구현하는 TinyNav 시스템을 제시합니다.
이 논문은 기존 시계열 벤치마크의 한계를 극복하고 인과적 기초 모델을 훈련하기 위해 관측 및 개입 데이터를 모두 제공하는 합성 시계열 구조 인과 모델 생성 프레임워크인 'CausalTimePrior'를 제안하고, 이를 통해 PFN 기반의 컨텍스트 내 인과 효과 추정이 가능함을 입증합니다.
이 논문은 데이터 스트림의 개념 변화 (concept drift) 를 효과적으로 탐지하고 식별하기 위해 다양한 메타 정보 특징을 동적으로 가중치 부여하여 통합하는 새로운 범용 프레임워크인 FiCSUM 을 제안하고, 이를 통해 기존 방법들보다 다양한 실제 및 합성 데이터셋에서 더 높은 정확도와 모델링 성능을 달성함을 보여줍니다.
이 논문은 가역적 그래프 직렬화와 BPE 를 결합하여 그래프 구조를 시퀀스로 변환하는 토크나이저를 제안함으로써, 구조적 수정 없이도 BERT 와 같은 트랜스포머를 그래프 벤치마크에 적용해 기존 그래프 신경망 및 전용 트랜스포머보다 우수한 성능을 달성했습니다.
이 논문은 희소 혼합 전문가 (MoE) 모델의 라우팅 메커니즘이 단순한 부하 분산이 아닌 작업 유형에 따라 구조화된 특징을 보이며, 이를 '라우팅 서명'을 통해 정량화하고 작업 분류에 활용할 수 있음을 입증했습니다.
이 논문은 다양한 비재생 도착 프로세스의 합성을 정확하게 모델링하기 위해 합성 마코프 도착 프로세스 (MAP) 로 학습된 심층 학습 기반의 확장 가능한 초위치 연산자를 제안하여, 기존 재생 근사법보다 정밀한 분산 성능 분석을 가능하게 합니다.
이 논문은 개인 간 EEG 변이로 인한 과제를 해결하기 위해 개별 뇌파 역동성과 학습 가능한 그룹 프로토타입 및 다중 피험자 공명 모델을 통합한 '그룹 공명 네트워크 (GRN)'를 제안하여, SEED 및 DEAP 데이터셋에서 기존 방법들보다 우수한 감정 인식 성능을 입증했습니다.
이 논문은 기존 방법의 한계를 극복하고 단일 위치 데이터만으로도 다양한 기후대에서도 높은 정확도를 유지하는 재사용 가능한 고해상도 기상 기반 건물 에너지 예측 대리 모델을 제안합니다.
이 논문은 희소 레이블과 도메인 편이로 인한 표현 붕괴 문제를 해결하고, 약물-표적 친화도 예측의 일반화 능력을 획기적으로 향상시키기 위해 친화도 지향 잠재 매니폴드 정렬과 확률적 확산 정규화를 결합한 새로운 2 단계 프레임워크 'Co-Diffusion'을 제안합니다.
이 논문은 3 차원 네트워크 아키텍처를 통해 sawtooth 함수의 효율적인 표현을 가능하게 함으로써, 해석 함수 및 함수에 대한 기존 이론의 한계를 극복하고 지수적 근사율 향상과 고차 비점근적 근사 정리를 제시합니다.
이 논문은 지역적 비용 함수와 하드웨어 효율적인 텐서 네트워크 초기화 전략을 도입하여 바렌 플래토 문제를 해결하고, MNIST 데이터셋에서 98.7% 의 정확도를 달성하며 기존 QCNN 보다 월등히 우수한 성능과 파라미터 효율성을 입증한 확장 가능한 양자 합성곱 신경망 아키텍처를 제안합니다.
이 논문은 단백질 서열 예측을 위해 쌍별 상호작용과 명시적인 삼중 상호작용 경로를 통합한 '고차 모듈형 어텐션 (HOMA)'을 제안하며, TAPE 벤치마크에서 기존 어텐션 메커니즘보다 일관된 성능 향상을 입증했습니다.
이 논문은 관측된 와 간의 교란 (confounding) 이 존재하는 경우를 포함하도록 합동적 e-예측 (conformal e-prediction) 을 확장하며, 관측 데이터가 독립동일분포 (IID) 인 경우와 관측치 간 일부 의존성이 허용되는 경우를 모두 다룹니다.
이 논문은 온-정책 증류의 불안정성을 해결하고 샘플 효율성과 추론 속도를 극대화하기 위해, 교사의 보상을 유연하게 활용하는 'REOPOLD'라는 새로운 증류 프레임워크를 제안하고 수학, 시각, 도구 사용 추론 작업에서 기존 방법들을 능가하는 성능을 입증했습니다.
이 논문은 강한 혼합 조건 하의 종속 관측치를 기반으로 최소 오차 엔트로피 원리를 적용한 비모수 회귀를 제안하고, 비페널티 및 희소 페널티 심층 신경망 추정량의 기대 초과 리스크 상한을 증명하여 가우스 오차 모델에서 최소극한 최적 수렴 속도를 달성함을 보여줍니다.
이 논문은 임베디드 시스템 도메인 특화 데이터로 OLMo-3-7B 모델을 continual pretraining 한 'H2LooP Spark Preview'를 제안하여, 7B 규모의 오픈 소스 모델이 특정 기술 작업에서 최신 대형 모델들과 경쟁할 수 있음을 입증했습니다.
이 논문은 예측 결과의 공정성뿐만 아니라 모델의 추론 과정이 보호 그룹 간에 일관되게 유지되도록 하는 '그룹 반사실 통합 기울기 (GCIG)'라는 정규화 프레임워크를 제안하여, 설명의 불일치를 줄이고 절차적 공정성을 확보하는 새로운 접근법을 제시합니다.
이 논문은 비디오 비전 트랜스포머 모델에서 '성공 대 실패'라는 결과 신호가 어텐션 헤드가 증거를 수집하고 MLP 블록이 개념을 구성하는 분산된 인과 회로를 통해 점진적으로 증폭되는 메커니즘을 규명함으로써, 단순 분류 작업만 수행하는 모델 내부에도 신뢰할 수 있는 AI 를 구축하기 위해 파악해야 할 숨겨진 지식이 존재함을 보여줍니다.
이 논문은 박물관의 오디오비주얼 아카이브에서 수동 작업을 자동화하고 데이터 주권 및 규제 준수를 보장하기 위해, 기존 컬렉션 데이터베이스에 기반한 오픈 소스 로컬 배포형 비디오 언어 모델을 활용한 다단계 멀티모달 속성 부여 프레임워크를 제안합니다.