Highly Efficient and Effective LLMs with Multi-Boolean Architectures
이 논문은 기존 방법들의 한계를 극복하고 잠재 가중치 없이 부울 도메인에서 직접 미세 조정이 가능한 멀티 커널 부울 파라미터를 기반으로 한 새로운 프레임워크를 제안하여 대규모 언어 모델의 복잡성을 획기적으로 줄이면서도 성능을 향상시켰음을 보여줍니다.
335 편의 논문
이 논문은 기존 방법들의 한계를 극복하고 잠재 가중치 없이 부울 도메인에서 직접 미세 조정이 가능한 멀티 커널 부울 파라미터를 기반으로 한 새로운 프레임워크를 제안하여 대규모 언어 모델의 복잡성을 획기적으로 줄이면서도 성능을 향상시켰음을 보여줍니다.
이 논문은 신경망 기반의 비선형 차원 축소 기법인 신경 활성 매니폴드를 활용하여 고차원 입력 공간에서 모델 반응의 등고선을 따르는 층화 표본 추출을 가능하게 함으로써, 계산 비용이 큰 모델의 불확실성 전파 시 분산을 효과적으로 줄이는 방법을 제안합니다.
이 논문은 그래프의 노드와 엣지가 분리된 선형 보간이 아닌 마르코프 랜덤 필드 기반의 최적 수송 변위를 통해 매끄러운 확률 경로를 구성함으로써 학습 동역학과 샘플링 수렴성을 개선한 새로운 그래프 생성 프레임워크인 BWFlow 를 제안합니다.
이 논문은 소수의 선호도 데이터만 제거해도 Chatbot Arena 와 같은 주요 LLM 랭킹 시스템의 최상위 모델 순서가 뒤바뀔 수 있음을 보여주며, MT-bench 의 전문가 기반 평가가 더 강건하고 인간 평가와 LLM 평가 간 민감도 차이는 체계적으로 존재하지 않음을 밝힙니다.
이 논문은 무한 폭 극한에서 경사 하강법으로 학습된 단일 층 신경망이 가우시안 프로세스로 수렴하는 정량적 거동을 분석하여, 학습 시간 에서 네트워크 출력과 가우시안 근사치 사이의 2 차 워asserstein 거리에 대한 명시적 상한을 제시하고 네트워크 폭에 따른 다항식 감쇠를 증명합니다.
이 논문은 SGD 로 훈련된 컨포말화 회귀 모델의 예측 구간 길이가 오라클 구간 길이에서 벗어나는 정도에 대한 비점근적 상한을 제시하여, 훈련 및 보정 데이터 크기와 허용 오차 수준 () 이 효율성에 미치는 영향을 규명하고 데이터 할당을 위한 통찰을 제공합니다.
이 논문은 오버파라미터화된 ReLU 신경망의 일반화 성능이 데이터 기하학에 의해 결정되며, 데이터가 ReLU 활성화 임계값에 대해 쉽게 분열될수록 과적합이 발생하고 반대로 분열이 어려울 경우 공유 패턴을 포착하여 일반화가 잘 된다는 통찰을 제공합니다.
이 논문은 선형 최소제곱법을 기반으로 가장 영향력 있는 데이터 집합의 극단적 영향을 통계적으로 검정할 수 있는 엄밀한 프레임워크를 제시하여, 기존 경험적 규칙을 대체하고 경제학·생물학·머신러닝 분야에서 논쟁적이던 결과를 해결합니다.
이 논문은 여러 예측 모델의 비동일성 점수를 e-값으로 변환하고 대칭적 집계 함수를 결합하여 단일하고 더 효율적인 불확실성 집합을 생성하는 새로운 방법인 SACP(Symmetric Aggregated Conformal Prediction) 를 제안하고, 이를 통해 기존 방법들보다 향상된 예측 성능을 입증합니다.
이 논문은 베이지안 비모수적 접근법을 사용하여 유한 혼합 모델의 비모수적 성분을 학습하고, 구성 요소 분포의 식별 가능성과 사후 수렴성을 증명하며, 효율적인 MCMC 알고리즘을 통해 기존 탈합성 (deconvolution) 방법보다 우수한 수렴 속도로 복잡한 잠재 하위 집단 분포를 추정하는 방법을 제시합니다.
이 논문은 유계 리프시츠 연산자 학습의 최소극대 위험 하한과 상한을 도출하여, 연산자의 유한한 정칙성을 가정하더라도 표본 수에 대한 대수적 수렴 속도를 보장할 수 없는 '표본 복잡도의 저주'가 존재함을 증명합니다.
이 논문은 계산 비용이 큰 연산자를 가진 베이지안 역문제에서 오프라인 단계를 통해 효율성을 극대화하고 NUTS 와 같은 기존 방법보다 월등히 빠른 성능을 보이는 새로운 샘플링 기법인 Latent-IMH 를 제안하고 그 이론적 성능을 입증합니다.
이 논문은 트랜스포머 레이어를 최적화 알고리즘의 반복으로 해석하는 변분 프레임워크를 제안하고, 이를 바탕으로 네스테로프 가속 기법을 적용한 YuriiFormer 아키텍처를 개발하여 TinyStories 와 OpenWebText 데이터셋에서 기존 nanoGPT 보다 우수한 성능을 입증했습니다.
이 논문은 알려지지 않은 분포 드리프트가 발생하는 비정상 데이터 스트림에서 훈련 조건부 누적 후회를 최소화하는 온라인 공형 예측을 위해, 드리프트 감지를 활용한 분할 공형 및 안정성에 기반한 전체 공형 알고리즘을 제안하고 그 최적성을 이론적으로 증명합니다.
이 논문은 일반화된 이차선형 선호 모델 (GBPM) 과 강한 볼록성 정규화를 기반으로, 고차원 온라인 RLHF 환경에서 Nash 균형을 효율적으로 찾는 두 가지 알고리즘 (그리드 샘플링 및 탐색 후 고정) 을 제안하고 각각 다항 로그 및 다항 차원 자유의 후회 한계를 증명합니다.
이 논문은 그래프 출력에 대한 분포 없는 커버리지 보장을 제공하기 위해 Z-그로모프-워터스테인 거리를 비동일성 척도로 정의하고, 복잡한 출력 공간을 처리할 수 있는 적응형 예측 집합을 생성하는 새로운 정합 예측 프레임워크를 제안합니다.
이 논문은 그래프 구조 신호의 복잡한 시공간적 의존성을 포착하기 위해 시간-공간 주파수 영역에서 예측과 실제 값을 정렬하는 새로운 훈련 목표인 FreST Loss 를 제안하여, 기존 시계열 예측 모델의 편향을 줄이고 성능을 향상시킨다는 점입니다.
이 논문은 평형 상태를 입력으로 사용하여 시스템 매개변수를 역추적하는 딥러닝 기반의 평형 정보 신경망 (EINN) 을 제안함으로써, 복잡한 동역학 시스템의 임계점과 급격한 상태 전이를 기존 방법보다 효율적으로 탐지할 수 있음을 보여줍니다.
이 논문은 심볼릭 시계열 데이터에서 인과 방향을 추론하고 효과 변수의 변화를 주도하는 하위 패턴을 식별하기 위해 알고리즘 정보 이론과 섀넌 정보 이론을 통합한 '사전 기반 패턴 엔트로피 (DPE)' 프레임워크를 제안하며, 다양한 합성 및 생물학적 데이터셋에서 기존 방법들보다 우수한 성능을 입증합니다.
이 논문은 콜라츠 정리의 총 정지 시간을 예측하기 위해 단순한 공변량을 기반으로 한 베이지안 계층적 음이항 회귀 모델과 홀수 블록 분해에 기반한 생성적 근사 모델을 개발하고, 저차 모듈러 구조가 이산 시간의 이질성을 설명하는 핵심 요인임을 실증적으로 규명합니다.