MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations
이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.
9843 편의 논문
이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.
이 논문은 고정된 롤아웃 할당의 비효율성을 해결하기 위해 경량 가우시안 프로세스 모델을 통해 각 프롬프트의 성공 확률을 예측하고 이를 기반으로 분산을 최소화하는 볼록 최적화를 수행하여 롤아웃을 동적으로 할당하는 'VIP' 전략을 제안하여 온라인 강화학습의 샘플링 효율성을 크게 향상시킵니다.
이 논문은 전통적인 모델 중심의 시계열 예측을 넘어, 지각·계획·행동·성찰·기억을 갖춘 에이전트 워크플로우로 예측을 재정의하는 '에이전트 시계열 예측 (ATSF)' 패러다임을 제안하고 그 구현 방식과 기회 및 과제를 논의합니다.
이 논문은 대규모 언어 모델의 행동 제어를 위한 활성화 조향 벡터가 입력 - 출력 행동만으로는 고유하게 식별할 수 없으며, 이는 해석 가능성의 근본적인 한계를 시사한다는 점을 실증적으로 보여줍니다.
이 논문은 화학 추론을 자연어 기반의 명시적 사고 과정 대신 연속적인 잠재 공간에서 수행하도록 하는 'LatentChem'을 제안하여, 텍스트 생성을 최소화하면서도 추론 속도를 10 배 이상 향상시키고 정확도를 크게 개선했음을 보여줍니다.
이 논문은 코사인 유사도 기반의 대비 학습에서 임베딩 크기를 노이즈로 간주하는 기존 관념을 넘어, 쿼리와 문서의 크기를 독립적으로 제어하는 프레임워크를 통해 검색 및 RAG 성능을 획기적으로 개선하고 일반화 능력을 향상시키는 방법론과 실용적 지침을 제시합니다.
본 논문은 분기점과 같은 급격한 위상 전이를 가진 매개변수화된 동역학 시스템을 모델링할 때 발생하는 스펙트럼 편향을 해결하기 위해, 지도 기반 거리 정규화와 위상 기반 교차 최적화를 통해 잠재 공간을 구조화하는 토폴로지 인식 PINN(TAPINN) 을 제안하여 물리 잔차를 크게 감소시키고 안정적인 수렴을 달성함을 보여줍니다.
이 논문은 진동 시스템의 잔차 다양체 학습을 위해 Kolmogorov-Arnold 네트워크 (KAN) 를 하드 제약 순환 물리 정보 아키텍처에 통합한 실험적 안정성 분석을 통해, KAN 이 다항식 잔차에서는 경쟁력 있으나 곱셈 항과 깊은 구조에서는 MLP 보다 불안정하고 성능이 저하됨을 규명하여 원래 KAN 수식의 가법적 유도 편향이 상태 결합에 한계가 있음을 시사합니다.
이 논문은 이미 생성된 토큰도 수정할 수 있는 점진적 자기 교정 (ProSeCo) 프레임워크를 제안하여, 마스킹 확산 모델 (MDM) 의 오류 누적 문제를 해결하고 샘플 품질과 효율성을 동시에 향상시켰습니다.
이 논문은 희소하거나 프라이버시 제약이 있는 표제 데이터의 합성을 위해 양자 회로의 표현력과 고전 신경망을 결합한 하이브리드 양자 - 고전 생성적 적대 신경망인 QTabGAN 을 제안하고, 기존 최첨단 모델 대비 최대 54.07% 의 성능 향상을 입증했습니다.
이 논문은 훈련 데이터 범위를 벗어난 외삽 (Out-of-Support) 문제를 가중치 공간의 시퀀스 모델링으로 재정의하고, 명시적인 귀납적 편향 없이도 신뢰할 수 있는 예측을 가능하게 하는 'WeightCaster' 프레임워크를 제안하여 안전 필수 분야에서 AI 의 신뢰성을 높이는 결과를 보여줍니다.
이 논문은 계산적 제약으로 인해 어려웠던 대규모 노동 시장 에이전트 기반 모델의 매개변수 추정을 위해, 신경망을 활용한 시뮬레이션 기반 추론 프레임워크가 기존 베이지안 방법보다 효율적으로 정확한 매개변수를 복원함을 입증했습니다.
이 논문은 알려지지 않은 분포 드리프트가 발생하는 비정상 데이터 스트림에서 훈련 조건부 누적 후회를 최소화하는 온라인 공형 예측을 위해, 드리프트 감지를 활용한 분할 공형 및 안정성에 기반한 전체 공형 알고리즘을 제안하고 그 최적성을 이론적으로 증명합니다.
이 논문은 적응 면역 레퍼토리의 대규모 비교 분석 시 발생하는 계산 비용과 데이터 불균형 문제를 해결하기 위해, MinHash 기반의 효율적 검색, 적응적 멀티모달 융합, 그리고 공평성 제약 클러스터링을 통합한 확장성 있는 SubQuad 프레임워크를 제안합니다.
이 논문은 구조 인식 마스킹과 GRPO 를 활용한 3 단계 커리큘럼 학습 프레임워크를 제안하여, Qwen2.5-3B-Base 모델이 GSM8K 에서 정확도를 11.29% 향상시키면서 동시에 출력 길이를 27.4% 단축하는 효율적인 체인 오브 씽킹 증류 방법을 제시합니다.
이 논문은 도시 전역의 분산된 카메라 네트워크에서 사생활 보호를 준수하면서도 시점, 가림, 도메인 변화에 강인한 개인 식별을 가능하게 하는 'CityGuard'라는 위상 인식 트랜스포머 기반의 프라이버시 보존 프레임워크를 제안합니다.
이 논문은 실제 세계의 이질성 하에서 호흡기 오디오 질문 응답 (QA) 의 성능을 평가하기 위해, 공개 데이터셋을 통합하여 900 만 개의 다양한 QA 쌍을 포함하는 표준화된 벤치마크 시스템인 RA-QA 를 제안하고 현재 모델들의 한계를 분석합니다.
이 논문은 기존 Shapley 값이 관찰 데이터의 인과적 맥락을 무시할 때 콜라이더 편향 등으로 인해 잘못된 특징 중요도를 산출할 수 있음을 지적하고, 데이터의 인과 구조를 반영하여 이러한 오류를 해결하는 새로운 방법인 'cc-Shapley'를 제안합니다.
이 논문은 불균형 회귀 데이터 스트림을 위해 커널 밀도 추정을 확장하고 계층적 수축을 통합하여, Hoeffding 트리의 초기 성능을 개선하는 방법을 제안하고 실험적으로 검증합니다.
이 논문은 분자와 물질을 모두 다루는 3D 화학 모델링을 위해 생성 및 예측 작업을 통합한 최초의 오픈소스 기반 모델인 'Zatom-1'을 제안하며, 멀티모달 흐름 매칭을 통해 기존 특화 모델 대비 우수한 성능과 빠른 추론 속도를 달성하고 도메인 간 전이 학습 효과를 입증했습니다.