LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks
이 논문은 사전 학습된 자기 주의 네트워크와 개별 저랭크 행렬을 공유하는 LoRA 기반의 효율적인 앙상블 방법인 'LoRA-Ensemble'을 제안하여, 명시적 앙상블 수준의 정확도와 우수한 보정 능력을 유지하면서 계산 비용과 메모리 오버헤드를 크게 줄인다고 요약할 수 있습니다.
2330 편의 논문
이 논문은 사전 학습된 자기 주의 네트워크와 개별 저랭크 행렬을 공유하는 LoRA 기반의 효율적인 앙상블 방법인 'LoRA-Ensemble'을 제안하여, 명시적 앙상블 수준의 정확도와 우수한 보정 능력을 유지하면서 계산 비용과 메모리 오버헤드를 크게 줄인다고 요약할 수 있습니다.
이 논문은 기존 방법의 비효율성과 특수성 문제를 해결하기 위해 정책 경사법을 활용해 확률 분포로 표현된 어트리뷰션 기반 설명을 최적화하는 'Fast Explanation (FEX)' 프레임워크를 제안하며, 이미지 및 텍스트 분류 작업에서 추론 시간을 97% 이상 단축하고 메모리 사용량을 70% 줄이면서도 높은 설명 품질과 일반성을 유지함을 입증했습니다.
이 논문은 소수 샷 미세 조정 중 확산 모델에서 발생하는 '부패 단계'를 이론적으로 분석하고, 베이지안 신경망을 적용하여 학습 분포를 확장함으로써 이미지 충실도와 다양성을 향상시키는 방법을 제안합니다.
이 논문은 디커플링 지식 증류 (DKD) 와 저랭크 적응 (LoRA) 미세 조정 기법을 결합하여 파라미터 수를 획기적으로 줄이면서도 99.48% 의 높은 정확도를 달성한 경량 베어링 고장 진단 모델 DKDL-Net 을 제안합니다.
이 논문은 양측 시장 플랫폼의 알고리즘 간섭으로 인한 편향을 해결하기 위해 경쟁적 할당 메커니즘을 명시적으로 모델링하는 구조화된 반모수적 프레임워크와 이중 머신 러닝 기반의 편향 보정 추정량을 제안하여, 기존 추정법보다 정확한 전역 처리 효과를 추정할 수 있음을 입증합니다.
이 논문은 자연어 기반의 프로그래머와 검사자 에이전트, 그리고 사용자 개입 및 외부 지식 통합 메커니즘을 통해 코드 없이도 강력한 데이터 분석을 가능하게 하는 오픈소스 멀티에이전트 시스템 'LAMBDA'를 제안합니다.
이 논문은 최적 수송 이론에서 유도된 정규화와 볼록 통합 문제를 통해 국소 리프시츠 연속성을 보장하면서도 훈련 데이터를 정확하게 적합할 수 있는 새로운 2 단계 적대적 방어 모델 OTAD 를 제안하여 기존 방법들의 한계를 극복하고 다양한 데이터셋에서 우수한 성능을 입증했습니다.
이 논문은 미니배치 확률적 경사 하강법 (SGD) 을 사용하는 딥 콕스 모델의 통계적 기반을 규명하여 미니배치 최대 부분우도 추정량 (mb-MPLE) 의 일관성과 최적 수렴 속도를 증명하고, 학습률과 배치 크기의 비율 등 실용적 가이드라인을 제시하며 대규모 실제 데이터 적용 가능성을 입증합니다.
이 논문은 고차원 공간이나 복잡한 데이터셋에서 기존 방법의 한계를 극복하기 위해 어닐링 중요도 샘플링 (AIS) 과 재매개변수화 기법을 결합하여 가우시안 프로세스 잠재 변수 모델 (GPLVM) 의 변분 추론 성능을 획기적으로 개선하는 새로운 알고리즘을 제안합니다.
이 논문은 임의의 거리 공간 를 값으로 갖는 커널이 부여된 측정 공간인 '-네트워크'를 정의하고, 이를 비교하기 위한 '-그로모프-워스터슈타인 (-GW) 거리'를 제안하여 기존 다양한 거리 방법론을 통합하는 이론적 틀을 마련하고 그 거리 공간의 수학적 성질과 실용적 계산 방법을 규명합니다.
본 논문은 SHAP 및 LIME 과 같은 사후 설명 기법이 예측 성능이 높음에도 불구하고 데이터의 인과관계를 왜곡할 수 있음을 181 건의 연구와 시뮬레이션을 통해 입증하며, 이를 가설 검증 도구보다는 가설 생성을 위한 탐색적 도구로만 활용해야 함을 경고합니다.
이 논문은 기존 평가의 한계를 지적하고, 데이터 이동 및 메모리 접근 오버헤드를 고려한 정밀한 에너지 모델을 통해 특정 운영 조건 (낮은 스파이크율과 적절한 시간 창) 에서만 SNN 이 QNN 보다 에너지 효율이 우수함을 입증하고, 이를 통해 스마트워치 배터리 수명을 두 배로 늘릴 수 있음을 보여줍니다.
이 논문은 물리 시스템의 수학적 구조와 안정성을 보존하고 입력-잠재 공간 매핑을 가역적으로 만드는 새로운 결합 진동자 네트워크 (CON) 모델을 제안하여, 이미지 기반의 복잡한 비선형 역학을 학습하고 잠재 공간에서 폐형 모델 기반 제어를 가능하게 함으로써 연성 로봇 제어에 탁월한 성능을 입증합니다.
이 논문은 제한된 타겟 도메인 데이터를 보완하기 위해 복잡한 정책 전이 절차 대신 확산 모델을 활용하여 소스 도메인의 궤적을 타겟 도메인의 특성에 맞게 직접 편집하는 'xTED' 프레임워크를 제안하고, 이를 통해 다양한 실험에서 우수한 성능을 입증했습니다.
이 논문은 볼츠만 분포에서 독립적이고 동일한 분포 (IID) 를 가진 샘플을 생성하기 위해 에너지 함수를 기반으로 한 확산 기반 샘플러 'Noised Energy Matching(NEM)'과 편향과 분산을 균형 있게 조절하는 부트스트래핑 기법을 도입한 'BNEM'을 제안하며, 다양한 실험을 통해 기존 방법보다 뛰어난 성능과 견고함을 입증합니다.
이 논문은 유한 시간 마르코프 의사결정 과정 (MDP) 에서 정책 최적화의 비볼록성에도 불구하고 Polyak-Łojasiewicz-Kurdyka 조건을 통해 전역 최적 수렴을 보장하고, 특히 다기간 재고 관리 및 현금 잔액 문제와 같은 운영 모델에 대한 최초의 샘플 복잡도 보장을 제시합니다.
이 논문은 부분 관측 가능한 동적 시스템에서 숨겨진 변수와 메모리 항 간의 이론적 연결을 제공하는 모리 - 츠반지 (Mori-Zwanzig) 형식주의에 영감을 받아, 데이터로부터 비마코프 역학을 직접 학습하기 위한 상수 지연 신경 지연 미분 방정식 (NDDEs) 프레임워크를 제안하고 다양한 시뮬레이션 및 실험 데이터를 통해 기존 방법들보다 우수한 성능을 입증합니다.
이 논문은 MineDojo 환경에서 장기적인 보상을 고려한 탐색 효율성을 향상시키기 위해, 목표 조건부 점프 상태 전이와 affordance 맵을 결합하여 '장단기 세계 모델'을 구축하고 긴 상상 시야를 가능하게 하는 LS-Imagine 을 제안합니다.
이 논문은 모멘텀 SGD 를 이산 시간 동역학 시스템으로 간주하여 PAC-베이지안 분석 프레임워크를 제시함으로써, 학습 역학이 어떻게 적대적 과적합을 유발하고 적대적 가중치 교란이 손실 곡률을 억제하여 일반화 격차를 줄이는지 메커니즘을 규명합니다.
이 논문은 시스템 모델에 대한 명시적 지식이나 테스트 시간의 그래디언트 업데이트 없이도, 과거 입력 - 출력 시퀀스를 컨텍스트로 제공하는 고정된 트랜스포머가 선형 및 비선형 동적 시스템의 숨겨진 상태를 암묵적으로 추정하여 칼만 필터나 파티클 필터와 유사한 예측 성능을 달성함을 보여줍니다.