Global Minimizers of Sigmoid Contrastive Loss
이 논문은 시그모이드 손실 함수에 학습 가능한 역온도와 편향을 도입하여 -군집이라는 새로운 조합론적 구조를 통해 SigLIP 의 성공, 모달리티 간격 현상, 그리고 고품질 표현을 위한 필요 차원을 이론적으로 설명하고, 이를 기반으로 한 손실 함수의 재파라미터화를 제안합니다.
4175 편의 논문
이 논문은 시그모이드 손실 함수에 학습 가능한 역온도와 편향을 도입하여 -군집이라는 새로운 조합론적 구조를 통해 SigLIP 의 성공, 모달리티 간격 현상, 그리고 고품질 표현을 위한 필요 차원을 이론적으로 설명하고, 이를 기반으로 한 손실 함수의 재파라미터화를 제안합니다.
이 논문은 메탄 위성 및 항공 이미징 분광학에서 메탄 농도 추정의 정확도를 높이기 위해 U-Net 및 SCAN 과 같은 딥러닝 모델이 기존 방법보다 구름과 구름 그림자 분할 성능을 크게 향상시킨다는 것을 입증합니다.
이 논문은 23 개의 시각 질문 응답 벤치마크에 대한 대규모 실증 연구를 통해 현재 멀티모달 평가가 모달리티 간 상호작용보다 개별 모달리티 의존성에 과도하게 의존하고 있음을 규명하고, 이를 바탕으로 보다 원칙적인 벤치마크 설계 방향을 제시합니다.
이 논문은 레거시 시스템의 업그레이드 비용과 운영 중단 문제를 해결하기 위해 ML 모델 수명 주기와 생산 환경을 전략적으로 분리하는 경량 API 기반 프레임워크를 제안하여, 인간 개입을 통한 상호작용적 제어와 무중단 유지보수를 가능하게 함으로써 제조업의 경쟁력을 강화하는 방안을 제시합니다.
이 논문은 기존 프롬프트 기반 지속 학습 방법들의 효율성과 성능 간 트레이드오프를 해결하기 위해 희소 혼합 전문가 (MoE) 구조를 도입하여 프롬프트를 여러 '전문가'로 구성하고, 동적 선택 메커니즘과 적응형 노이즈 등을 통해 간섭을 줄이면서 파라미터와 계산 비용을 대폭 절감한 'SMoPE' 프레임워크를 제안합니다.
이 논문은 다양한 추론 모델과 예산 간의 성능과 비용 트레이드오프를 해결하기 위해, 심리측정학에 영감을 받아 질문 난이도와 모델 능력을 학습하여 최적의 모델 - 예산 쌍으로 쿼리를 라우팅하는 경량화되고 해석 가능한 RADAR 프레임워크를 제안합니다.
이 논문은 다양한 연산 원소의 조합을 체계적으로 탐색하여 Llama 3.2 보다 성능이 우수하고 효율적인 하이브리드 신경망 아키텍처를 자동 설계하는 프레임워크 'Composer'를 제안합니다.
이 논문은 상호정보량 기반 확산 모델을 활용하여 고차 시각 피질의 뉴런 집단이 객체 자세 및 범주 간 변환 등 의미 있는 시각적 특징으로 구조화된 잠재 하위 공간에 선택적으로 인코딩되어 있음을 규명한 MIG-Vis 방법을 제안합니다.
이 논문은 다중 에이전트 LLM 시스템에서 협력 유도 측면에서 직접적인 의사소통이 curriculum 기반 학습보다 훨씬 효과적이며, 오히려 특정 커리큘럼 설계는 에이전트의 협력 의지를 약화시킬 수 있음을 보여줍니다.
이 논문은 웨어러블 EEG 를 활용한 수면 단계 분류에서 라벨 효율성을 극대화하기 위해 자기지도 학습 (SSL) 을 체계적으로 평가한 결과, SSL 이 라벨이 부족한 상황에서도 기존 지도 학습보다 최대 10% 높은 성능을 달성하고 임상 수준 정확도를 보여준다는 것을 입증했습니다.
이 논문은 지정학적 충격이 국가부도 리스크를 직접적으로 재평가하는 반면, 지경제학적 충격은 통화정책과 글로벌 금융 사이클을 통해 전파된다는 '가위 패턴'을 2018~2025 년 42 개국의 데이터를 통해 실증적으로 규명하고, 이에 따라 유동성 공급이 금융 사이클 매개 스프레드 확대에는 대응할 수 있으나 지정학적 리스크 프리미엄의 지속적 요소에는 한계가 있음을 시사합니다.
이 논문은 기존 음성 활동 감지 (VAD) 모델의 특정 계층에 대해 하이퍼네트워크를 통해 개인화된 가중치를 생성하는 'HyWA'를 제안하여, 기존 스피커 조건부 방법보다 성능을 향상시키고 동일한 아키텍처 재사용을 통한 배포 용이성을 확보했다고 요약할 수 있습니다.
이 논문은 교차 모달 어텐션 융합, Grad-CAM++ 기반 설명, 그리고 '발견 - 수정' 피드백 루프를 통합한 설명 가능하고 편향 감지형 생성 프레임워크를 제안하여, 다중 모달 데이터와 텍스트 분류 벤치마크에서 기존 모델보다 뛰어난 성능과 공정성을 입증했습니다.
이 논문은 기존 상대적 지수의 한계를 극복하고 데이터 구조에 의존하지 않는 새로운 절대적 군집 지수를 제안하여 군집의 응집도와 분리도를 정량화하고 최적의 군집 수를 결정하는 방법을 제시합니다.
이 논문은 실제 데이터의 공분산 행렬과 타겟 함수의 다항식 분해 두 가지 통계량만으로 커널 회귀의 학습 곡선을 예측하는 '헤르미트 고유구조 가정 (HEA)'을 제안하고, 이를 통해 실제 이미지 데이터에서 MLP 의 학습 패턴까지 설명할 수 있음을 보여줍니다.
이 논문은 할인 및 평균 보상 설정 모두에서 최적 정책이 유일하고 단일 체인 (unichain) 일 때, 기존 이론보다 빠른 기하급수적 수렴을 보장하는 통합된 기하학적 분석을 통해 가치 반복 (Value Iteration) 알고리즘의 이론적 수렴 보장을 실험적 관찰과 일치하도록 재정의합니다.
본 논문은 LLM 추론 시 공유 접두사 프롬프트를 활용한 KV 캐시 재사용 시 발생하는 메모리 문제를 해결하기 위해, PCA 기반 특징 비상관화, 적응형 양자화 및 엔트로피 부호화를 결합하여 모델 정확도 저하 없이 최대 20 배 이상의 압축률을 달성하는 경량 변환 코더 'KVTC'를 제안합니다.
이 논문은 기상 패턴, 발전 기술, 가격 형성 간의 복잡한 인과 관계를 학습하고 가변적 인과 그래프를 구축하여 다양한 재생에너지 시나리오에 대한 반사실적 추론이 가능한 에너지 시장용 증강 시간 계열 인과 모델 (ATSCM) 을 제안합니다.
이 논문은 기존 생성 모델의 한계를 극복하고 반사실적 분석을 가능하게 하기 위해 변이 오토인코더와 구조적 인과 모델을 결합한 '시계열 신경 인과 모델 VAE(TNCM-VAE)'를 제안하며, 인과적 제약을Decoder 아키텍처와 인과적 와asserstein 거리를 통해 구현하여 금융 시장 시뮬레이션의 정밀도를 크게 향상시켰음을 보여줍니다.
이 논문은 에너지 제약과 부분 관측 가능성 하에서 광무선 (OWC) 과 전파 (RF) 를 통합한 하이브리드 IoT 네트워크의 자원 할당 문제를 해결하기 위해, 그래프 신경망 (GNN) 과 트랜스포머를 결합한 다중 태스크 학습 프레임워크인 DGET 을 제안하여 최적의 스케줄링을 달성하고 정보의 신선도 (AoI) 를 크게 개선함을 보여줍니다.