Diffusion Language Models Are Natively Length-Aware
이 논문은 Diffusion 언어 모델이 고정된 길이로 생성되는 비효율성을 해결하기 위해, 잠재 프롬프트 표현을 기반으로 필요한 출력 길이를 추정하여 생성 전 컨텍스트 창을 동적으로 잘라냄으로써 연산 비용을 대폭 절감하면서도 성능을 유지하거나 향상시키는 제로샷 메커니즘을 제안합니다.
9353 편의 논문
이 논문은 Diffusion 언어 모델이 고정된 길이로 생성되는 비효율성을 해결하기 위해, 잠재 프롬프트 표현을 기반으로 필요한 출력 길이를 추정하여 생성 전 컨텍스트 창을 동적으로 잘라냄으로써 연산 비용을 대폭 절감하면서도 성능을 유지하거나 향상시키는 제로샷 메커니즘을 제안합니다.
이 논문은 기존 시계열 이상 탐지 평가 지표의 한계를 극복하고, 탐지 의미론에 기반한 파티셔닝 전략과 전체 임계값 스펙트럼을 고려한 새로운 메트릭인 DQE 를 제안하여 보다 안정적이고 해석 가능한 평가를 가능하게 합니다.
이 논문은 미래 보상의 부분 집합을 최적화하여 더 정확한 기울기 추정을 가능하게 하는 '부분 정책 경사 (Partial Policy Gradients)' 방법을 제안하고, 이를 다양한 대화 정렬 문제에서 다양한 정책 클래스 (전체 계획, 탐욕적, K-스텝 룩어헤드 등) 의 성능 비교를 통해 검증합니다.
이 논문은 뇌과학에서 영감을 받은 확률적 잠재 변수 모델인 예측 코딩 그래프 (PCG) 가 다층 퍼셉트론을 포함하는 수학적 초집합임을 증명하여, 예측 코딩 네트워크를 현대 기계학습의 맥락에 더 강력하게 위치시키고 신경망 위상학 연구의 중요성을 재확인합니다.
이 논문은 입력 상태에 공간적 일관성을 가진 노이즈 (예: Perlin 노이즈) 를 가하는 앙상블 학습 전략을 통해 추가적인 학습 비용 없이 해상도 표면 온도 확률 예보의 보정 성능을 향상시키는 그래프 신경망 (GNN) 기반 방법을 제안하고 그 유효성을 입증합니다.
이 논문은 다양한 K 값의 벡터 검색 쿼리에 대해 높은 정확도와 성능을 유지하면서도 전처리 비용을 크게 절감하는 새로운 학습 기반 검색 방법인 OMEGA 를 제안합니다.
이 논문은 인공 알파벳의 레이블된 데이터를 기반으로 한 대비 학습으로 교사를 훈련한 후, 역사적 문자 체계에 대한 비지도 지식 증류를 적용하여 지도 학습과 비지도 발견을 연결하는 2 단계 프레임워크를 제안하여, 진화적 관계에 대한 정답이 없어도 글자 인식과 문자 군집화를 효과적으로 수행할 수 있음을 보여줍니다.
이 논문은 자기-어텐션 메커니즘 없이도 토큰이 군집화되는 심층 트랜스포머의 행동을 설명하기 위해 무작위 이차 형식 (RQF) 모델을 도입하고, 공통 잡음에 의한 동기화 현상을 분포 및 경로적 관점에서 분석합니다.
이 논문은 보행 중 발 높이 (foot clearance) 시계열 데이터에 위상 데이터 분석 (TDA) 을 적용하여 생성된 위상 기술자가 파킨슨병과 혈관성 파킨슨증의 감별 진단 정확도를 향상시킨다는 것을 입증했습니다.
이 논문은 척수 손상 환자의 건강 모니터링을 위해 웨어러블 센서 데이터를 기반으로 중앙 집중식 XGBoost 와 동등한 성능을 내면서도 구조적 이점을 유지하는 새로운 분산 머신러닝 프로토콜 FedSCS-XGB 를 제안하고 이론적 수렴성과 실증적 유효성을 입증합니다.
이 논문은 여러 작업 간 특이 공간의 방향적 일관성을 유지하기 위해 작업 벡터의 에너지 분포를 균형화하고 공유 직교 부분 공간에 정렬하는 'DC-Merge' 방법을 제안하여 모델 병합 성능을 획기적으로 개선합니다.
이 논문은 소프트맥스 기반 모델의 경사 흐름이 다양한 손실 함수에 걸쳐 저엔트로피 해를 향해 출력을 극화시키는 보편적 메커니즘을 규명함으로써, 어텐션 싱크와 같은 트랜스포머의 실증적 현상에 대한 이론적 근거를 제시합니다.
이 논문은 고차원 상관 데이터의 다중공선성 문제를 해결하기 위해 단일 모수 주성분 회귀와 정규화를 통합하여 변수 선택과 계수 추정의 안정성을 동시에 확보하는 새로운 적응형 페널티 추정 방법인 SPPCSO 를 제안하고 그 유효성을 이론적 및 실증적으로 입증합니다.
이 논문은 에이전트 행동의 정밀한 진단과 최적 정책의 기준을 제공하여 강화학습 평가를 경험적 벤치마킹에서 엄격한 과학적 분석으로 전환할 수 있도록 돕는 '합성 모니터링 환경 (SMEs)'이라는 무한한 연속 제어 작업 세트를 제안합니다.
이 논문은 잡음 데이터에 강인하고 기하학적 비합리성을 해결하며 일반화 능력을 보장하는 새로운 경계 비대칭 탄성 넷 손실 함수를 기반으로 한 BAEN-SVM 모델을 제안하고, 그 이론적 성질을 증명하며 비볼록 최적화 문제를 효율적으로 해결하는 알고리즘을 개발하여 실험을 통해 기존 SVM 보다 우수한 성능을 입증했습니다.
이 논문은 이산 및 연속 변수를 효율적으로 분리하고 조율하는 학습 기반 2 단계 프레임워크인 DeCoST 를 제안하여, 시간 창과 가변 수익이 포함된 오리엔티어링 문제 (OPTWVP) 의 해법 품질과 계산 효율성을 기존 최첨단 알고리즘보다 크게 향상시켰음을 보여줍니다.
이 논문은 방사선학 질문 응답에서 에이전트 기반 검색 증강 추론이 다양한 모델 간 의사결정 분산을 줄이고 합의 강도를 높여 집단적 신뢰성을 향상시킨다고 밝히며, 단순 정확도나 합의도만으로는 시스템의 신뢰성을 완전히 평가할 수 없음을 시사합니다.
이 논문은 퍼지 인지 지도 (FCM) 를 신경망으로 구현하고 랑주뱅 미분 동역학을 활용하여 과적합을 방지하며 인과 관계 패턴을 학습하고 출력 노드 값을 역해석하여 수정 기준을 도출하는 FHM 모델의 설계와 여러 데이터셋에 대한 성능 평가를 다룹니다.
이 논문은 인과적 주의 메커니즘의 정보 흐름 관점을 재해석하여, 초기 토큰의 누적 의존성을 고려한 토큰 위치 감쇠 전략과 출력 민감도 기반 메트릭을 도입한 'Stem' 모듈을 제안함으로써 긴 문맥 처리 시 계산 복잡성과 사전 채우기 지연을 줄이면서도 높은 정확도를 달성합니다.
이 논문은 PINN 의 느린 학습 속도와 기존 PIELM 의 무작위 초기화 한계를 극복하기 위해, 확률적 적응 샘플링 기법을 통해 PIELM 의 커널을 물리 현상이 집중된 영역에 자동으로 배치하여 경계층이 있는 강성 PDE 를 고정밀도로 빠르게 해결하는 GMM-PIELM 프레임워크를 제안합니다.