Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows
이 논문은 마스킹 오디오 - 비주얼 정렬과 동적 조건부 흐름을 통해 비디오의 의미론적 및 리듬적 특성과 정밀하게 동기화된 고품질 사운드를 생성하는 'FoleyFlow' 모델을 제안합니다.
8790 편의 논문
이 논문은 마스킹 오디오 - 비주얼 정렬과 동적 조건부 흐름을 통해 비디오의 의미론적 및 리듬적 특성과 정밀하게 동기화된 고품질 사운드를 생성하는 'FoleyFlow' 모델을 제안합니다.
이 논문은 로봇 조작 및 적응적 인식에서 불확실성을 우연적 (aleatoric) 과 인식적 (epistemic) 요소로 분리하여 관측 복구와 제어 동작 조절 등 유형별 맞춤형 대응을 가능하게 함으로써, 기존 단일 불확실성 기반 접근법보다 성능을 획기적으로 향상시키는 경량 사후 프레임워크 'TRIAGE'를 제안합니다.
이 논문은 헬리콥터 기어박스 등 안전이 중요한 시스템의 상태 감시를 위해 정상 데이터만을 기반으로 확률적 이상 탐지, 불확실성 정량화 및 해석 가능성을 결합한 새로운 방법론을 제안하고 실험을 통해 검증합니다.
본 논문은 그래프 이상 탐지 시 발생하는 동질성 편차와 확장성 문제를 해결하기 위해, 노드별 적응적 융합과 주파수 선호도 가이드 손실 함수를 도입하여 대규모 그래프에서도 효율적이고 정확한 이상 탐지가 가능한 SAGAD 프레임워크를 제안합니다.
본 논문은 인간 선호도의 불일치로 인한 평균 보상 최대화의 취약성을 해결하기 위해, 재학습 없이 KL-강건한 위험 민감적 의사결정을 통해 응답을 재순위화하는 추론 시 방법인 DARC 를 제안합니다.
이 논문은 JAX 기반의 'Eventax' 프레임워크를 소개하여, 미분 가능한 ODE 솔버를 활용하여 임의의 뉴런 모델에 대해 정확한 기울기를 계산하면서도 높은 모델 유연성을 제공하는 방법을 제안합니다.
이 논문은 확산 과정의 역학을 기반으로 조건부 및 무조건부 분포 간의 스코어 불일치에 대한 엄격한 상한을 이론적으로 규명하고, 이를 바탕으로 고정된 가중치 전략의 한계를 극복하는 새로운 훈련 불필요 플러그인 방법인 제어 Classifier-Free Guidance(CFG) 를 제안합니다.
이 논문은 장기 시계열 예측 분야에서 MSE 나 MAE 와 같은 단일 점수 기반의 평가 관행이 실제 응용 목표와 구조적으로 불일치할 수 있음을 지적하고, 통계적 충실도, 구조적 일관성, 의사결정 관련성을 통합한 다차원 평가 프레임워크를 제안하여 벤치마크 순위 경쟁에서 의미 있는 예측 기술 발전으로의 전환을 촉구합니다.
이 논문은 칼만 필터의 잡음 공분산 추정을 위해 혁신 수준의 적응적 임계값 처리와 Huber 비용 함수 기반의 IRLS 프레임워크를 결합한 'ALS-IRLS' 알고리즘을 제안하여, 기존 ALS 방법의 민감성을 극복하고 이상치 존재 하에서도 오차 범위를 두 자릿수 이상 줄이며 이상적인 오라클 하한선에 근접한 성능을 달성함을 보여줍니다.
이 논문은 텍스트가 풍부한 네트워크 (TRN) 의 노드 표현 학습에 계층적 지식을 효과적으로 통합하기 위해, 유사도 기반 군집화와 LLM 정제를 통해 암시적 계층 분류 체계를 구축하고 이를 표현 학습에 반영하는 TIER 모델을 제안하여 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 블록체인 프로토콜을 통해 허가 없는 참여를 허용하고 SparseLoCo 최적화기를 활용한 Covenant-72B 를 통해, 대규모 글로벌 분산 학습이 중앙 집중식 모델과 경쟁력 있는 성능을 내며 실현 가능함을 입증했습니다.
이 논문은 영어, 중국어, 독일어, 프랑스어, 우르두어 등 5 개 언어를 대상으로 한 실험을 통해, 명시적 추론보다 잠재 공간에서의 연속적 추론 (Continuous CoT) 이 저자원 언어와 제로샷 설정에서 더 강력한 성능을 보이며 추론 과정을 29 배에서 50 배까지 압축하는 효율적인 다국어 추론 해결책임을 입증했습니다.
이 논문은 자율주행의 안전성을 높이기 위해 비전 - 언어 모델의 언어 표현을 LiDAR 객체 특징과 정렬하여, 훈련 데이터에 없는 분포 외 (OOD) 객체를 제로샷 분류 문제로 해결하는 새로운 ALOOD 방법을 제안합니다.
이 논문은 제한된 데이터와 높은 학습 비용으로 인해 전문 분야 적용이 어려운 대규모 언어 모델 (LLM) 의 도메인 적응 문제를 해결하기 위해, 지식 기반과 다중 에이전트 논쟁 시스템, 그리고 LLM 기반 서로게이트를 활용한 자동화된 프레임워크 'AutoAdapt'를 제안하고, 이를 통해 기존 자동 머신러닝 기법 대비 평균 25% 의 정확도 향상을 달성했다고 요약할 수 있습니다.
본 논문은 W4A4 및 W4A8 설정에서 기존 저랭크 적응 기반 방법들의 한계를 극복하고, 활성화 및 가중치 중요도를 고려한 단일 저랭크 보상 행렬을 활용한 SERQ 를 제안하여 정밀도 저하 없이 효율적인 LLM 양자화를 가능하게 합니다.
본 논문은 수요 불확실성과 지역 간 파급 효과를 고려한 순차적 서비스 지역 설계 문제를 해결하기 위해 실옵션 분석과 트랜스포머 기반 근접 정책 최적화 (TPPO) 알고리즘을 통합한 새로운 프레임워크를 제안하고, 이를 통해 기존 방법론보다 빠른 수렴 속도와 더 높은 투자 가치의 순서를 도출할 수 있음을 입증합니다.
이 논문은 현재 TabPFN 과 같은 표본 기반 모델의 회귀 평가가 평균값 예측에 치중되어 있다는 한계를 지적하고, 확률적 회귀의 품질을 평가하기 위해 적절한 스코어링 규칙 (특히 CRPS) 을 도입하고 모델의 유도 편향을 고려한 파인튜닝 또는 프롬프트 기반 접근의 필요성을 주장합니다.
이 논문은 비동기 연동 학습에서 구배의 노후화 (staleness) 를 측정하기 위해 유클리드 거리를 포함한 다양한 거리 척도를 탐구하여, 이질적인 환경과 비-IID 데이터 설정 하에서 모델의 수렴 속도와 성능을 향상시키는 견고한 집계 방법을 제시합니다.
이 논문은 재규격화 인자 없이도 특이 확률 편미분방정식 (예: 및 모델) 의 해와 그 잔차 간의 의존성을 효과적으로 포착하기 위해 FiLM 을 활용한 새로운 Wiener Chaos Expansion 기반 신경 연산자 (WCE-FiLM-NO) 를 제안하고 그 우수성을 입증합니다.
이 논문은 LLM 의 내재적 계속성 추동과 정렬을 통해 학습된 안전 방어 메커니즘 간의 경쟁이 '계속성 유발' 지시어 이동에 따른 재프락킹 성공을 초래한다는 것을 어텐션 헤드 수준의 기계적 해석을 통해 규명하고, 이를 통해 모델 안전성 향상을 위한 새로운 통찰을 제공합니다.