Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition
이 논문은 오디오와 비디오의 서로 다른 샘플링 주파수 문제를 해결하기 위해 시간 정렬 로터리 위치 임베딩 (TaRoPE) 과 교차 시간 매칭 손실 (CTM) 을 도입한 멀티모달 자기주의 네트워크를 제안하여, 오디오 - 비디오 감정 인식의 성능을 향상시켰습니다.
55 편의 논문
이 논문은 오디오와 비디오의 서로 다른 샘플링 주파수 문제를 해결하기 위해 시간 정렬 로터리 위치 임베딩 (TaRoPE) 과 교차 시간 매칭 손실 (CTM) 을 도입한 멀티모달 자기주의 네트워크를 제안하여, 오디오 - 비디오 감정 인식의 성능을 향상시켰습니다.
이 논문은 독립 성분 분석과 웨이블릿 변환을 기반으로 한 8 차원 입력 벡터를 사용하여 이미지 내 이미지 스테가노그래피의 높은 검출 가능성 (최대 84.6% 정확도) 을 입증하고, 키 없는 추출 네트워크와 같은 기존 방법론을 통한 취약성을 규명합니다.
이 논문은 대규모 오디오 언어 모델 (LALMs) 이 현재 콘텐츠 중심 패러다임에서 간과하는 부언어적 단서를 재발견하기 위해 계층별 분석을 수행하고, 선택적 계층 미세조정과 보조 이중 수준 분류 헤드를 포함한 부언어적 강화 미세조정 (PE-FT) 프로토콜을 제안하여 모델의 부언어적 인식 능력을 효과적으로 향상시킨다는 내용입니다.
이 논문은 음악의 스타일과 사용자 프롬프트를 통합하여 다양한 스타일의 춤을 생성하고, 공간 - 시간 마스킹 메커니즘을 통해 궤적 기반 생성, 춤 끼워넣기, 춤 인페인팅 등 다양한 제어 작업을 수행할 수 있는 '스타일 가이드 모션 확산 (SGMD)' 모델을 제안합니다.
이 논문은 단일 RGB 이미지나 평면 비디오에서 MiDaS 깊이 추정, OpenCV 및 Telea 인페인팅, 그리고 DIBR 알고리즘을 활용하여 다중 시점의 가상 이미지를 생성하고 Quilt 콜라주나 자유 시점 LCD 디스플레이에서 현실적인 3D 경험을 제공하는 오픈소스 라이브러리 'altiro3D'를 소개합니다.
이 논문은 원본 아바타의 일관성을 해치지 않으면서 텍스트 명령에 따라 애니메이션 3D 인간 텍스처를 고품질로 편집할 수 있도록 기존 Score Distillation Sampling(SDS) 을 개선한 'InstructHumans' 프레임워크를 제안합니다.
이 논문은 하이브리드 윈도우 어텐션, 보상 역전파, 토큰 길이 기반 학습 전략 등을 통해 학습 및 추론 효율성과 비디오 생성 품질을 동시에 극대화한 고품질 비디오 생성 프레임워크 'EasyAnimate'를 제안합니다.
이 논문은 축구 방송에서 회전된 로고의 정확한 검출을 위해 회전 감지 바운딩 박스 (OBB) 와 언어 기반 에이전트 계층을 통합한 'ExposureEngine'을 제안하여 스폰서 노출 분석의 정확성과 자동화를 혁신적으로 개선했음을 보여줍니다.
이 논문은 확산 기반 이미지 편집 기술이 고안된 무결성 유지 목적과 달리, 역방향 생성 과정에서 워터마크 신호를 노이즈로 간주하여 제거함으로써 기존 robust 워터마킹 시스템의 무결성을 이론적 및 실증적으로 붕괴시킨다는 점을 규명하고, 이에 대한 윤리적 함의와 새로운 설계 지침을 제시합니다.
이 논문은 변형 가능한 상태 공간 모델과 릴레이 토큰 메커니즘을 도입하여 비디오 및 오디오의 조작 구간을 정밀하게 식별하는 새로운 프레임워크인 'DeformTrace'를 제안하며, 기존 방법들의 한계를 극복하고 적은 파라미터로 최첨단 성능을 달성함을 보여줍니다.
이 논문은 텍스트, 음성, 시각적 단서를 통합한 다중 모달 유머 탐지를 위해 강화 학습 기반의 'SarcasmMiner' 프레임워크를 제안하며, 구조화된 추론과 이중 궤도 증류 전략을 통해 MUStARD++ 데이터셋에서 기존 방법론 대비 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 3DMM 의 표정 파라미터를 소스 이미지에 직접 전달하여 3D 사전 지식을 생성하는 삼면체 (tri-plane) 생성기와 외모와 표정을 분리하는 대비적 사전 학습 프레임워크를 통해, 단일 이미지에서 외모가 유지된 채 표정과 카메라 시점을 제어할 수 있는 3D 인식형 얼굴 애니메이션 방법인 Export3D 를 제안합니다.
이 논문은 텍스트, 가사, 오디오 프롬프트 등 복합 멀티모달 지시를 기반으로 한 음악 생성 모델을 평가하기 위해 대규모 선호도 데이터셋, 인간 주석 코퍼스, 통합 벤치마크인 CMI-RewardBench 및 효율적인 보상 모델 (CMI-RM) 을 제안하여 음악 생성의 정밀한 정렬과 인간 평가와의 높은 상관관계를 입증합니다.
본 논문은 텍스트 내 개체 언급 순서가 이미지 생성 모델의 공간 배치에 과도하게 영향을 미치는 '순서 - 공간 편향 (OTS)' 현상을 규명하고, 이를 측정하는 벤치마크를 제안하며 데이터 기반의 원인을 분석하여 생성 품질을 유지하면서 편향을 완화하는 해결책을 제시합니다.
음시각적 작업의 이질성으로 인한 부정적 전이를 해결하기 위해 명시적 추론이 포함된 대규모 데이터셋 (AV-UIE v2) 과 작업 간 상호작용을 동적으로 조정하는 I-LoRA 아키텍처를 제안하여, 단일 작업 학습을 능가하는 포괄적인 오디오 - 비주얼 장면 이해 모델 Crab를 개발했습니다.