When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
이 논문은 다양한 데이터로 LoRA 파인튜닝을 수행할 경우, Qwen-0.5B 기반의 소형 LLM TTS 시스템이 음질, 화자 유사도, 신호 대 잡음비 측면에서 고정된 베이스 모델보다 우수한 성능을 발휘함을 입증합니다.
2385 편의 논문
이 논문은 다양한 데이터로 LoRA 파인튜닝을 수행할 경우, Qwen-0.5B 기반의 소형 LLM TTS 시스템이 음질, 화자 유사도, 신호 대 잡음비 측면에서 고정된 베이스 모델보다 우수한 성능을 발휘함을 입증합니다.
이 논문은 가우시안 혼합 모델 클러스터링의 다중성을 활용하여 반복적인 선택 과정을 통해 '역사적 합의 (Historical Consensus)'를 형성함으로써, 아키텍처 제약이나 하이퍼파라미터 튜닝 없이도 후방 붕괴를 근본적으로 방지하는 새로운 VAE 학습 기법을 제안합니다.
이 논문은 기대값 기반의 안전성 제약을 전체 비용 분포를 비교하는 1 차 확률적 우세 (FSD) 제약으로 대체하고, 최적 수송 프레임워크와 양자 가중치를 통해 보편적 스펙트럼 위험 측도를 통제하는 새로운 정렬 프레임워크인 RAD 를 제안하여 안전 RLHF 의 강건성과 위험 민감성을 향상시킵니다.
이 논문은 손과 물체의 접촉 패턴을 체계적으로 탐색하여 다양한 정교한 조작 작업을 위한 일반 목적의 강화학습을 가능하게 하는 '접촉 커버리지 유도 탐색 (CCGE)' 방법을 제안하고, 이를 통해 학습 효율성과 성공률을 크게 향상시켰음을 입증합니다.
이 논문은 객체 탐지 모델의 공간적 위치 정보를 시각-언어 모델에 명시적으로 결합하여 카운팅 오류를 줄이고 추론 시간을 단축하는 'GroundCount' 프레임워크를 제안하며, 이를 통해 다양한 모델에서 카운팅 정확도를 유의미하게 향상시킵니다.
이 논문은 머신러닝과 자연어 처리 기반의 인공지능이 요구사항 관리부터 코드 생성 및 테스트까지 반복적 작업을 자동화하여 애자일 개발의 효율성을 높이고 소프트웨어 공학의 혁신을 촉진한다는 실증적 연구 결과를 제시합니다.
이 논문은 16 명의 전문가 인터뷰를 통해 프런티어 AI 시스템의 고유한 특성으로 인해 인간 업리프트 연구 (RCT) 의 내적·외적·구성 타당성 가정이 어떻게 도전받는지 분석하고, 이러한 방법론적 난제를 해결하기 위한 실용적 방안과 고위험 의사결정 시 증거의 적절한 활용 범위를 제시합니다.
이 논문은 컴퓨터 과학자와 미술사가의 협업을 통해 비전 - 언어 모델이 예술적 스타일을 인식하는 메커니즘을 분석한 결과, 추출된 개념의 90% 가 미술사가들에 의해 관련성이 있다고 평가되었으며, 모델이 때로는 형식적 대비와 같은 다른 방식으로 개념을 이해하여 스타일 예측에 성공함을 밝혔습니다.
이 논문은 임의의 유한 단순 그래프를 9 개 문자 명령어 알파벳으로 구성된 compact 한 문자열로 인코딩하여, 모든 문자열이 유효한 그래프로 디코딩되고 그래프 편집 거리와 강한 상관관계를 보이는 IsalGraph 라는 새로운 표현 방법을 제시합니다.
이 논문은 텍스트-음악 생성 모델을 비디오 이벤트 곡선으로만 미세 조정하고 추론 시 비디오 이벤트 곡선으로 대체하는 V2M-Zero 를 제안하여, 짝지어진 데이터 없이도 비디오와 음악 간의 시간적 정렬을 달성함을 보여줍니다.
이 논문은 전통적인 열화상 기법의 한계를 극복하고 경성 물리 법칙을 준수하는 미분 가능 물리 솔버를 활용하여 3D 열 확산 장을 연속 신경장으로 파라미터화함으로써, 비파괴 검사를 위한 정량적 3D 재료 특성 재구성 및 결함 위치 파악의 정확도를 획기적으로 향상시킨 'NeFTY' 프레임워크를 제안합니다.
이 논문은 RGB-깊이 이미지를 표면 광장 (Surface Light Field) 샘플로 활용하여 기하학과 뷰 의존적 외관을 통합된 3D 잠재 공간으로 토큰화하고, 이를 기반으로 단일 이미지에서 조명과 재질이 일관된 고품질 3D 객체를 생성하는 'LiTo'를 제안합니다.
이 논문은 유튜브 코미디 영상 분석을 통해 학습된 LLM 비평가와 다양한 역할을 수행하는 에이전트 군집을 활용하여, 전문적인 스케치 코미디 수준의 자동화 AI 시스템 'COMIC'을 제안하고 그 성능을 입증합니다.
이 논문은 자율주행 환경에서 차량이나 장애물로 인해 가려진 보행자의 키 포인트를 수치 분포 기반의 생성적 적대 신경망 (SDR-GAIN) 을 통해 실시간으로 정확하게 복원하는 새로운 방법을 제안하고 COCO 및 JAAD 데이터셋에서 기존 방법보다 우수한 성능과 마이크로초 단위의 추론 속도를 입증했습니다.
이 논문은 새로운 피험자의 훈련 데이터 의존도를 줄이면서 RSVP-BCI 의 해독 성능을 향상시키기 위해, EEG 신호의 시공간 및 스펙트로그램 정보를 융합하는 트랜스포머 아키텍처와 피험자별 어댑터를 제안합니다.
이 논문은 다양한 카메라 각도와 가려짐으로 인한 어려움을 극복하기 위해 3D 축구장 모델과 검출된 필드 라인을 비선형 최적화 과정에 활용하는 'PnLCalib'라는 새로운 최적화 기반 보정 파이프라인을 제안하여 기존 방법들보다 향상된 정확도와 견고성을 달성했다고 설명합니다.
이 논문은 사전 훈련된 텍스트 - 이미지 확산 모델의 강건한 지각 능력을 활용하여 제한된 데이터로도 뛰어난 일반화 성능을 보이는 새로운 블라인드 이미지 품질 평가 방법인 DP-IQA 를 제안하고, 이를 경량화하여 다양한 자연 환경 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 오픈드라이브 (OPENDRIVE) 맵 데이터와 그래프 신경망을 활용해 과거 테스트 데이터를 기반으로 고위험 시나리오를 예측·선별하는 'ScenarioFuzz'를 제안함으로써, 기존 방법 대비 시간 비용을 60.3% 절감하고 단위 시간당 발견되는 오류 시나리오를 103% 증가시켜 자율주행 시스템의 안전성을 검증하는 새로운 패러다임을 제시합니다.
이 논문은 자율주행 차량의 계산 부하와 호환성 문제를 해결하기 위해 단일 에이전트 학습보다 확장성이 뛰어나고 다양한 트래픽 유형에서 지연 시간을 크게 단축하는 분산형 멀티 에이전트 Q-러닝 기반 HD 맵 업데이트 솔루션을 제안하고 평가합니다.
이 논문은 부분 관측성과 희소한 보상 신호 하에서 분산형 환경에 있는 이종 다중 에이전트의 협력을 향상시키기 위해 그래프 신경망 (GNN) 기반의 내재적 보상을 활용하는 'CoHet' 알고리즘을 제안하고, 이를 통해 기존 최첨단 방법보다 우수한 성능을 입증합니다.