Latent Speech-Text Transformer
이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.
2316 편의 논문
이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.
이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.
이 논문은 LiDAR 기반 3D 의미 분할에서 노이즈가 있는 라벨과 도메인 일반화 문제를 동시에 해결하기 위해 제안된 듀얼 뷰 프레임워크 'DuNe'를 소개하며, 기존 방법들의 한계를 극복하고 여러 데이터셋에서 최첨단 성능을 입증합니다.
이 논문은 시각적 추론의 정확성과 검증 가능성을 높이기 위해 이미지를 실행 가능한 코드로 역추적하는 'RECODE'라는 에이전트 프레임워크를 제안하고, 이를 통해 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증했습니다.
이 논문은 기존 전문가 병합 기법보다 정교한 라우팅 제어가 가능한 전문가 가지치기가 생성 작업에서 더 우수하다는 점을 규명하고, 라우터 게이트 값과 전문가 활성화 노름을 고려한 새로운 가지치기 기준인 REAP 를 제안하여 대규모 SMoE 모델의 압축 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 인간 숙련도 수준의 신뢰성과 효율성을 갖춘 실세계 로봇 조작을 위해 모방 학습과 강화 학습을 통합하고 증류 기법을 통해 실시간 제어를 가능하게 한 'RL-100' 프레임워크를 제안하며, 다양한 실물 로봇 작업에서 100% 성공률을 기록하고 인간 개입 없이도 장기적으로 안정적으로 작동하는 것을 입증했습니다.
이 논문은 검증 가능한 답변이 없는 일반적 선호도 기반 작업에서 CoT 추론을 통합할 때 발생하는 Bradley-Terry 확률의 구조적 변화를 해결하기 위해, 일관된 몬테카를로 추정자를 기반으로 한 새로운 최적화 알고리즘인 BTPO 를 제안하고 이를 통해 기존 휴리스틱 접근법보다 안정적이고 효과적인 학습을 가능하게 함을 보여줍니다.
이 논문은 이질적인 다중 에이전트 환경에서 에이전트 간 유사도 (affinity) 에 기반한 편향 및 중요도 보정 메커니즘을 통해 독립 학습 대비 샘플 복잡도를 줄이면서도 개인화와 협업의 이점을 자동으로 조절하는 'AffPCL' 프레임워크를 제안하고, 이질성이 높은 상황에서도 선형 속도 향상을 달성할 수 있음을 이론적으로 증명합니다.
이 논문은 2D 인코더의 공간적 한계를 극복하고 RGB 만으로 강력한 3D 기하학적 사전 지식을 제공하며, 언어 추론을 보존하기 위해 공간 토큰을 행동 헤드로만 주입하는 새로운 패러다임인 FALCON 을 제안하여 다양한 시뮬레이션 및 실세계 작업에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 그래프 기반 모델이 여러 도메인에서 순차적으로 학습할 때 발생하는 catastrophic forgetting 문제를 해결하기 위해, 임베딩 시프트와 결정 경계 편향을 방지하는 지식 분리와 보존 메커니즘을 제안한 GraphKeeper 를 소개합니다.
이 논문은 다중 클래스 분류에서 과적합을 방지하면서도 기존 로지스틱 기반 보정 기법보다 우수한 성능을 달성하기 위해 구조적 정규화, 견고한 전처리 및 효율적 최적화를 결합한 새로운 사후 보정 방법론을 제안하고 그 유효성을 실험을 통해 입증합니다.
이 논문은 시계열 기반 모델의 성능 향상을 위해 기존 방법의 계산적 한계를 극복하고 시간적 의존성을 보존하는 경량 데이터 가치 평가 기법인 LTSV를 제안하며, 인-컨텍스트 파인튜닝을 통해 효율적이고 강력한 데이터 기여도 측정을 가능하게 합니다.
이 논문은 베어링 건강 상태 분류를 위해 미세 조정 없이 시계열 기반 모델의 인-컨텍스트 학습을 활용하여 다양한 운영 조건에서 효과적으로 작동하는 새로운 방법을 제안합니다.
이 논문은 추론과 학습을 분리하여 비동기 파이프라인을 구축하고, 오프-폴리시 편향 없이 온-폴리시 정확도를 유지하며 NPU 환경에서 기존 RL 프레임워크 대비 3~5 배의 학습 처리량을 달성하는 주기적 비동기 방식을 제안합니다.
본 논문은 EFISH 신호를 기반으로 전기장 분포를 재구성하는 기존 방법의 한계를 극복하고, 함수 간 매핑을 학습하는 새로운 '디코더-딥온넷 (DDON)' 모델이 더 높은 정확도, 일반화 능력 및 불완전한 입력 데이터에 대한 견고성을 제공함을 입증합니다.
이 논문은 교육용 RAG 시스템의 사실적 정확도를 높이기 위해 엔티티 링크링을 통합한 ELERAG 아키텍처를 제안하고, 도메인 특화 데이터셋에서 기존 베이스라인 및 크로스-인코더 기반 방법보다 우수한 성능을 입증했습니다.
본 논문은 계층적 구조 의미 모델링의 부족을 해결하기 위해 구조 인식 의미 증강, 정보 병목 메커니즘, 전문가 적응 라우팅 등을 도입하여 도메인 노이즈와 적대적 공격에 강인한 그래프 기반 모델 SAGFM 을 제안하고, 다양한 분류 작업에서 기존 최첨단 모델보다 뛰어난 성능과 견고성을 입증합니다.
이 논문은 강화학습의 학습 안정성과 효율성을 높이기 위해 샘플 난이도를 기반으로 힌트 비율을 동적으로 조정하고, 일관성 기반 그래디언트 조절과 롤아웃 난이도 사후확률을 활용한 이점 추정을 도입한 'ADHint'라는 새로운 방법을 제안합니다.
이 논문은 사전 정규화 (pre-norm) Transformer 에서 토큰의 크기 팽창으로 인한 실패를 해결하기 위해 임베딩 크기를 고정하고 방향성만 최적화하는 '방향성 텍스트 인버전 (DTI)'을 제안하여, 텍스트 충실도와 개념 간 매끄러운 보간을 동시에 달성합니다.
이 연구는 고밀도 표면 근전도 (HD sEMG) 를 이용한 다자유도 손가락 움직임 해독에서 공간 기술자 (MLD-BFM) 가 기존 시간 영역 특징보다 통계적으로 유의미한 성능 향상을 보이지는 않았으나, 차원 축소 방법보다 공간 해상도를 유지하는 것이 더 중요함을 확인했습니다.