DARS: Dysarthria-Aware Rhythm-Style Synthesis for ASR Enhancement
이 논문은 정상 및 구음장애 발화 간의 대비적 선호도를 기반으로 리듬 예측기를 최적화하고 병리적 음향 스타일을 시뮬레이션하는 'DARS' 프레임워크를 제안하여, 합성 구음장애 발화 데이터를 활용한 Whisper 기반 자동음성인식 시스템의 단어오류율을 기존 최선 방법 대비 54.22% 상대적으로 감소시켰음을 보여줍니다.
2618 편의 논문
이 논문은 정상 및 구음장애 발화 간의 대비적 선호도를 기반으로 리듬 예측기를 최적화하고 병리적 음향 스타일을 시뮬레이션하는 'DARS' 프레임워크를 제안하여, 합성 구음장애 발화 데이터를 활용한 Whisper 기반 자동음성인식 시스템의 단어오류율을 기존 최선 방법 대비 54.22% 상대적으로 감소시켰음을 보여줍니다.
이 논문은 프레임 레벨 어댑터와 다중 웨이트-k 지식 증류를 통해 지연 시간을 줄이고 ASR 오류에 대한 내성을 강화하며, UASpeech 데이터셋에서 기존 최첨단 모델 대비 54.25% 의 단어 오류율 감소와 4.67 점의 MOS 를 달성한 엔드 - 투 - 엔드 동시 구 dysarthria 음성 재구성 시스템을 제안합니다.
이 논문은 기존 그래프 토큰화 LLM 의 텍스트 편향을 해결하기 위해 그래프 정보를 명시적으로 재구성하는 '재구성 그래프 지시 미세조정 (RGLM)' 파이프라인을 제안하고, 이를 통해 그래프와 텍스트 간의 정렬 효과를 이론적으로 증명하고 실험적으로 검증합니다.
SciDER 는 실험에서 수집된 원시 데이터를 자동으로 처리하고 가설을 생성하며 코드를 실행하는 데이터 중심의 종단 간 과학 연구 자동화 시스템으로, 자기 진화 메모리와 비판자 피드백 루프를 통해 기존 모델보다 우수한 성능을 입증했습니다.
이 논문은 대규모 언어 모델 (LLM) 이 실제 환경에서 다중 턴 대화를 수행할 때 신뢰성이 현저히 저하된다는 것을 체계적으로 평가하고, 지시 이탈 및 의도 혼란 등 주요 실패 요인을 규명하여 신뢰할 수 있는 배포를 위한 강화된 평가 방법의 필요성을 강조합니다.
이 논문은 LLM 의 추론 능력을 활용하면서도 지연 시간을 줄이기 위해 명시적 추론 과정을 잠재 공간에 내재화하는 새로운 자기 증류 프레임워크인 LaSER 를 제안하여, 밀도 기반 검색의 성능과 효율성을 동시에 향상시킵니다.
이 논문은 KV 캐시 압축을 단순한 저장 공간 최적화가 아닌 어텐션 라우팅의 물리적 관점에서 재해석하여, 90% 압축 시 발생하는 의미적 접근성 붕괴와 모델별 라우팅 역학의 차이가 장기 컨텍스트 확장성의 핵심 한계임을 규명합니다.
이 논문은 역할 수행 에이전트의 상황 의존적 특성을 반영하기 위해 심리학 이론에 기반하여 맥락에 따라 역할 중요도를 동적으로 추정하고 이를 추론 시간의 가중치 보상 안내 디코딩에 통합하는 '역할 동적 디코딩 (PDD)' 프레임워크를 제안하여, 기존 고정된 프롬프트나 비용이 많이 드는 파인튜닝의 한계를 극복하고 더 높은 일관성과 충실도를 달성함을 보여줍니다.
이 논문은 인간의 인지 효율성을 모방하기 위해 퍼지-트레이스 이론에 기반한 MM-Mem 을 제안하여, 멀티모달 비디오 에이전트가 장시간의 비디오를 이해할 때 발생하는 문맥 제한과 기억 한계를 해결하고, 의미 정보 병목 원리를 통해 정밀한 지각 정보를 고차원적 의미 스키마로 점진적으로 압축·추출하는 새로운 메모리 아키텍처를 제시합니다.
이 논문은 온라인 권력 불균형 갈등 상황에서 인간 중재자가 보이는 권력 편향과 AI 제안이 이에 미치는 영향을 실증적으로 분석하여, 인간과 AI 의 협력적 중재 시스템에 대한 통찰을 제시합니다.
이 논문은 단백질 서열과 텍스트를 통합한 멀티모달 입력과 다차원 보상 기반 강화학습을 통해 다중 라운드 단백질 검색 에이전트 'ProtRLSearch'를 제안하고, 이를 평가하기 위해 3,000 개의 다중 선택지 질문으로 구성된 벤치마크 'ProtMCQs'를 구축한 연구입니다.
본 논문은 종단간 음성 LLM 의 모달리티 격차가 단순한 분포 편이가 아닌, 음성 표현의 중복성으로 인한 층별 정렬 패턴과 최종 의사결정 단계의 병목 현상에서 기인함을 크로스 레이어 CKA 분석을 통해 규명하고, 이를 해결하기 위해 특징 매칭이 아닌 토큰 또는 시간 단위의 접근이 필요함을 주장합니다.
이 논문은 선형 복잡도를 가진 Mamba 를 비전 백본으로 활용하고 훈련 중 컨텍스트 검색을 통해 긍정적 및 부정적 샘플 정보를 추출하여 LLM 기반의 방사선학 보고서 생성 성능을 향상시키는 새로운 프레임워크 R2GenCSR 을 제안합니다.
이 논문은 복잡한 웹 작업에서 사용자와 에이전트가 상호작용하며 협업하는 'CowPilot' 프레임워크를 제안하고, 이 방식이 인간이 수행하는 단계 수를 크게 줄이면서도 95% 의 높은 작업 성공률을 달성함을 실증했습니다.
이 논문은 실시간 금융 데이터를 기반으로 한 지식 기반 접근법인 'FinBloom'을 소개하며, 1,400 만 건의 금융 뉴스와 SEC 서류로 사전 학습된 70 억 파라미터 모델에 5 만 건 이상의 금융 질의 - 컨텍스트 데이터셋으로 미세 조정을 가해 실시간 데이터 검색과 의사결정을 자동화하는 금융 에이전트를 개발했습니다.
이 논문은 정확도만으로는 보상 모델의 품질을 평가할 수 없으며, 효율적인 최적화를 위해서는 보상 모델이 충분한 보상 분산을 유도해야 함을 최적화 관점에서 증명하고 있습니다.
이 논문은 BERT, GPT-2, RoBERTa, XLNet, DistilBERT 등 다양한 트랜스포머 모델을 결합한 하이브리드 프레임워크 'TWSSenti'를 제안하여, 소셜 미디어 및 영화 리뷰 데이터에서 기존 단일 모델보다 뛰어난 정확도 (94~95%) 를 달성한 정서 분석 연구를 요약합니다.
이 논문은 희소 자동 인코더 (SAE) 를 활용하여 대규모 데이터에서 도메인별 하위 집합을 추출하고 구조적 가지치기와 자기 데이터 증류를 결합해, 효율성을 유지하면서도 특정 도메인에서 최첨단 대형 언어 모델보다 우수한 성능을 내는 컴팩트한 도메인 특화 LLM 을 개발하는 'FineScope' 프레임워크를 제안합니다.
이 논문은 대형 추론 모델의 과도한 추론으로 인한 높은 추론 비용 문제를 해결하기 위해, 효율적인 온라인 학습을 위한 작은 반성 모델과 반성 보상 메커니즘을 도입하여 성능을 유지하면서 추론 비용을 36% 절감하는 REA-RL 방법을 제안합니다.
이 논문은 LLM 의 편집된 가중치만을 기반으로 편집된 개체 엔티티를 추적하고, 추가 정보 없이 편집을 되돌리는 새로운 방법을 제안하여 LLM 을 악의적인 조작으로부터 보호하는 새로운 연구 방향을 제시합니다.