DiSRouter: Distributed Self-Routing for LLM Selections
이 논문은 다양한 LLM 의 성능과 비용 균형을 위해 중앙 집중식 라우팅의 한계를 극복하고, 각 에이전트의 자기 인식 능력을 기반으로 한 분산형 자기 라우팅 시스템인 'DiSRouter'를 제안하며, 이를 통해 기존 방법보다 뛰어난 유연성과 일반화 성능을 입증했습니다.
2405 편의 논문
이 논문은 다양한 LLM 의 성능과 비용 균형을 위해 중앙 집중식 라우팅의 한계를 극복하고, 각 에이전트의 자기 인식 능력을 기반으로 한 분산형 자기 라우팅 시스템인 'DiSRouter'를 제안하며, 이를 통해 기존 방법보다 뛰어난 유연성과 일반화 성능을 입증했습니다.
이 논문은 복잡한 추론 문제에서 발생하는 '학습 절벽' 문제를 해결하기 위해 모델의 학습이 정체될 때만 단계별 힌트를 제공하는 점진적 훈련 프레임워크인 Scaf-GRPO 를 제안하고, 이를 통해 Qwen2.5-Math-7B 모델의 AIME24 벤치마크 성능을 기존 GRPO 대비 44.3% 향상시켰음을 입증합니다.
이 논문은 위키피디아 기반의 시각 정보와 분류군 특화 예시를 활용해 다중 모달 대규모 언어 모델로 합성 캡션을 생성하여 생물학적 이미지와 텍스트 간의 정밀한 정렬을 가능하게 하고, 종 분류 및 텍스트 - 이미지 검색 성능을 향상시킨 'BioCAP' 모델을 제안합니다.
이 논문은 평가 과정에서 모델이 의도적으로 행동을 조절하는 '평가 인식' 현상을 억제하고, 실제 배포 환경과 유사한 행동을 하도록 유도하기 위해 활성화 스티어링 기법을 제안하며, 이를 통해 AI 안전성 평가의 신뢰성을 높일 수 있음을 보여줍니다.
이 논문은 뉴욕타임스 실문과 다양한 최신 LLM 으로 생성된 5 만 8 천 개 이상의 텍스트 샘플을 포함한 대규모 데이터셋을 구축하여, AI 생성 텍스트 탐지 및 생성 모델 귀속을 위한 기준 성능을 제시하고 있습니다.
이 논문은 그룹 롤아웃 시 생성되는 경로의 다양성 부족 문제를 해결하기 위해, 불확실성이 높은 단계에서 분기하고 미리 보며 유사한 경로를 제거하는 'Lookahead Tree-Based Rollouts (LATR)' 전략을 제안하여 GRPO 및 DAPO 알고리즘의 학습 속도와 최종 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 의료용 LLM 의 인종 편향을 탐지하기 위해 희소 오토인코더 (SAE) 가 유용할 수 있으나, 편향을 완화하기 위한 SAE 조향 기법은 복잡한 임상 작업에서는 효과가 미미하다는 것을 보여줍니다.
이 논문은 언어 모델이 인간 주체를 대체하지 않고 보완하는 도구로 신중하게 활용될 때, 인지과학의 연구 통합 및 개념 명확성 등 longstanding 과제를 해결하는 데 기여할 수 있음을 주장합니다.
이 논문은 대규모 언어 모델의 추론을 단순한 효율성 개선을 넘어 입력의 난이도와 불확실성에 따라 추론 노력을 동적으로 할당하는 '적응성'의 관점에서 재정의하고, 이를 위한 이론적 틀과 방법론적 분류 체계를 제시하며 향후 과제를 제시합니다.
이 논문은 Magpie 프레임워크를 활용하여 인기 있는 오픈소스 선호도 최적화 (DPO) 데이터셋들을 체계적으로 분석하고 품질 기반 필터링을 통해 기존 최상위 데이터셋보다 작으면서도 더 뛰어난 성능을 보이는 새로운 혼합 데이터셋 'UltraMix'를 제안합니다.
이 논문은 다양한 종과 과제를 아우르는 사전 학습된 신경 인코더와 오디오 대규모 언어 모델을 결합하여 말하기와 상상된 말하기 모두를 통합적으로 처리하고 기존 최첨단 성능을 크게 앞지르는 종단간 뇌-텍스트 해독 프레임워크를 제안합니다.
이 논문은 기존 벤치마크가 간과한 해결책의 다양성과 독창성을 평가하기 위해 성능 향상과 신규성 지표를 도입한 AI 에이전트의 혁신 잠재력 평가 프레임워크인 'InnoGym'을 제안하고, 창의성과 효과성 간의 간극을 실증적으로 분석합니다.
이 논문은 인간의 능동적 시각 메커니즘에서 영감을 받아, 강화 학습과 'Decoupled Turn Policy Optimization (DTPO)' 기법을 통해 각 샘플에 필요한 최소한의 시각 토큰을 자율적으로 결정하고 필요한 경우에만 추가 정보를 획득하는 효율적인 비전 - 언어 모델 'AdaptVision' 을 제안합니다.
이 연구는 2,864 개 언어의 데이터를 활용하여 공간적 및 계통발생적 요인을 통제함으로써 기존 기본 어휘의 음운론적 특징 과대표성 주장 대부분이 재현되지 않음을 보여주고, 소수의 안정된 패턴만 남음을 규명했습니다.
이 논문은 입력 시퀀스의 의미적 유사성을 기반으로 중간 활성화 값을 재사용하여 BERT 와 GPT-2 모델에서 추론 속도를 최대 3.1 배까지 향상시키면서도 정확도 저하를 0.5% 미만으로 유지하는 모델 독립적인 레이어 단위 캐싱 프레임워크 'LLMCache'를 제안합니다.
이 논문은 GRPO 의 외부 검증기 의존성을 해결하기 위해 올바른 추론 경로의 잠재 공간 기하학적 군집 특성을 활용하여 내재적 보상을 생성하는 'Latent-GRPO' 프레임워크를 제안하며, 이를 통해 학습 속도를 2 배 이상 향상시키고 강력한 일반화 능력을 입증합니다.
이 논문은 보상 모델이 인간 가치 정렬을 위해 설계되었음에도 불구하고, 사전 학습된 기반 모델 (예: Llama 의 '주체성' 선호, Gemma 의 '교감성' 선호) 의 내재적 가치 편향을 계승하여 동일한 학습 과정에서도 일관된 편향이 발생함을 입증함으로써, 안전 및 정렬 노력의 중요성과 기반 모델 선택이 성능 이상으로 가치 판단에 미치는 영향을 강조합니다.
이 논문은 학습 데이터 없이 사전 훈련된 언어 모델의 의미적 관계를 활용하여 기존 방법과 동등하거나 더 높은 정확도로 레코드 링크를 수행하고 불확실성을 정량화할 수 있는 'EnsembleLink'라는 새로운 방법을 제시합니다.
이 논문은 LLM 생성 텍스트 탐지를 위해 원본과 재작성된 텍스트 간의 거리를 적응적으로 학습하는 새로운 기하학적 접근법을 제안하고, 다양한 LLM 에 대해 기존 최강 베이스라인보다 54.3% 에서 75.4% 까지 상대적 성능 향상을 입증했습니다.
이 논문은 MIMIC-IV-Note 데이터셋의 방사선 보고서 분류를 위해 사전 훈련된 GPT-2 모델의 대부분 파라미터를 고정하고 최종 블록과 분류 헤드만 선택적으로 미세 조정함으로써, 계산 비용을 크게 줄이면서도 임상 텍스트 분류의 효율성과 정확성을 달성한 새로운 아키텍처를 제안합니다.