Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment
이 논문은 SVD 기반의 MoE 구조를 통해 사전 지식을 적응적으로 통합하고 이론적 스케일링 인자를 도입하여 LoRA 의 성능을 전량 미세 조정 (Full FT) 수준으로 끌어올리는 새로운 프레임워크 'GOAT'를 제안합니다.
2184 편의 논문
이 논문은 SVD 기반의 MoE 구조를 통해 사전 지식을 적응적으로 통합하고 이론적 스케일링 인자를 도입하여 LoRA 의 성능을 전량 미세 조정 (Full FT) 수준으로 끌어올리는 새로운 프레임워크 'GOAT'를 제안합니다.
이 논문은 어답셋 문법을 활용하여 토큰 수준의 MCTS 를 LLM 디코더에 통합함으로써 미세 조정 없이도 문법적 및 의미적 정확성을 보장하고, 소형 모델이 대형 모델보다 우수한 성능을 발휘하도록 하는 을 제안합니다.
이 논문은 언어학 올림피아드 문제를 전문가가 설계한 템플릿 기반의 표기법 변형으로 변형하여 지식과 암기에 의존하는 단축 경로를 차단하고 진정한 추론 능력을 평가하는 새로운 벤치마크 'LINGOLY-TOO'를 제안합니다.
이 논문은 특허 문서에서 화학 구조와 생체 활성 데이터를 자동으로 추출하여 약물 발견 속도를 높이고 ChEMBL 데이터베이스의 화학 공간 한계를 보완하는 오픈소스 파이프라인 'BioChemInsight'를 소개합니다.
이 논문은 기존 파인튜닝 모델과 베이스 모델의 가중치 차이를 새로운 베이스 모델에 적용하는 'Param'라는 제로 비용 방법을 제안하여, 추가 학습 없이도 기존 파인튜닝 모델과 유사한 성능을 달성할 수 있음을 입증했습니다.
이 논문은 언어 에이전트가 사회적 상호작용의 맥락에 따라 직관적 반응에서 심층적 고찰까지 적응적으로 추론 깊이를 조절할 수 있도록 하는 '적응형 사회적 학습 (ASL)' 프레임워크와 '적응형 모드 정책 최적화 (AMPO)' 알고리즘을 제안하여, 기존 방법 대비 뛰어난 성능과 토큰 효율성을 입증했습니다.
이 논문은 멀티모달 LLM 기반의 GUI 에이전트가 겪는 높은 비용과 지연 시간을 해결하기 위해, 슬라이드의 시각적 픽셀 대신 객체 모델 기반의 구조화된 데이터 조작을 통해 텍스트 중심 편집 및 배치 처리 효율성을 극대화하는 'Talk-to-Your-Slides' 에이전트와 이를 평가하는 TSBench 벤치마크를 제안합니다.
이 논문은 312 개의 인간 주석 데이터와 Claude 3.7 Sonnet 을 활용한 데이터 증강 기법을 결합한 'PC Agent-E'프레임워크를 제안하여, 인간 행동 데이터만 학습한 모델이나 직접적인 증류 방식보다 월등히 뛰어난 성능을 달성하고 WindowsAgentArena-V2 벤치마크에서 Claude 3.7 Sonnet 을 능가하는 결과를 보였음을 소개합니다.
이 논문은 대규모 언어 모델 (LLM) 에 메타인지 학습을 통합하여 실패를 반성하고 모듈화된 기술을 재구성함으로써 제로샷 환경에서 창의적인 로봇 계획 및 다중 로봇 협업을 가능하게 하는 'REFLEX' 프레임워크를 제안하고 그 유효성을 입증합니다.
이 논문은 안전 정렬된 대규모 언어 모델의 취약점을 악용하여 새로운 블랙박스 탈옥 공격 기법인 'BitBypass'를 제안하고, 하이픈으로 구분된 비트스트림 위장 기법을 통해 기존 공격들보다 뛰어난 은닉성과 성공률을 보이며 최신 모델들의 안전 장벽을 우회할 수 있음을 입증했습니다.
이 논문은 저랭크 행렬 곱셈 없이 선택된 가중치 행렬의 대각 블록만 업데이트하여 LoRA 와 유사한 메모리 효율성을 유지하면서도 더 강력한 수렴성과 표현력을 보장하는 새로운 파라미터 효율적 미세 조정 방법인 DiaBlo 를 제안합니다.
이 논문은 웹 환경의 구조적 탐색을 통해 대규모 웹 에이전트 데이터를 수집하는 'Go-Browse' 방법을 제안하고, 이를 통해 7B 파라미터 언어 모델이 WebArena 벤치마크에서 GPT-4o mini 를 능가하는 21.7% 의 성공률을 달성했음을 보여줍니다.
이 논문은 STEM 중심의 기존 벤치마크의 한계를 극복하고 인문사회과학 (HSS) 분야의 다국어 평가와 교차 학문적 추론 능력을 측정하기 위해 전문가와 자동 에이전트의 협업을 통해 13,000 개 이상의 샘플로 구성된 'HSSBench'를 제안하고, 이를 통해 최신 다중모달 대규모 언어 모델들이 여전히 큰 도전에 직면해 있음을 입증합니다.
이 논문은 검색 증강 LLM 의 대규모 인간 선호도 데이터셋인 'Search Arena'를 구축하고, 인용 수와 소스 유형이 사용자 선호도에 미치는 영향 및 다양한 환경에서의 모델 성능을 분석하여 향후 연구를 지원하기 위해 데이터셋과 코드를 오픈소스로 공개했습니다.
이 논문은 많은 수의 예시를 문맥에 포함시켜 모든 답변을 학습 목표로 삼는 새로운 'Many-Shot In-Context Fine-tuning(ManyICL)' 방식을 제안함으로써, 기존 Few-shot 방식의 성능 격차를 해소하고 전용 모델 미세 조정 수준에 근접하는 성과를 달성함을 보여줍니다.
이 논문은 정렬된 대규모 언어 모델이 생성 과정에서 '분기 계수 (Branching Factor)'를 감소시켜 출력의 다양성을 줄이고 예측 가능성을 높이는 현상을 규명하며, 이를 통해 정렬이 모델의 본질적 행동을 바꾸기보다는 저엔트로피 경로를 활성화하는 방식임을 보여줍니다.
이 논문은 오른쪽에서 왼쪽으로 학습된 역방향 언어 모델 LEDOM 을 제안하여 추론 패턴의 고유한 특성을 규명하고, 역방향 사후확률을 활용한 'Reverse Reward' 기법을 통해 기존 모델의 환각을 억제하고 수학 추론 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 인간과 AI 의 시너지를 통해 4 천만 개의 선호도 데이터를 대규모로 선별한 'SynPref-40M'을 구축하고, 이를 기반으로 인간 선호도, 안전성, 객관성 등 다양한 측면에서 기존 오픈소스 보상 모델들을 압도하는 성능을 보이는 'Skywork-Reward-V2' 시리즈를 제안합니다.
이 논문은 LLM 을 가상 응답자로 활용하여 매개 요인을 시뮬레이션함으로써 대규모 인간 데이터 수집 없이도 심리 측정 항목의 구성 타당성을 효율적으로 검증하는 새로운 프레임워크를 제안합니다.
이 논문은 추론의 후반부 오류가 최종 답변에 더 치명적인 '후기 단계 취약성'을 발견하고, 이를 해결하기 위해 의미적 가지치기와 적응형 검증을 결합해 추론 효율성을 높이면서도 정확도를 유지하는 ASCoT 방법을 제안합니다.