Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
이 논문은 그룹 상대 정책 최적화 (GRPO) 의 데이터 활용 비효율성과 엔트로피 붕괴 문제를 해결하면서, 대형 언어 모델의 불필요한 추론 과정을 효율적으로 압축하여 성능 저하 없이 계산 비용과 지연 시간을 줄이는 '세분화된 그룹 정책 최적화 (FGO)' 알고리즘을 제안합니다.
2315 편의 논문
이 논문은 그룹 상대 정책 최적화 (GRPO) 의 데이터 활용 비효율성과 엔트로피 붕괴 문제를 해결하면서, 대형 언어 모델의 불필요한 추론 과정을 효율적으로 압축하여 성능 저하 없이 계산 비용과 지연 시간을 줄이는 '세분화된 그룹 정책 최적화 (FGO)' 알고리즘을 제안합니다.
이 논문은 JEPA 아키텍처를 추적 모델 예측으로 확장하여 GOT-JEPA 프레임워크를 제안하고, 가시성 추정을 위한 OccuSolver 를 결합함으로써 가려짐과 같은 열악한 환경에서도 일반화 능력과 강건성을 크게 향상시킨 객체 추적 방법을 제시합니다.
이 논문은 사이버-물리 시스템의 안전성 확보를 위해 기존 오프라인 안전 강화학습의 한계를 극복하고, 계층적 안전 우선순위를 반영한 'LexiSafe' 프레임워크를 제안하며 이론적 성능 보장과 실험적 우수성을 입증합니다.
이 논문은 의료 영상에서 공간적 배열 정보가 약한 경우 기존 비전 트랜스포머의 고정된 공간 사전 지식이 비효율적일 수 있음을 지적하고, 위치 임베딩과 [CLS] 토큰을 제거한 경량화된 ZACH-ViT 아키텍처를 제안하여 데이터가 부족한 의료 영상 환경에서 데이터 구조에 맞는 아키텍처 정렬이 성능 향상에 기여함을 입증합니다.
통계물리학적 관점에서 제안된 새로운 난이도 높은 벤치마크를 통해 그래프 신경망 (GNN) 과 기존 휴리스틱 알고리즘을 공정하게 비교한 결과, 현재 GNN 은 여전히 기존 알고리즘보다 성능이 낮음을 확인하고 향후 연구의 방향성을 제시했습니다.
이 논문은 대규모 언어 모델을 기반으로 한 자율적 AI 분석가들이 인간 다중 분석가 연구와 유사한 분석적 다양성과 결과 불일치를 저렴하게 재현할 수 있음을 보여주며, 이에 따라 AI 자동화 과학의 투명성을 위해 다중 우주식 보고와 프롬프트 공개가 필수적임을 주장합니다.
이 논문은 서브가법 집합 함수의 누락된 값을 효율적으로 질의하여 최소 및 최대 완결 사이의 가법 오차를 최소화하는 방법을 제안하고, 이를 오프라인 및 온라인 방식으로 해결하는 알고리즘을 개발하여 실증적으로 검증했습니다.
본 논문은 대규모 언어 모델이 초기 학습 단계에서 잘못된 문법적 편향을 형성하여 이를 후기까지 유지하는 '고착' 현상을 발견하고, 이를 설명하는 '이중어 가설 (Bigram Hypothesis)'을 제시하며 언어학적 통찰을 통해 모델 학습 효율성을 개선할 수 있음을 주장합니다.
이 논문은 VLM 과 전문 시각 그라운딩 모델을 분해된 에이전트 프레임워크로 결합하여 증거 기반의 단계적 워크플로우를 구현함으로써 의료 다중 모달 추론의 정확성과 임상적 책임성을 크게 향상시킨 'CARE'를 제안합니다.
이 논문은 기존 무분류기 안내 (CFG) 의 불안정성과 과도한 오버슈팅 문제를 해결하기 위해 슬라이딩 모드 제어 (SMC) 이론을 도입하여 유한 시간 수렴을 보장하고 다양한 안내 스케일에서 향상된 의미 정렬을 달성하는 새로운 방법인 SMC-CFG 를 제안합니다.
이 논문은 코드 분석을 위한 단일 모델의 다중 태스크 파라미터 효율적 미세 조정 (PEFT) 을 체계적으로 평가하여, 단일 태스크 미세 조정과 유사한 성능을 유지하면서 저장 공간과 계산 비용을 대폭 절감할 수 있음을 입증하고, 작업 간 상호 보완성 및 모델 아키텍처 등 성공 요인을 규명했습니다.
이 논문은 기존 LLM 언러닝 기법의 한계를 극복하고 일반 성능 저하 없이 정확하고 설명 가능한 지식 제거를 실현하기 위해 추론 기반 목표를 활용한 '타겟 추론 언러닝 (TRU)'을 제안하고 그 유효성을 입증합니다.
이 논문은 이기종 엣지 환경에서 MoE 모델의 추론 성능을 향상시키기 위해, 메모리 관리를 위한 정보적 사전 탐색 센서로서 스펙큘레이티브 디코딩을 활용하는 MoE-SpAc 프레임워크를 제안하고, 이를 통해 기존 기법 대비 4.04 배의 속도 향상을 달성했음을 보여줍니다.
이 논문은 강화학습으로 탐색된 고품질 특성 변환 시퀀스를 기반으로 경험 라이브러리를 진화시키고 다양성 인식 선택기를 통해 컨텍스트를 최적화함으로써, 기존 LLM 기반 특성 변환 방법의 한계를 극복하고 다양한 태블러 데이터셋에서 더 높은 성능과 안정성을 달성하는 새로운 프레임워크를 제안합니다.
이 논문은 기관별 데이터에 맞춰 학습된 대규모 언어 모델 대화 시스템 'TAMUSA-Chat'의 아키텍처, 학습 방법론, 그리고 책임 있는 배포 전략을 제시하며, 학술 기관이 투명성과 거버넌스를 준수하며 전문적인 AI 시스템을 구축할 수 있는 프레임워크를 제안합니다.
이 논문은 터키어 계승 언어 교육의 맥락에서 데이터 프라이버시와 신뢰성 문제를 해결하기 위해 오프라인 LLM 의 견고성과 교육적 안전성을 평가한 결과, 8B~14B 파라미터 범위의 추론 중심 모델이 비용과 안전성 간의 가장 균형 잡힌 선택임을 밝혔습니다.
이 논문은 대규모 언어 모델이 다음 토큰 예측 학습을 통해 어떻게 시맨틱 프롬프트 이해, 문맥 내 학습 (ICL), 그리고 사고의 연쇄 (CoT) 와 같은 고급 능력을 획득하는지에 대한 이론적 메커니즘을 규명하고, 이러한 프롬프트 기법들이 통계적으로 왜 우수한 성능을 보이는지 설명합니다.
이 논문은 위키데이터와 전문가 지식을 활용하여 라틴아메리카의 다양한 사회문화적 편향을 평가할 수 있는 26,000 개 이상의 다국어 질문 - 답변 데이터셋 (LatamQA) 을 구축하고, 이를 통해 대규모 언어 모델이 라틴아메리카 문화보다 이베리아 스페인 문화에 더 치우친 편향을 보이며 언어와 지역에 따라 성능 편차가 있음을 규명했습니다.
이 논문은 자연어 프롬프트로 스프레드시트 작업장을 생성하는 LLM 의 성능을 평가하기 위해 블라인드 쌍대 비교 방식을 도입한 'SpreadsheetArena' 플랫폼을 소개하고, 사용 사례에 따라 선호되는 스프레드시트의 특성이 크게 달라지며 도메인별 모범 사례와 정렬되지 않는 경우가 많음을 규명합니다.
이 논문은 LLM 의 기작적 탐지 접근법이 '거짓말'과 '기만'을 동일시하는 한계를 지적하며, 사실적 진술이 아닌 오해의 소지가 있는 표현으로 이루어지는 비거짓말 기만 행위가 기존 진실 탐지기로는 포착되지 않는다는 실험적 증거를 제시하고, 향후 탐지 기술의 고도화를 위한 새로운 방향을 제안합니다.