GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
이 논문은 고비용의 외부 교사 모델에 의존하지 않고 RL 훈련 중 생성된 체크포인트를 병합하여 '무료' 교사 모델로 활용함으로써, 멀티모달 에이전트 훈련의 효율성과 성능을 동시에 극대화하는 GTR-Turbo 방법을 제안합니다.
2384 편의 논문
이 논문은 고비용의 외부 교사 모델에 의존하지 않고 RL 훈련 중 생성된 체크포인트를 병합하여 '무료' 교사 모델로 활용함으로써, 멀티모달 에이전트 훈련의 효율성과 성능을 동시에 극대화하는 GTR-Turbo 방법을 제안합니다.
이 논문은 이질적인 배터리 데이터의 부족과 다양성이라는 과제를 해결하고, 13 개의 데이터셋으로 사전 학습된 '사전 학습 배터리 트랜스포머 (PBT)'라는 최초의 기초 모델을 통해 다양한 배터리 화학 조성과 조건에서 기존 최첨단 방법보다 평균 21.8% 높은 정밀도로 수명을 예측하는 범용 시스템을 제시합니다.
이 논문은 TLS 3D 포인트 클라우드를 기반으로 YOLOv8 모델을 활용해 7 종의 유럽 수종을 96% 의 정확도로 분류하고, Finer-CAM 을 적용한 설명 가능한 AI 기법을 통해 모델이 수종 식별 시 주로 수관이나 줄기 등 어떤 구조적 특징에 의존하는지 해석 가능하게 분석한 연구입니다.
이 논문은 '베이즈 풍동'이라는 통제된 환경을 통해 트랜스포머가 주어진 컨텍스트에서 베이즈 추론을 수행하며, 이는 잔류 스트림, 피드포워드 네트워크, 어텐션 메커니즘이 각각 믿음의 기반, 사후 확률 업데이트, 콘텐츠 기반 라우팅을 담당하는 기하학적 구조로 구현됨을 입증합니다.
이 논문은 교차 엔트로피 손실 함수를 통한 그래디언트 학습이 어텐션 점수와 값 벡터의 공진화적 특화를 유도하여 베이지안 매니폴드를 조각내며, 이것이 컨텍스트 내 확률적 추론을 가능하게 하는 기하학적 구조를 형성한다는 메커니즘을 분석합니다.
본 논문은 Pythia, Llama-3 등 다양한 대규모 언어 모델에서도 소규모 모델에서 관찰된 베이지안 추론의 기하학적 특징 (예측 엔트로피와 상관된 주성분 축) 이 유지되며, 이를 통한 불확실성 추정이 이루어짐을 확인하고 해당 기하학적 구조가 불확실성의privileged한 읽기 도구임을 입증했습니다.
이 논문은 검색 증강 LLM 의 과도한 검색 문제를 다각도로 분석하고, 효율성-정확도 균형을 측정하는 새로운 지표인 'Tokens Per Correctness(TPC)'를 제안하며, 이를 완화하기 위한 방법과 관련 데이터셋인 OverSearchQA 를 공개합니다.
이 논문은 기업용 LLM 환경에서 데이터 유출을 방지하기 위해 부서 간 격리를 보장하는 안전한 멀티테넌트 아키텍처 (SMTA) 와 사용 후 즉시 소멸되는 'Burn-After-Use'메커니즘을 제안하고, 다양한 공격 시나리오와 실패 조건에 대한 실험을 통해 그 유효성을 입증했습니다.
이 논문은 모델 컨텍스트 프로토콜 (MCP) 환경에서 도구 호출 체인을 악용하여 기존 단일 회선 공격의 한계를 넘어, 은밀하게 토큰 소모와 비용을 극대화하는 새로운 형태의 DoS 공격 기법을 제안하고 그 위험성을 입증합니다.
이 논문은 다크 소울 3 의 실시간 전투 환경을 대상으로 방향성 스킬 그래프와 계층적 커리큘럼을 통해 5 가지 재사용 가능한 스킬을 학습하고, 환경 변화 시 일부 스킬만 선택적으로 적응시켜 효율적으로 성능을 회복하는 지속 학습 에이전트 프레임워크를 제안합니다.
이 논문은 긴 시간의 추론 과정에서 제한된 컨텍스트 예산 내에서 중요한 정보를 시각적으로 강조하고 부수적인 세부 사항을 압축하는 적응형 정보 밀도 방식을 통해, 구조화된 리치 텍스트 메모리를 이미지로 렌더링하여 기존 텍스트 기반 시스템보다 효율적인 장기 추론을 가능하게 하는 'MemOCR'을 제안합니다.
이 논문은 기존 평가의 한계를 극복하고 고위험 정신건강 상황에 대한 AI 시스템의 안전성을 정밀하게 검증하기 위해 데이터 수집, 구조화된 주석, 다회전 대화 생성 및 평가 기능을 통합한 오픈소스 플랫폼 'MHDash'를 제안하고 그 유효성을 입증합니다.
이 논문은 정보이론적 관점에서 볼 때, 제한된 용량을 가진 언어 모델이 최적의 압축 전략을 따를 때 사실과 비사실의 확률 분포 차이를 최소화하는 과정에서 할루시네이션이 불가피하게 발생한다는 것을 증명합니다.
이 논문은 다중 참여자 간의 긴 시간跨度 협업 대화에서 장기 기억 능력을 평가하기 위해, 기존 벤치마크의 한계를 극복하는 새로운 벤치마크 'EverMemBench'를 제안하고 현재 LLM 시스템이 다중 화자 attribution, 시간적 추론, 그리고 암시적 관련성 파악에서 심각한 한계를 겪고 있음을 규명합니다.
이 논문은 로봇이 구동 고장 발생 시에도 작업 완료를 가능하게 하는 '능동적 고장 (fail-active)' 운영을 위해, 로봇의 현재 상태와 작업 제약을 조건으로 하는 확산 기반 궤적 생성기 DEFT 를 제안하고, 시뮬레이션 및 실제 환경에서 기존 방법보다 뛰어난 성공률과 제로샷 일반화 능력을 입증했습니다.
이 논문은 CNN 의 장기 의존성 한계와 Transformer 의 높은 계산 비용을 극복하기 위해, 공간 및 스펙트럼 특징을 효율적으로 학습하고 동적 게이트 융합 메커니즘을 통해 통합하는 듀얼 브랜치 Mamba 기반 모델인 DMS2F-HAD 를 제안하여, 14 개 벤치마크 데이터셋에서 최첨단 성능과 4.6 배의 빠른 추론 속도를 달성했다고 요약할 수 있습니다.
이 논문은 그룹 상대 정책 최적화 (GRPO) 의 데이터 활용 비효율성과 엔트로피 붕괴 문제를 해결하면서, 대형 언어 모델의 불필요한 추론 과정을 효율적으로 압축하여 성능 저하 없이 계산 비용과 지연 시간을 줄이는 '세분화된 그룹 정책 최적화 (FGO)' 알고리즘을 제안합니다.
이 논문은 $2^{128}$ 크기의 거대한 이진 코드북, Pre-Post 증류 및 생성 인식 사전 지식, 그리고 시그루 (SigLu) 활성화 함수를 활용한 하이브리드 아키텍처를 통해 고충실도 재구성, 복잡한 의미 추출, 생성 적합성을 동시에 달성하는 통합 멀티모달 대형 언어 모델용 유니토크 (UniWeTok) 를 제안합니다.
이 논문은 미세한 시각적 추론의 병목 현상을 해결하기 위해 Think-Aperture-Observe 루프를 통해 관심 영역을 순차적으로 확대 및 분할하며 관찰하는 강화학습 기반 에이전트 'TikArt'를 제안하고, 상대적 불확실성 감소 (RUR) 보상 함수를 통해 장기적 도구 통합 학습을 안정화하여 고해상도 추론 및 픽셀 수준의 그라운딩 성능을 향상시킨다는 내용을 담고 있습니다.
이 논문은 JEPA 아키텍처를 추적 모델 예측으로 확장하여 GOT-JEPA 프레임워크를 제안하고, 가시성 추정을 위한 OccuSolver 를 결합함으로써 가려짐과 같은 열악한 환경에서도 일반화 능력과 강건성을 크게 향상시킨 객체 추적 방법을 제시합니다.