ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
이 논문은 에이전트 강화학습 (ARL) 의 불안정성을 해결하기 위해 체계적인 분석 프레임워크인 ARLArena 를 제안하고, 이를 통해 정책 경사를 네 가지 핵심 차원으로 분해하여 안정적이고 강력한 에이전트 학습 방법인 SAMPO 를 도출했습니다.
9675 편의 논문
이 논문은 에이전트 강화학습 (ARL) 의 불안정성을 해결하기 위해 체계적인 분석 프레임워크인 ARLArena 를 제안하고, 이를 통해 정책 경사를 네 가지 핵심 차원으로 분해하여 안정적이고 강력한 에이전트 학습 방법인 SAMPO 를 도출했습니다.
이 논문은 실험적 밀도 지도 제약 조건을 통합한 일단계 확산 모델을 활용하여 기존 방법론보다 빠르고 정밀하게 단백질 및 핵산 - 단백질 복합체의 구조를 자동 정제하는 'CryoNet.Refine'을 제안합니다.
이 논문은 AI 에이전트가 사회과학 연구의 속도와 방법론적 기반을 강화하지만 이론적 독창성과 암묵적 지식에는 한계가 있어, 연구자의 역할 재정의와 직업적 계층화 위험을 수반하는 '바이브 리서칭 (vibe researching)' 시대의 도래를 분석하고 책임 있는 활용 원칙을 제시합니다.
이 논문은 예측과 행동, 결과 간의 공유 정보 비율인 '이중 예측성 (bipredictability)'을 새로운 척도로 제시하여 현재의 AI 가 행동 능력 (agency) 은 갖췄으나 학습 효율성을 모니터링하고 적응하는 진정한 지성 (intelligence) 은 결여되어 있음을 증명하고, 이를 개선하기 위한 생물학적 피드백 아키텍처를 제안합니다.
이 논문은 EEG 신호와 이미지 간의 모달리티 격차를 해소하고 대규모 확산 모델의 계산 과부하를 극복하기 위해, 대비 학습과 '다음 스케일 예측' 전략을 기반으로 한 경량 자동회귀 프레임워크 AVDE 를 제안하여 기존 최첨단 방법보다 우수한 성능과 효율성을 입증했습니다.
이 논문은 의료 AI 평가에서 의사의 의견 불일치가 대부분 구조적 요인에 기인하지만, 정보 부족이나 모호한 표현과 같은 '환원 가능한 불확실성'을 해소함으로써 평가 설계를 개선하여 불일치를 줄일 수 있음을 보여줍니다.
이 논문은 저랭크 적응 (LoRA) 의 선형적 한계를 극복하기 위해 시LU 게이팅과 구조적 드롭아웃을 도입하여 매니폴드 확장을 유도하는 CeRA 를 제안하며, 이를 통해 낮은 랭크에서도 LoRA 보다 뛰어난 성능과 스펙트럼 효율성을 달성함을 보여줍니다.
이 논문은 직접적인 행동 시퀀스 예측 대신 학습된 전이 모델을 통해 중간 세계 상태를 autoregressively 예측하는 방식을 제안함으로써, 더 적은 데이터와 작은 모델로도 분포 외 (out-of-distribution) 일반화 성능을 크게 향상시킨다고 주장합니다.
이 논문은 대규모 앱 스토어 검색 시스템에서 행동 기반 데이터의 부족을 해결하기 위해 미세 조정된 LLM 을 활용해 텍스트 관련성 라벨을 대량 생성하고, 이를 순위 결정 모델에 통합함으로써 오프라인 성능과 전 세계 A/B 테스트에서 전환율을 유의미하게 향상시켰음을 보여줍니다.
이 논문은 FP4 정밀도의 어텐션 연산에서 발생하는 학습 불안정성을 해결하기 위해 역전파 시 정밀도 일치를 보장하는 새로운 양자화 인식 학습 (QAT) 방법인 Attn-QAT 를 제안하고, 이를 통해 어텐션 품질 저하 없이 RTX 5090 에서 최대 1.5 배의 속도 향상을 달성함을 보여줍니다.
이 논문은 외부 지시 없이 내재된 성격 특성을 통해 스스로 목표를 생성하고 행동을 조직화하는 지속적 자율성을 갖춘 embodied agent 인 PEPA 를 제안하고, 이를 실제 4 족 보행 로봇을 통해 검증했습니다.
이 논문은 ECG 신호에 대한 멀티모달 모델의 추론 능력을 평가하기 위해 신호 패턴 인식 (Perception) 과 임상 지식 적용 (Deduction) 을 분리하여 각각 코드 생성과 임상 기준 데이터베이스 정합성 검증을 통해 확장 가능하고 엄격하게 평가하는 새로운 프레임워크를 제안합니다.
이 논문은 의료 문서의 구조적 특성에 따라 LLM 의 불확실성 보정 방향이 달라지므로, 임상적 안전성을 보장하기 위해 도메인별 맞춤형 공분적 예측 (Conformal Prediction) 프레임워크가 필요함을 FDA 약물 라벨과 MIMIC-CXR 보고서 실험을 통해 입증합니다.
이 기술 보고서는 직원 이직 예측과 도시 자원 할당이라는 두 가지 상이한 도메인에서의 검증 결과를 바탕으로, 설명 가능한 AI 전략 설계를 위한 '설명성 솔루션 공간 (ESS)' 프레임워크가 도메인 독립적이며 거버넌스 역할과 이해관계자 구성에 따라 체계적으로 적응하는 일반화된 의사결정 지원 도구임을 입증합니다.
이 논문은 2026 년 포뮬러 1 의 새로운 에너지 규정 하에서 경쟁 차량의 숨겨진 상태를 추정하는 30 상태 은닉 마르코프 모델 (HMM) 과 이를 기반으로 에너지 전략을 결정하는 심층 Q-네트워크 (DQN) 로 구성된 2 층 프레임워크를 제시하여, 경쟁자의 의도적 기만 전술을 탐지하고 최적의 에너지 배분 정책을 수립할 수 있음을 보여줍니다.
HarmonyCell 은 LLM 기반의 시맨틱 통합기와 적응형 몬테카를로 트리 탐색 엔진을 결합하여 단일 세포 교란 연구에서 발생하는 시맨틱 및 분포 불일치 문제를 자동으로 해결하고, 다양한 데이터셋에서 전문가 수준의 모델링 성능을 달성하는 엔드 투 엔드 에이전트 프레임워크입니다.
이 논문은 자연어 지시를 실행 가능한 규칙과 의미 주석이 달린 옵션으로 변환하는 LLM 기반 폐루프 프레임워크를 제안하여, 심층 강화학습의 데이터 효율성, 해석 가능성, 그리고 환경 간 전이 능력을 향상시키는 새로운 방법을 제시합니다.
이 논문은 고화질 비디오 내시경에서 교차 데이터셋 일반화 능력을 갖춘 검출 게이트 파이프라인을 제안하여, 병리적 상태와 건강한 성대 기능을 구별하는 임상적 생체 표지자를 실시간으로 추출하는 강건한 솔루션을 제시합니다.
본 논문은 메콩강 삼각주의 무형문화유산 이미지 분류에서 데이터 부족과 높은 시각적 유사성으로 인한 과적합 문제를 해결하기 위해, CoAtNet 아키텍처와 모델 수프 (Model Soups) 기법을 결합하여 분산을 줄이고 일반화 성능을 향상시킨 새로운 프레임워크를 제안하고, ICH-17 데이터셋에서 기존 최첨단 모델들을 능가하는 성능을 입증했습니다.
이 논문은 LLM 에이전트의 성능 향상을 위해 복잡한 메모리 작성 전략보다 정교한 검색 방법이 더 결정적이며, 현재는 불필요한 정보 손실을 초래하는 작성 단계의 과잉 최적화보다 검색 단계의 개선이 더 큰 효과를 낸다는 것을 3x3 실험을 통해 규명했습니다.