The Cell Must Go On: Agar.io for Continual Reinforcement Learning
이 논문은 비에피소드적이고 역동적인 'Agar.io'를 기반으로 한 새로운 연구 플랫폼 'AgarCL'을 소개하며, 이를 통해 기존 강화학습 알고리즘과 지속적 학습 방법들의 성능을 평가하고 지속적 강화학습이 안정성 - 가소성 딜레마를 넘어선 더 복잡한 과제를 안고 있음을 시사합니다.
8175 편의 논문
이 논문은 비에피소드적이고 역동적인 'Agar.io'를 기반으로 한 새로운 연구 플랫폼 'AgarCL'을 소개하며, 이를 통해 기존 강화학습 알고리즘과 지속적 학습 방법들의 성능을 평가하고 지속적 강화학습이 안정성 - 가소성 딜레마를 넘어선 더 복잡한 과제를 안고 있음을 시사합니다.
이 논문은 물리 기반 모델 시뮬레이션 데이터와 실제 관측 데이터를 융합한 최초의 글로벌 습지 메탄 배출 벤치마크 데이터셋 'X-MethaneWet'을 제안하고, 이를 통해 메탄 플럭스 예측을 위한 딥러닝 모델 및 전이 학습 기법의 유효성을 검증하여 AI 기반 기후 모델 발전에 기여합니다.
이 논문은 대규모 다중 에이전트 제어 문제를 해결하기 위해 확률 분포 공간에서 최적 제어에 대한 최대 원리와 해밀턴-자코비-벨만 방정식을 rigorously 유도하고, 이를 기반으로 심층 신경망을 활용한 확장 가능한 수치 알고리즘을 제안하여 도메인 장애물 및 에이전트 간 상호작용이 포함된 다양한 예제에서 그 유효성을 입증합니다.
이 논문은 과거 주가 데이터의 텍스트와 차트 이미지를 결합하여 Vision-Language Model(VLM) 을 활용하는 훈련 없는 프레임워크인 VISTA 를 제안하고, 이를 통해 기존 통계 모델 및 텍스트 기반 LLM 보다 최대 89.83% 높은 정확도로 주가 예측 성능을 입증했습니다.
이 논문은 대규모 언어 모델의 프롬프트 주입 공격을 방어하기 위해, 기존에 입력층에만 적용되던 명령어 계층 신호를 네트워크의 중간 레이어 표현에도 주입하는 새로운 방식을 제안하여 공격 성공률을 획기적으로 낮추고 모델의 유용성을 유지함을 보여줍니다.
이 논문은 고차 공통 이웃의 중복성과 과부드러짐 문제를 해결하기 위해 직교화와 정규화 기법을 도입한 '직교 공통 이웃 (OCN)'을 제안하여 링크 예측 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 시각 및 촉각 데이터 간의 정교한 공간적 상관관계를 포착하기 위해 로컬 및 글로벌 위치 인코딩을 2 단계로 주입하는 트랜스포머 기반 아키텍처인 ViTaPEs 를 제안하여, 다양한 인식 작업과 로봇 그리핑에서 최첨단 성능과 제로샷 일반화 능력을 입증합니다.
이 논문은 옵티마이저의 모멘텀과 분산까지 저랭크 서브스페이스에 투영하여 전체 모델 미세조정과 유사한 동역학을 구현함으로써, 추가 하이퍼파라미터 튜닝 없이 LoRA 의 성능 한계를 극복하고 전체 미세조정과 유사한 성능을 달성하는 새로운 방법인 LoFT 를 제안합니다.
이 논문은 기존 continual learning 의 고정된 ETF 한계를 극복하고, 새로운 작업이 추가될 때마다 ETF 를 점진적으로 확장하여 클래스 간 최대 분리성을 보장하는 'Progressive Neural Collapse (ProNC)'라는 새로운 프레임워크를 제안하고, 이를 통해 재학습 방지와 성능 향상을 동시에 달성함을 보여줍니다.
이 논문은 신경 연산자 (Neural Operator) 의 출력에 물리 법칙 (질량 및 운동량 보존 등) 을 엄격하게 준수하도록 보장하기 위해, 학습 가능한 경량 연산자를 도입하여 유연하게 보정하는 새로운 적응형 보정 기법을 제안하고, 이를 통해 기존 방법들보다 정확도와 안정성을 크게 향상시킴을 이론적 분석과 다양한 실험을 통해 입증합니다.
이 논문은 비선형 조작 (Nonprehensile Manipulation) 환경에서 데이터 수집 효율성과 계획 신뢰성을 동시에 향상시키기 위해 잔류 물리 모델링과 불확실성 기반의 능동 학습을 결합한 'ActivePusher' 프레임워크를 제안합니다.
이 논문은 전문가 수준의 테이블 이해, 추론, 조작 능력을 포괄적으로 평가하기 위해 25 가지 실제 태스크와 28,000 개 이상의 질문으로 구성된 대규모 벤치마크인 MMTU 를 소개하고, 최신 선두 모델들조차 이 작업에서 상당한 개선의 여지가 있음을 보여줍니다.
이 논문은 학습률을 극단적으로 높여 신경망 최적화 과정을 혼돈의 시작점으로 유도함으로써, 탐색과 활용의 균형을 이루고 훈련 시간을 단축하며 학습 효율성을 극대화할 수 있음을 보여줍니다.
EROICA 는 대규모 GPU 클러스터에서 발생하는 하드웨어 및 소프트웨어 성능 문제를 실시간으로 진단하고 근본 원인을 규명하기 위해 프로파일링 기반의 미세 관찰과 차등 관측성을 활용한 최초의 온라인 문제 해결 시스템입니다.
이 논문은 AMP 모듈과 Multi-Envelope Discriminator(MED) 를 도입하여 장기간 오디오 생성의 일관성과 고음질을 향상시키고, 다양한 판별자 조합 전략을 체계적으로 평가한 BemaGANv2 를 제안합니다.
이 논문은 데이터와 모델의 이질성을 모두 고려하여 개인화 연동 학습의 현실적 적용을 가능하게 하는 'Co-LoRA' 프레임워크와 새로운 멀티모달 벤치마크를 제안하고, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.
이 논문은 로지스틱 컨텍스트 슬레이트 밴딧 문제에서 국소적 계획과 전역적 학습을 결합하여 의 낮은 계산 비용으로 의 후회 (regret) 를 달성하는 효율적인 알고리즘을 제안하고, 이를 언어 모델의 프롬프트 예제 선택 등 실제 응용에 성공적으로 적용함을 보여줍니다.
이 논문은 Sharpness-aware minimization(SAM) 의 특성을 분석하여 머신 언러닝 성능을 향상시키고, 이를 기반으로 리텐 신호 학습과 포ゲット 신호 제거를 동시에 최적화하는 'Sharp MinMax'라는 새로운 알고리즘을 제안하여 다양한 언러닝 방법론의 성능을 개선함을 보여줍니다.
이 논문은 콜모고로프 - 아르놀드 표현 정리를 기반으로 한 새로운 생성 모델인 KAEM 을 제안하여, 단순한 잠재 사전 분포의 효율성과 복잡한 반복적 샘플러의 표현력 사이의 균형을 맞추면서도 빠른 추론과 해석 가능성을 동시에 달성하는 방법을 제시합니다.
이 논문은 밀집된 작물 이미지에서 수동 주석을 최소화하면서도 형태와 질감에 초점을 맞춘 GLMask 를 도입하여 인스턴스 분할 성능을 획기적으로 향상시키는 반-자기지도 학습 접근법을 제안합니다.