Leaderboard Incentives: Model Rankings under Strategic Post-Training
이 논문은 현재 벤치마크가 모델 개발자에게 테스트 데이터에 특화된 전략적 학습을 유도하여 내재적 품질을 왜곡하는 문제를 지적하고, '튜닝 후 테스트 (tune-before-test)' 프로토콜을 통해 내재적 품질에 기반한 유일한 나시 균형을 달성할 수 있음을 증명합니다.
9043 편의 논문
이 논문은 현재 벤치마크가 모델 개발자에게 테스트 데이터에 특화된 전략적 학습을 유도하여 내재적 품질을 왜곡하는 문제를 지적하고, '튜닝 후 테스트 (tune-before-test)' 프로토콜을 통해 내재적 품질에 기반한 유일한 나시 균형을 달성할 수 있음을 증명합니다.
이 논문은 불균형 데이터의 과적합 문제를 해결하기 위해 국소적 가중치 업데이트를 역사적 시퀀스로 대체하는 '가중 분수 웨일 적분'을 기반으로 한 새로운 최적화 알고리즘을 제안하며, 의료 진단 및 금융 사기 탐지에서 기존 최적화 기법 대비 PR-AUC 를 약 40% 향상시키는 성과를 입증했습니다.
이 논문은 토큰 조건부 생성과 강화 학습을 결합한 ToCoRL 프레임워크를 제안하여 대규모 언어 모델이 재학습 없이도 상황에 맞는 행동을 유연하게 전환하고 학습할 수 있도록 함으로써, 복잡한 추론 모델이 사실 기반 질문 답변과 같은 다른 영역에서도 뛰어난 성능을 발휘하도록 함을 보여줍니다.
이 논문은 오프라인 다중 에이전트 강화학습에서 비선형 가치 분해의 불안정성을 해결하기 위해 스케일 불변 가치 정규화 (SVN) 를 제안하고, 이를 통해 오프라인 MARL 의 안정성을 확보하는 실용적인 레시피를 제시합니다.
이 논문은 학습 데이터의 매니폴드 구조를 반영한 가상의 이상치를 생성하여 분포 외 (OOD) 샘플에 대한 신경망의 강건성을 향상시키는 '기하학적 제약 이상치 합성 (GCOS)' 프레임워크를 제안하고, 이를 통해 기존 방법보다 우수한 OOD 탐지 성능과 통계적 오류 보장을 가능하게 하는 것을 보여줍니다.
이 논문은 하이브리드 액터-크리틱 아키텍처와 공유 표현 학습을 통합한 새로운 메타 강화학습 프레임워크를 제안하여, 실제 빌딩 에너지 관리 시스템 데이터에서 기존 방법보다 뛰어난 샘플 효율성과 빠른 적응 능력을 입증했습니다.
이 논문은 다양한 도메인에서 트랜스포머 모델의 내부 표현을 체계적으로 분석하고 견고성을 평가하기 위해 재학습 없이 작동하는 SYNAPSE 프레임워크를 제안하며, 이를 통해 정보의 중복성과 특정 라벨에 대한 민감성을 규명하고 모델의 취약점을 식별하는 방법을 제시합니다.
이 논문은 데스크톱 UI, API, 로컬/클라우드 모델 백엔드, 지속적 메모리, 재사용 가능한 스킬, MCP 호환 확장성 및 하드웨어 통합을 하나의 통합 오케스트레이션 코어로 연결하고, 3 단계 파이프라인과 적응형 모델 관리 시스템을 통해 계획의 질과 실행 능력을 분리하여 설계된 범용 AI 어시스턴트 플랫폼 'IronEngine'의 아키텍처, 성능, 및 비교 분석을 제시합니다.
이 논문은 새로운 작업을 학습할 때 필요한 가소성과 기존 지식의 안정성을 균형 있게 유지하면서도 메모리 오버헤드를 73%까지 줄일 수 있도록 모델 용량을 적응적으로 확장하거나 압축하는 'GRACE' 전략을 제안하여 클래스 증분 학습의 성능을 획기적으로 개선합니다.
이 연구는 100 명의 환자를 대상으로 한 전향적 임상 타당성 연구를 통해, 실시간 안전 감독 하에 AMIE 라는 대화형 진단 AI 가 실제 1 차 진료 환경에서 안전하고 환자와 의료진 모두에게 만족스러운 경험을 제공하며 진단 정확도 면에서 기존 주치의와 유사한 성능을 보였음을 입증했습니다.
이 논문은 경계 인식 청킹과 삼각 부등식에 기반한 계층적 KV 인덱싱을 통해 KV 캐시 검색을 로그 시간으로 최적화하여, 장기 컨텍스트 추론 시 3.6 배의 속도 향상을 달성하면서도 모델 성능 저하를 최소화하는 'LycheeCluster'를 제안합니다.
이 논문은 강화학습 에이전트가 점진적인 관측 드리프트에 대해 '깨어날' 임계값이 존재하며, 이는 감지기 성능과 환경 역학 간의 상호작용에 의해 결정되고, 특정 조건에서는 에이전트가 감지 전에 붕괴하는 '무감각한 실패' 모드가 발생할 수 있음을 규명합니다.
이 논문은 카메라와 LiDAR 의 상호 보완적 특성을 활용하여 정보 이득 (엔트로피 감소) 기반의 적응형 센서 선택 정책을 도입한 파티클 필터 추적기를 제안하고, 키프로스 아이나 나파 마리나에서의 실증 실험을 통해 단일 선박 추적의 정확성과 연속성을 동시에 개선하는 것을 입증했습니다.
이 논문은 자기지도 학습 잠재 표현의 교차 모달 유사성과 모달별 데이터 손상 정보를 활용한 데이터 기반 사전 분포를 도입한 'MedCertAIn' 프레임워크를 제안하여, MIMIC-IV 및 MIMIC-CXR 데이터를 기반으로 한 다중 모달 임상 데이터의 예측 성능과 불확실성 정량화를 크게 향상시킵니다.
이 논문은 체인 오브 씽킹 (CoT) 생성을 조건부 정보 병목 (CIB) 원리로 재해석하여, 어텐션 메커니즘의 마르코프 성질 위반 문제를 해결하고 의미적 사전 분포를 도입함으로써 추론 비용을 줄이면서도 정확도와 논리성을 유지하는 새로운 강화학습 목적 함수를 제안합니다.
이 논문은 복잡한 TPMS 기하학적 구조에서 유체 흐름을 해결할 때 발생하는 PINN 의 수렴 병목 현상을 극복하기 위해, 계층적 구형 제어 체적에 기반한 다중 스케일 약형 물리 정보 신경망 (MUSA-PINN) 을 제안하여 정확도와 질량 보존성을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 물리 법칙을 준수하는 라그랑주 신경망 (LNN) 을 강화학습의 Dyna 프레임워크에 통합하여, 기존 블랙박스 모델보다 더 정확하고 견고한 모델 기반 강화학습을 가능하게 함을 제안하고 있습니다.
이 논문은 불확실한 환경에서 로봇의 예측 정확도와 물리 일관성을 동시에 향상시키기 위해 보존적 강체 역학을 라그랑주 신경망으로 모델링하고 불확실한 상호작용을 조건부 흐름 매칭으로 학습하는 'STRIDE' 프레임워크를 제안합니다.
이 논문은 생성 모델 내부의 오디오 - 비주얼 교차 어텐션 메커니즘을 역추적하여 포렌식 신호를 추출하는 'X-AVDT' 검출기와 새로운 다중 모달 데이터셋 'MMDF'를 제안함으로써, 다양한 생성 모델에 대한 딥페이크 탐지의 강건성과 일반화 성능을 획기적으로 향상시켰습니다.
이 논문은 비선형 동역학 시스템의 비침습적 차원 축소 모델링을 위해 국소 연산자 구조를 보존하고 이질적 연산자의 합성 구성을 지원하는 구조 보존형 합성 신경망 기반 연산자 추론 (NN-OpInf) 프레임워크를 제안하며, 기존 다항식 기반 방법보다 향상된 정확도, 안정성 및 강건성을 입증합니다.