Resource-constrained Amazons chess decision framework integrating large language models and graph attention
이 논문은 제한된 컴퓨팅 자원에서 그래프 어텐션 메커니즘과 GPT-4o-mini 를 결합한 경량 하이브리드 프레임워크를 제안하여, 노이즈가 있는 데이터에서도 아만존스 체스 게임에서 기존 베이스라인과 교사 모델보다 뛰어난 성능을 달성함을 입증합니다.
4796 편의 논문
이 논문은 제한된 컴퓨팅 자원에서 그래프 어텐션 메커니즘과 GPT-4o-mini 를 결합한 경량 하이브리드 프레임워크를 제안하여, 노이즈가 있는 데이터에서도 아만존스 체스 게임에서 기존 베이스라인과 교사 모델보다 뛰어난 성능을 달성함을 입증합니다.
이 논문은 프론티어 LLM 의 지시 계층 구조 (IH) 강인성을 향상시키기 위해 고안된 강화 학습 데이터셋 'IH-Challenge'를 소개하고, 이를 통해 GPT-5-Mini 의 지시 계층 안정성을 10% 이상 개선하면서도 안전성과 유용성을 동시에 확보한 결과를 제시합니다.
이 논문은 통신 및 위치 제약 하에서 불확실한 의료 수요에 대응하기 위해 부분 관측 마르코프 결정 과정 (POMDP) 으로 모델링된 UAV 군집을 조정하고, 비동기식 및 순차적 학습 전략보다 우수한 성능을 보이는 Proximal Policy Optimization (PPO) 기반의 다중 에이전트 강화학습 프레임워크를 제안합니다.
본 논문은 팔, 어깨, 고관절, 하퇴부 등 네 가지 해부학적 부위의 골격 및 임플란트 분할을 위해 11 개의 프롬프트 기반 기초 모델을 평가한 결과, 모델 간 성능 차이가 크고 인간이 입력한 프롬프트에서는 이상적인 지시보다 성능이 저하되며 모델이 프롬프트 변화에 민감하다는 점을 밝혔습니다.
이 논문은 ODE 에서 영감을 받은 수축적 반복 업데이트를 통해 레이어 스택링을 대체하는 SCORE 를 제안하여, 가중치 공유로 파라미터를 줄이면서도 다양한 아키텍처에서 수렴 속도와 학습 효율성을 개선함을 보여줍니다.
이 논문은 사전 훈련된 비전 - 언어 모델 (VLM) 과 경량 어댑터를 활용하여 학습 데이터 없이도 탄소섬유강화플라스틱 (CFRP) 의 내부 결함을 제로샷 방식으로 이해하고 국소화할 수 있는 새로운 언어 기반 인지 결함 분석 프레임워크를 제안합니다.
이 논문은 수동적 보상 신호 없이 상호작용 경험을 모델 파라미터에 주입하는 자기 미세조정 프레임워크를 제안하여, 동적 RAN 슬라이싱 제어 과제에서 기존 강화학습 및 LLM 에이전트보다 뛰어난 성능을 입증했습니다.
이 논문은 비전 - 언어 모델 (VLM) 을 자율 컴퓨터 사용 에이전트 (CUA) 의 수행자 평가자로 활용하는 메타 평가를 통해, 복잡한 환경에서의 성능 저하와 모델 간 불일치 등 현재 모델 기반 감사 접근법의 근본적 한계를 드러내고 평가자의 신뢰성과 불확실성을 고려해야 할 필요성을 강조합니다.
이 논문은 도덕적 추론 작업에서도 분포 매칭 기반의 다양성 추구 알고리즘이 아닌, 기존 보상 극대화 RLVR 방법이 더 효과적일 수 있음을 실증적으로 규명하며, 도덕적 추론의 고수익 응답 분포가 수학 추론보다 더 집중되어 있음을 발견했습니다.
이 논문은 커널 밀도 추정을 통해 KL 발산의 Wasserstein 기울기 흐름과 동치임을 증명하고, 모드 붕괴와 모호함을 동시에 해결하기 위해 역 KL 및 발산을 결합한 새로운 생성 모델 프레임워크인 'Gradient Flow Drifting'을 제안합니다.
이 논문은 불완전한 관측 데이터에서도 정확한 궤적 예측을 가능하게 하기 위해, 누락된 정보를 점진적으로 복원하는 '점진적 회고 학습 (Progressive Retrospective Learning)' 프레임워크를 제안합니다.
이 논문은 에이전트 실행 궤적을 분석하여 성공 패턴, 오류 복구, 최적화 방안을 추출하고 이를 맥락에 맞는 메모리로 재구성함으로써 에이전트의 자기 개선 능력을 획기적으로 향상시키는 새로운 프레임워크를 제안합니다.
이 논문은 수학적 영역을 넘어 자유형 답변이 필요한 일반 추론 영역에서도 외부 검증기 없이 대규모 언어 모델을 활용하여 정답 생성에 대한 조건부 기댓값을 보상으로 제공하는 '조건부 기댓값 보상 (CER)'을 제안함으로써 강화 학습의 적용 범위를 확장하고 있음을 보여줍니다.
이 논문은 정상 입력에서는 정상 작동하지만 특정 트리거가 포함될 때 공격자의 의도대로 작동하는 머신러닝 백도어를 탐지하고 제거하기 위해 신경망 내의 활성 경로를 기반으로 한 설명 가능한 새로운 접근법을 제시하며, 이를 침입 탐지 시스템에 적용한 실험을 통해 그 유효성을 입증합니다.
이 논문은 물류 및 작업장 스케줄링과 같은 공유 작업 공간에서 다중 객체 탐색을 위해 기성 스케줄러와 모션 플래너를 교차시키며 공간적 충돌 및 시간 조정에 대한 기호 피드백을 점진적으로 학습하는 새로운 프레임워크를 제안하고 그 유효성을 검증합니다.
이 논문은 실제 환경의 교란 조건에서 비디오 추론 모델의 성능 저하를 해결하기 위해, 난이도 인식 온라인 학습 전략과 강인성 인식 일관성 보상을 도입한 새로운 학습 프레임워크 'ROVA'와 이를 평가하기 위한 벤치마크 'PVRBench'를 제안합니다.
이 논문은 추상 해석과 LiRPA 기반 바운딩을 활용하여 대규모 신경망에서도 설명 크기를 줄이면서 확장 가능한 새로운 형태의 귀납적 설명인 FAME(Formal Abstract Minimal Explanation) 을 제안하고, 이를 통해 기존 방법 대비 설명 크기와 실행 시간 측면에서 일관된 개선을 달성했음을 보여줍니다.
이 논문은 진단을 단일 회귀 예측이 아닌 상호작용적 심층 임상 연구 과정으로 재정의하여, MIMIC-CDM 벤치마크에서 임상가 수준의 정확도를 달성하고 외부 코호트에서도 성능을 크게 향상시킨 'DxEvolve'라는 자가 진화형 진단 에이전트를 제안합니다.
이 논문은 OpenBCI Galea 헤드셋과 SuperTux 기반의 게임 환경을 통합하여 생체 신호와 상호작용 데이터를 플랫폼에 구애받지 않고 동기화 및 구조화함으로써, 향후 윤리적 승인을 거친 포용적 디지털 인간 모델링 및 AI 연구의 기반을 마련하는 프레임워크를 제안합니다.
이 논문은 지식 증류와 탐색 공간의 정밀한 축소를 기반으로 하여 블랙박스 신경망에 대한 적대적 예제를 보장된 수렴성으로 계산하는 'Contract And Conquer (CAC)' 방법을 제안하고 ImageNet 데이터셋에서 기존 최첨단 방법들을 능가하는 성능을 입증합니다.