Mem-T: Densifying Rewards for Long-Horizon Memory Agents
이 논문은 희소하고 지연된 보상 문제를 해결하기 위해 메모리 작업 트리를 통한 힌드사이트 크레딧 할당을 도입한 MoT-GRPO 학습 프레임워크와 경량 계층적 메모리 데이터베이스를 활용한 Mem-T 에이전트를 제안하여 장기 기억 관리 정책의 종단간 최적화와 성능 향상을 달성했습니다.
8489 편의 논문
이 논문은 희소하고 지연된 보상 문제를 해결하기 위해 메모리 작업 트리를 통한 힌드사이트 크레딧 할당을 도입한 MoT-GRPO 학습 프레임워크와 경량 계층적 메모리 데이터베이스를 활용한 Mem-T 에이전트를 제안하여 장기 기억 관리 정책의 종단간 최적화와 성능 향상을 달성했습니다.
이 논문은 랭크 - 스코어 특성 함수와 인지적 다양성을 활용한 조합 융합 분석 (CFA) 기법을 적용하여 개별 모델 및 기존 비트코인 가격 예측 모델보다 뛰어난 성능 (MAPE 0.19%) 을 달성한 새로운 예측 모델을 제안합니다.
본 논문은 SGD 기반의 기존 데이터 기여도 추정 방법이 Adam 최적화 환경에서는 신뢰성이 떨어진다는 점을 지적하고, 선형화된 유령 근사 (Linearized Ghost Approximation) 를 통해 Adam 의 특성을 반영하면서도 기존 학습 속도를 유지하며 높은 정확도로 데이터 기여도를 추정하는 'Adam-Aware In-Run Data Shapley'를 제안합니다.
이 논문은 Schwartz 의 고차원 가치 범주가 단일 문장 기반 인간 가치 감지 작업에서 경성 계층적 게이트링보다는 인덕티브 바이어스나 보정 및 앙상블 기법과 결합될 때 더 유용함을 보여줍니다.
이 논문은 역할 인식 맞춤형 메모리와 정보 과부하 문제를 해결하기 위해 토큰 효율적인 잠재 메모리 프레임워크인 LatentMem 과 이를 최적화하는 LMPO 를 제안하여 다중 에이전트 시스템의 성능을 기존 방식 대비 최대 19.36% 향상시킨 연구입니다.
이 논문은 인간의 학습 과정에 영감을 받아, 오답 시 탐색을 확장하고 정답 시 불필요한 반복을 줄이는 동적 보상 체계 'T2T(Thickening-to-Thinning)'를 제안하여 LLM 의 추론 능력을 획기적으로 향상시켰다고 요약할 수 있습니다.
이 논문은 모델 가중치나 학습 데이터를 수정하지 않고도 LLM 의 채팅 템플릿을 악성화하여 추론 시에만 발동하는 백도어를 구현할 수 있으며, 이는 현재 주요 오픈 가중치 배포 플랫폼의 자동 보안 스캔을 우회하는 새로운 공급망 공격 벡터임을 입증합니다.
이 논문은 NP-hard 인 oblique 분할 문제를 비선형 최소제곱 문제로 재해석하여 뉴턴 방법 기반의 Hinge Regression Tree(HRT) 를 제안하고, 수렴성과 보편적 근사 능력을 이론적으로 증명하며 다양한 벤치마크에서 기존 단일 트리 모델보다 우수한 성능과 간결한 구조를 입증합니다.
이 논문은 기존 신경망이 방사형 특이점을 모델링하는 데 한계가 있음을 수학적으로 증명하고, 가변 지수 거듭제곱과 로그 항을 결합한 '방사형 뮌츠-슈아츠 네트워크 (RMN)'를 제안하여 극소 파라미터로 높은 정확도와 물리 법칙 준수 능력을 달성했음을 보고합니다.
이 논문은 데이터 분포와 시스템 자원의 이질성으로 인한 로컬 - 글로벌 간극을 해결하기 위해, 고정된 길이의 글로벌 프롬프트와 각 클라이언트의 특성에 맞춘 가변 길이 로컬 프롬프트를 결합하고 서브스페이스 정제 및 발산 제어 전략을 도입한 이질적 연합 프롬프트 학습 프레임워크인 SDFed 를 제안합니다.
이 논문은 하이브리드 RAG 시스템에서 벡터 검색 결과가 그래프 확장을 통해 민감한 데이터 영역으로 이동하는 '검색 피벗 공격'의 위험을 규명하고, 그래프 확장 경계에서 권한 검증을 수행함으로써 추가적인 오버헤드 없이 이러한 데이터 유출을 효과적으로 차단할 수 있음을 입증합니다.
이 논문은 기존 뇌 그래프 사전학습 방법의 한계를 극복하기 위해, 의미 있는 연결 패턴을 보존하고 전역 구조 정보를 포착하도록 확산 모델을 활용한 구조 인식 드롭 및 마스킹 전략과 토폴로지 인식 읽기 및 재구성 방식을 통합한 새로운 사전학습 프레임워크를 제안하고, 2 만 5 천 명 이상의 뇌 영상 데이터를 통해 그 유효성을 입증했습니다.
이 논문은 네덜란드 정보공개 문서를 대상으로 페이지 순서 복원 연구를 수행하여, 시퀀스 2 시퀀스 트랜스포머가 긴 문서에서 일반화 실패를 보인 반면, 모델 특화 전략이 긴 문서의 순서 재배열 성능을 크게 향상시켰음을 밝혔습니다.
이 논문은 기존 응답 기반 방법의 한계를 보완하기 위해 문맥 임베딩과 토픽 모델링을 활용한 응답 없는 심리 척도 간소화 프레임워크를 제안하며, 이를 통해 척도 길이를 평균 60.5% 단축하면서도 원래의 심리측정적 특성과 구조를 효과적으로 유지할 수 있음을 실증했습니다.
이 논문은 뉴턴-슈어츠 반복을 통한 직교화를 수행하는 Muon 옵티마이저의 크기 불안정성 문제를 해결하기 위해, 전역 RMS 보정과 에너지 기반 신뢰 영역 클리핑을 결합한 TrasMuon 을 제안하며, 이는 웜업 단계 없이도 기존 베이스라인보다 빠른 수렴과 향상된 안정성을 입증합니다.
이 논문은 LLM 기반 추천 시스템의 평가 신뢰성을 위협하는 '벤치마크 데이터 유출' 현상을 규명하고, 유출 데이터의 도메인 관련성에 따라 모델 성능이 왜곡되거나 저하될 수 있음을 실험을 통해 입증했습니다.
이 논문은 학습 중 순간 속도 제약 (IVC) 을 통해 표현력을 보장하면서도 단일 단계로 행동을 생성할 수 있는 새로운 생성 정책인 평균 속도 정책 (MVP) 을 제안하여, 로봇 조작 작업에서 기존 흐름 기반 정책 대비 뛰어난 성공률과 빠른 추론 속도를 달성했습니다.
이 논문은 제약된 물리 파라미터와 이산적 잠재 구조를 모두 처리할 수 있도록 엔드포인트 유도 아핀 기하학적 구속과 변분 모델링을 도입하여 시뮬레이션 기반 추론 (SBI) 의 범위를 확장하고 정확도를 향상시킨 'Pawsterior'라는 새로운 변분 흐름 매칭 프레임워크를 제안합니다.
이 논문은 코드가 강화학습보다 학습 가능한 정보 구조를 가지고 있어 예측 가능한 확장이 가능한 반면, 대부분의 강화학습 문제는 피드백의 질적 차이로 인해 단순한 모델 크기 확장에 한계가 있음을 지적하며, 표현 가능성·계산 가능성·학습 가능성의 세 가지 속성 간 관계를 규명하는 5 단계 학습 가능성 계층 구조를 제안합니다.
이 논문은 수시간 분량의 오디오를 구조화된 사건 레코드로 변환하여 SQL 데이터베이스에 저장하고, 이를 기반으로 자연어 질문을 해결하는 하이브리드 RAG 프레임워크인 LongAudio-RAG 를 제안하며, 엣지-클라우드 환경에서의 실용성과 기존 방법 대비 향상된 정확도를 입증합니다.