AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents
AriadneMem 은 오프라인에서 엔트로피 기반 필터링과 충돌 인식 병합을 통해 메모리를 구조화하고, 온라인에서 알고리즘적 브리지 탐색을 수행하여 긴 대화에서 다중 홉 추론 정확도를 높이고 실행 시간을 획기적으로 단축하는 LLM 에이전트를 위한 구조화된 메모리 시스템입니다.
154 편의 논문
AriadneMem 은 오프라인에서 엔트로피 기반 필터링과 충돌 인식 병합을 통해 메모리를 구조화하고, 온라인에서 알고리즘적 브리지 탐색을 수행하여 긴 대화에서 다중 홉 추론 정확도를 높이고 실행 시간을 획기적으로 단축하는 LLM 에이전트를 위한 구조화된 메모리 시스템입니다.
이 논문은 의료 분야의 복잡한 추론에서 발생하는 환각과 지식 부재 문제를 해결하기 위해, 다중 라운드 에이전트 루프를 통해 외부 증거와 내부 추론을 반복적으로 정제하여 최종 합의에 도달하는 'MA-RAG' 프레임워크를 제안하고, 7 개 의료 Q&A 벤치마크에서 기존 방법론 대비 평균 정확도를 6.8 점 향상시킨 것을 입증합니다.
이 논문은 인지 과학에 영감을 받아 에피소드 기억을 지식 중심의 그래프로 구조화하여, 다양한 LLM 에이전트에 부착 가능한 범용 메모리 모듈 'PlugMem'을 제안하고, 이를 통해 작업별 재설계 없이도 효율적인 정보 검색과 추론을 가능하게 함으로써 기존 작업 특화 및 범용 메모리 설계보다 우수한 성능을 입증했습니다.
이 논문은 주정부 도로국 (State DOTs) 의 지식 관리 및 인력 훈련 효율성을 향상시키기 위해, 전문 에이전트와 비전 - 언어 모델을 활용한 멀티 에이전트 기반의 검색 증강 생성 (RAG) 프레임워크를 제안합니다.
이 논문은 LLM 기반의 시맨틱 분석과 VARK 학습 스타일 인지 프로파일링을 결합한 하이브리드 프레임워크를 제안하여, 사용자 및 아이템의 상호작용 데이터가 부족한 콜드 스타트 문제를 해결하고 초기 접촉 단계에서도 개인화되고 설명 가능한 추천을 가능하게 합니다.
본 논문은 대규모 언어 모델의 장기 기억 관리 문제를 해결하기 위해, 작업 결과에 기반한 보상 강화 학습으로 훈련된 소형 프록시 모델을 활용해 메모리 검색을 효율적으로 위임하는 새로운 프레임워크인 'MemSifter'를 제안합니다.
이 논문은 그래프 라플라시안 평활화와 연상 기억 검색을 결합한 에너지 함수를 통해 노드 분류 성능과 강건성을 향상시키는 '그래프 홉필드 네트워크'를 제안합니다.
이 논문은 개인별 안전 민감도를 고려하지 않을 때 발생할 수 있는 LLM 기반 대화형 추천 시스템의 취약점을 규명하고, 'SafeRec' 벤치마크와 'SafeCRS' 학습 프레임워크를 통해 추천 품질을 유지하면서 안전 위반률을 최대 96.5%까지 획기적으로 줄이는 방법을 제시합니다.
이 논문은 다양한 LLM 에이전트 구성 요소 간의 단편적인 평가를 넘어, 자연어 질의에 기반하여 백본 모델과 툴킷을 결합한 최적의 에이전트 구성을 추천하기 위한 통합 데이터셋 및 평가 인프라인 'AgentSelect'를 제안하고, 이를 통해 에이전트 생태계의 연구와 발전을 가속화할 수 있는 재현 가능한 기반을 마련했습니다.
이 논문은 추천 시스템의 프리랭킹 단계에서 발생하는 이질적인 샘플 간의 경계 충돌과 비효율적인 계산 자원 할당 문제를 해결하기 위해, 손쉬운 샘플과 어려운 샘플을 분리하여 각각에 최적화된 경로를 제공하고 계산 예산을 적응적으로 할당하는 '이질성 인식 적응형 프리랭킹 (HAP)' 프레임워크를 제안하고 Toutiao 생산 환경에서 검증한 결과를 제시합니다.
이 논문은 공유 계정 환경에서 고정된 잠재 사용자 수 가설의 한계를 극복하고, 주파수 도메인 기반 행동 분리와 잠재 추론을 결합하여 계정에 숨겨진 사용자 수와 선호도를 효과적으로 추론하는 'DisenReason' 모델을 제안하여 추천 정확도를 크게 향상시켰음을 보여줍니다.
이 논문은 머신러닝과 대규모 오디오 언어 모델의 발전에 발맞춰 인간의 주관적 뉘앙스를 포착하고 AI 보조를 통한 자동 태깅을 지원하는 오픈소스 협업 오디오 주석 도구인 'LabelBuddy'의 아키텍처와 기능을 소개합니다.
이 논문은 대규모 비정형 지식과 도구 사용을 통합하여 평가하는 새로운 벤치마크인 '-Knowledge'와 이를 적용한 '-Banking' 도메인을 소개하며, 최첨단 모델조차도 복잡한 지식 기반에서 높은 정확도를 달성하는 데 어려움을 겪고 있음을 보여줍니다.
이 논문은 10 년간 200 만 개의 유튜브 영상을 분석하여 제휴 마케팅이 광범위하지만 FTC 규정 준수율이 낮음을 규명하고, 플랫폼의 표준화된 공개 기능이 투명성 제고에 핵심적임을 강조하며 규제 기관과 플랫폼 간 협력을 권고합니다.