ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents
이 논문은 LLM 에이전트의 기억 검색과 추론 간 격차를 해소하기 위해, 비구조화된 대화 기록을 구조화된 인과 그래프로 변환하고 반사실 추론을 통해 잠재적 제약과 충돌을 해결하는 새로운 실행 가능 기억 프레임워크 'ActMem'과 이를 평가하기 위한 데이터셋을 제안합니다.
2405 편의 논문
이 논문은 LLM 에이전트의 기억 검색과 추론 간 격차를 해소하기 위해, 비구조화된 대화 기록을 구조화된 인과 그래프로 변환하고 반사실 추론을 통해 잠재적 제약과 충돌을 해결하는 새로운 실행 가능 기억 프레임워크 'ActMem'과 이를 평가하기 위한 데이터셋을 제안합니다.
이 논문은 요네이브 병원 환자 포털의 1,933 개 문장을 기반으로 코드 분류, 하위 코드 분류, 증거 추출이라는 세 가지 하위 작업을 통해 대규모 언어 모델의 전자적 환자 - 의료진 소통 분석 능력을 평가하는 새로운 벤치마크인 'EPPCMinerBen'을 제시하고, 지시 미세 조정된 대형 모델이 특히 증거 추출 및 세밀한 추론에서 우수한 성능을 보임을 입증합니다.
이 논문은 대규모 언어 모델의 비등방적 특성을 가진 거대 활성화 차원을 단순한 노이즈가 아닌 해석 가능한 기능 단위로 간주하여, 이를 식별하고 조종함으로써 도메인 적응 및 재일방화 시나리오에서 기존 방법보다 우수한 성능을 달성하는 새로운 접근법을 제시합니다.
이 논문은 구조화된 출력의 중복성과 약한 인과 의존성을 활용하여 토큰 압축과 병렬 생성을 동시에 수행하는 'SimpleTool'을 제안함으로써, LLM 함수 호출의 지연 시간을 획기적으로 단축하여 실시간 애플리케이션 배포를 가능하게 합니다.
이 논문은 대규모 언어 모델의 데이터 효율성을 극대화하기 위해 전역 분포 균형과 국소 인스턴스 선택을 통합한 'GRIP' 프레임워크를 제안하며, 이는 3 배 더 큰 정제되지 않은 데이터셋으로 학습된 모델보다 뛰어난 성능을 입증했습니다.
이 논문은 멀티모달 단답형 응답을 통해 학생의 정신 모델 품질을 추론하는 MMGrader 접근법을 제안하고, 현재 최첨단 VLM 들이 인간 수준의 성능에는 미치지 못하지만 (약 40% 정확도) 정확도가 향상되면 교사가 전체 학급의 개념 이해도를 효율적으로 파악하고 맞춤형 지도 전략을 수립하는 데 강력한 보조 도구로 활용될 수 있음을 시사합니다.
이 논문은 의료 서비스 리뷰의 방대한 양으로 인한 의사결정 어려움을 해결하기 위해, 사용자의 신뢰와 수용을 높이는 투명하고 계층화된 설명 가능한 AI 시스템 설계에 대한 실증적 근거와 실행 지침을 제시합니다.
이 논문은 일관된 용어와 부분적 해결책에 그쳤던 기존 LLM 평가 방식을 통합하고, 심리측정 기반 신뢰도 지표와 생산성 인프라를 갖춘 오픈소스 프레임워크 'Autorubric'을 제안하며, 다양한 벤치마크와 새로 구축된 CHARM-100 데이터셋을 통해 그 유효성을 입증합니다.
본 연구는 16,695 개의 레바논 관련 아랍어 트윗을 분석하여 언어적 불확실성을 나타내는 게시물이 확신적인 게시물보다 평균 51.5% 더 높은 참여도 (좋아요, 리트윗, 댓글) 를 얻으며, 특히 대화형 참여를 유도하는 경향이 있음을 밝혔습니다.
본 논문은 자발적인 프랑스어 임상 대화의 전사 및 화자 분리 정확도를 향상시키기 위해 화자 인식과 단어 인식을 교차하는 다중 패스 LLM 후처리 아키텍처를 제안하고, 자살 예방 상담 및 각성 뇌수술 상담 데이터를 통해 통계적으로 유의미한 성능 개선과 오프라인 임상 배포 가능성을 입증했습니다.
이 논문은 BERT 기반의 SVD 방향성 지표와 SOFARI 알고리즘을 결합하여 LLM 요약의 정확도를 계층적 주제와 해석 가능한 키워드로 평가하고 통계적 불확실성을 정량화하는 새로운 프레임워크인 LIDS 를 제안합니다.
이 논문은 금융 사이버 방어를 위해 공격 표면 마르코프 결정 과정 (MDP) 을 기반으로 한 다중 에이전트 강화 학습 프레임워크 'RLShield'를 제안하며, 이는 실시간 대응 조율과 비용 민감한 목적 함수를 통해 정적 규칙 기반 접근법보다 위협 격리 시간을 단축하고 비즈니스 중단 비용을 최소화하는 것을 목표로 합니다.
이 논문은 클라우드 기반 대형 언어 모델의 민감한 데이터와 모델 지식재산권을 동시에 보호하면서도 성능과 효율성을 유지하는 새로운 비밀 추론 프레임워크 'Talaria'를 제안합니다.
이 논문은 추론 단계의 기여도에 따라 길이를 적응적으로 조절하는 '단계별 적응적 페널티 (SWAP)' 프레임워크를 제안하여, 추론 길이를 64.3% 단축하면서도 정확도를 5.7% 향상시키는 효율적인 체인 오브 씽킹 (Chain-of-Thought) 학습 방법을 제시합니다.
이 논문은 GPT-2 에서 통제된 유도를 통해 수행한 실험을 통해, 토큰 수준의 의사반복 (pseudoreplication) 이 통계적 유의성을 과장한다는 사실을 규명하고, 중심 이탈 (Type 1) 과 잘못된 수렴 (Type 2) 은 구분되지 않지만 매개변수 크기보다는 노름 (norm) 의 크기에 의해 특징지어지는 커버리지 갭 (Type 3) 할루시네이션이 가장 기하학적으로 뚜렷한 실패 모드임을 입증했습니다.
이 논문은 의료 대화 데이터를 기반으로 라마 2 7B 모델을 파인튜닝하여 자동 유사도 지표와 LLM 평가 간 불일치를 확인하고, 의료 분야에서의 신뢰성 있는 평가를 위해 인간 전문가의 검증이 필수적임을 주장합니다.
이 논문은 단일 토큰 예측 대신 여러 개의 미래 토큰을 동시에 예측하도록 언어 모델을 학습시킴으로써, 추가적인 훈련 시간 없이 코딩 및 추론 능력과 추론 속도를 크게 향상시키는 방법을 제안합니다. *(참고: 제공된 제목 "Distribution-Aware Companding Quantization..."과 초록 내용 "Multi-token prediction..." 사이에 불일치가 있어, 초록의 핵심 내용인 '멀티 토큰 예측'에 기반하여 요약하였습니다.)*
이 논문은 조직의 정책 준수를 보장하기 위해 자연어 사용자 요청을 평가하는 최초의 벤치마크를 제안하고, 이를 통해 다양한 LLM 모델과 해결 방법의 정책 준수 평가 성능을 분석합니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용해 라벨링된 의료 소견 데이터를 자동 생성하고, 이를 통해 시각적 사실 식별과 보고서 생성을 분리하는 'Fact-Flow' 프레임워크를 제안함으로써 의료 보고서 생성 시 발생하는 사실적 불안정성을 해결하고 정확도를 획기적으로 향상시켰음을 보여줍니다.
이 논문은 범세계적 의존성 (Universal Dependencies) 을 기반으로 어순과 굴절 형태에 대한 다국어 마스킹 언어 모델의 의존성을 진단하기 위해 다양한 교란 기법을 적용하고 mBERT 와 XLM-R 의 성능을 평가하는 프레임워크를 제시합니다.