DRBench: A Realistic Benchmark for Enterprise Deep Research
이 논문은 공개 웹과 기업 내부 지식 베이스를 모두 활용하여 복잡한 다단계 조사 과제를 수행하는 AI 에이전트의 능력을 평가하기 위해 서비스노우에서 개발한 'DRBench'라는 새로운 벤치마크와 100 개의 실제 시나리오를 소개합니다.
994 편의 논문
이 논문은 공개 웹과 기업 내부 지식 베이스를 모두 활용하여 복잡한 다단계 조사 과제를 수행하는 AI 에이전트의 능력을 평가하기 위해 서비스노우에서 개발한 'DRBench'라는 새로운 벤치마크와 100 개의 실제 시나리오를 소개합니다.
이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.
이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.
이 논문은 내비게이션 에이전트의 공간 지능을 체계적으로 평가하기 위해 'NavSpace' 벤치마크를 제안하고, 이를 통해 기존 모델들의 한계를 드러내며 새로운 공간 지능 내비게이션 모델인 'SNav'를 개발하여 우수한 성능을 입증했습니다.
이 논문은 언어 모델의 추론 능력과 암기된 지식의 영향을 명확히 분리하여 평가하기 위해, 실제 세계와 구조는 동일하지만 지식 무용지물인 합성 세계를 병렬로 구축하는 'SynthWorlds' 프레임워크를 제안합니다.
이 논문은 LLM 기반의 다중 에이전트 토론을 시뮬레이션하고 이를 이질적 그래프로 구조화하여 그래프 신경망으로 추론하는 'ReViewGraph' 프레임워크를 제안함으로써, 기존 자동 논문 심사 방법의 한계를 극복하고 심사자 - 저자 간 논쟁 구조를 정교하게 반영한 더 정확한 심사 결정을 가능하게 합니다.
이 논문은 2021 년부터 2024 년까지의 565 만 건의 과학 논문 데이터를 분석한 결과, 생성형 AI 도구의 사용이 비영어권 국가의 저자들이 미국식 과학 영어에 더 빠르게 수렴하도록 하여 언어적 장벽을 낮추고 있음을 보여준다고 요약할 수 있습니다.
이 논문은 기존 연구의 한계인 가짜 다중모달성과 사용자 동질성 문제를 해결하기 위해, 사용자의 장기적 성향을 반영한 'U-MStance' 데이터셋과 이를 기반으로 한 다중모달 스탠스 감지 프레임워크 'PRISM'을 제안합니다.
이 논문은 가짜 뉴스 탐지와 확산 예측을 비교 분석하여, 텍스트 임베딩이 갖춰진 경우 탐지 작업은 안정적이지만 확산 예측은 운영적 선택에 민감함을 보여주며, 제한된 자원 환경에서도 최첨단 성능을 낼 수 있는 경량화되고 투명한 파이프라인을 제안합니다.
이 논문은 교육용 RAG 시스템의 사실적 정확도를 높이기 위해 엔티티 링크링을 통합한 ELERAG 아키텍처를 제안하고, 도메인 특화 데이터셋에서 기존 베이스라인 및 크로스-인코더 기반 방법보다 우수한 성능을 입증했습니다.
이 논문은 LLM 기반 심층 연구 에이전트가 생성한 전문가 수준의 보고서를 평가하기 위해 전문가가 개발한 7 차원 25 하위 차원의 세분화된 평가 체계와 주장 검증 아키텍처를 포함한 'DEER'라는 새로운 벤치마크를 제안하고, 현재 시스템이 구조적 완성도는 갖췄지만 전문가 요구 충족과 논리적 완결성 측면에서 개선의 여지가 있음을 밝혔습니다.
이 논문은 기존 활성화 기반 방법의 한계를 극복하고, 표적 뉴런 개입을 통해 언어별 예측에 대한 기능적 기여도를 분석하여 다국어 대형 언어 모델 내 언어별 뉴런의 비대칭적 전문성을 규명하는 CRANE 프레임워크를 제안합니다.
이 논문은 EVM 호환 체인에서 자연어 기반 트랜잭션 코드 생성의 실행 정확성과 안전성을 평가하기 위해 동적 검증 방식을 도입한 새로운 벤치마크인 'EVM-QuestBench'를 제안하고, 이를 통해 다양한 대규모 언어 모델들의 성능 격차와 단일 작업 대비 다단계 워크플로우 수행 능력의 비대칭성을 분석합니다.
이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.
이 논문은 고품질의 다턴 도구 사용 데이터를 생성하고 검증 기반 강화 학습을 통해 사용자 시뮬레이션 노이즈를 줄이는 통합 프레임워크인 'EigenData'를 제안하여, 고비용 인간 라벨링 없이도 복잡한 도구 사용 에이전트를 확장 가능하게 학습시키는 방법을 제시합니다.
이 논문은 매 토큰 생성 전에 난이도에 따라 가변적인 길이의 잠재적 사고 체인 (Latent CoT) 을 자동으로 생성하여 모델 파라미터를 늘리지 않고도 언어 모델의 성능을 향상시키고 계산 효율성을 높이는 새로운 사전 학습 방법을 제안합니다.
이 논문은 대규모 언어 모델의 어텐션 점수를 활용하여 전체 후보 목록의 맥락을 고려한 효율적인 재랭킹 프레임워크를 제안하고, 다양한 도메인과 LoCoMo 벤치마크에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.
이 논문은 민감한 개인 데이터를 처리하는 다중 모달 감정 분석 시스템에서 특정 모달리티의 삭제를 인증 가능하게 수행하면서도 예측 성능을 유지하는 'Missing-by-Design (MBD)' 프레임워크를 제안합니다.
이 논문은 14 가지 숨겨진 행동을 가진 56 개의 언어 모델을 포함하는 정렬 감사 벤치마크인 'AuditBench'를 소개하고, 이를 통해 다양한 감사 도구의 효능과 모델 학습 기법에 따른 감사 난이도 차이를 평가하는 자율 감사 에이전트 프레임워크를 제시합니다.
이 논문은 에이전트가 도구를 재사용 가능한 고수준 '스킬'로 추상화하고 재구성할 수 있는 능력을 평가하기 위한 새로운 벤치마크 'SkillCraft'를 제안하고, 이를 통해 에이전트의 토큰 사용량을 최대 80%까지 줄이면서 성공률을 높일 수 있음을 입증했습니다.