FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents
이 논문은 14 가지 에이전트 설정과 3 개 주요 제공업체의 실행 흔적을 포함한 500 개의 금융 질의로 구성된 'FinRetrieval' 벤치마크를 소개하며, 웹 검색보다 구조화된 데이터 API 를 통한 도구 접근성이 성능에 결정적인 영향을 미친다는 것을 보여줍니다.
154 편의 논문
이 논문은 14 가지 에이전트 설정과 3 개 주요 제공업체의 실행 흔적을 포함한 500 개의 금융 질의로 구성된 'FinRetrieval' 벤치마크를 소개하며, 웹 검색보다 구조화된 데이터 API 를 통한 도구 접근성이 성능에 결정적인 영향을 미친다는 것을 보여줍니다.
본 논문은 16,000 건 이상의 TripAdvisor 리뷰를 분석한 대규모 언어 모델 (LLM) 기반 프레임워크가 기존 지표가 포착하지 못한 항공사 서비스의 미세한 문제와 만족도 하락 원인을 규명하여, 항공 및 관광 산업에 실행 가능한 전략적 통찰을 제공하는 유효한 진단 도구임을 입증합니다.
이 논문은 2024 년과 2025 년의 두 시점 코퍼스 스냅샷을 비교 분석하여, 기술 도메인 정보 검색 벤치마크인 FreshStack 에서 시간적 변화가 발생하더라도 검색 모델의 성능 평가는 여전히 신뢰할 수 있음을 입증했습니다.
이 논문은 단일 정보 출처가 아닌 다중 소스의 증거를 통합하고 종합하는 고차원적인 정보 탐색 능력을 평가하기 위해, 실제 사용자 의도와 현실적 관심사를 반영한 동적 ODQA 벤치마크인 'iAgentBench'를 제안합니다.
이 논문은 숫자, 범위, 가우시안 분포와 그 단위 및 속성 이름을 통합하여 복잡한 수치 데이터의 의미와 거리를 보존하는 하이브리드 트랜스포머 인코더 'CONE'을 제안하고, 다양한 도메인에서 기존 최첨단 모델보다 뛰어난 수치 추론 능력을 입증했습니다.
이 논문은 R 통계 생태계의 데이터 분포 정보를 함수 표현에 통합한 경량 검색 모델 DARE 와 이를 활용한 R 코딩 에이전트 RCodingAgent 를 제안하여, 기존 LLM 에이전트의 통계적 지식 부족과 도구 검색의 한계를 극복하고 R 패키지 검색 및 코드 생성 성능을 획기적으로 향상시켰습니다.
이 논문은 점별, 쌍별, 목록별 재순위화 패러다임을 분석하여 재순위화 모델의 성능이 모델 크기와 데이터 규모에 따라 예측 가능한 멱법칙을 따름을 최초로 규명함으로써, 대규모 검색 시스템 구축 시 소규모 실험으로 대규모 모델의 성능을 정확히 예측하여 연산 비용을 절감할 수 있는 방법론을 제시합니다.
이 논문은 전자상거래 검색의 성능을 향상시키기 위해 텍스트와 이미지를 통합하는 새로운 융합 네트워크를 제안하고, 도메인 특화 미세 조정과 2 단계 정렬 전략의 중요성을 실증합니다.
이 논문은 생성형 RAG 광고의 다양한 스타일 (명시성과 호소 유형) 을 분류하고, 이러한 스타일 변화에 따른 탐지 모델의 견고성을 평가하여 엔티티 인식 기반 모델은 효과적이지만 경량 모델은 취약함을 밝혔습니다.
이 논문은 기존 순차 추천 모델이 노출 편향과 선택 편향을 해결하지 못하는 한계를 극복하기 위해, 사용자의 행동 시계열 의존성과 시간적 역동성을 고려한 '시간 인지 역선도 점수 (TIPS)' 방법을 제안하고 이를 통해 추천 성능을 향상시킨다는 내용입니다.
이 논문은 희소 지식 그래프에서 Leiden 클러스터링의 비재현성 문제를 해결하기 위해 k-core 분해를 도입하여 결정론적이고 효율적인 계층적 구조를 구축함으로써, 전역적 의미 파악 (global sensemaking) 작업의 정확성을 높이고 토큰 비용을 절감하는 새로운 GraphRAG 프레임워크를 제안합니다.
이 논문은 ANU 컴퓨터 과학 연구자의 학술 지식 그래프 (ASKG) 와 대형 언어 모델 (LLM) 을 통합하여 문서의 미세한 구조와 의미 관계를 정밀하게 파악하고 복잡한 질의를 효율적으로 처리하는 새로운 의미 질의 처리 시스템을 제안합니다.
이 논문은 텍스트 기반 작업에서 RAG 와 GraphRAG 를 체계적으로 비교 평가하기 위한 통합 프로토콜을 제시하고, 두 접근법의 장단점과 통합 전략을 분석하여 성능 향상을 도모합니다.
이 논문은 검색 증강 생성 (RAG) 파이프라인의 계산 비용을 줄이면서도 정확도를 유지하기 위해, 추론 시 동적으로 정보를 압축하고 재순위화를 수행하는 새로운 온라인 소프트 압축 및 재순위화 방법인 OSCAR 를 제안합니다.
이 논문은 Pinterest 의 규모에 맞춰 다양한 비즈니스 목표와 사용자 탐색을 균형 있게 지원하기 위해 결과 조건부 생성과 멀티 토큰 생성 기법을 도입한 산업용 생성형 추천 시스템 'PinRec'을 소개하고, 이를 통해 성능, 다양성, 효율성을 모두 달성한 첫 번째 엄밀한 연구를 제시합니다.
이 논문은 기존 추천 시스템의 피로감과 LLM 기반 프레임워크의 한계를 극복하기 위해, 장기적 그룹 정체성과 단기적 개인 관심을 통합하는 '이중-안정적 관심 탐색 (DSIE)' 모듈과 점진적 데이터를 활용한 동적 폐루프 최적화를 가능하게 하는 '주기적 협력 최적화 (PCO)' 메커니즘을 도입한 '공진정렬 (CoEA)' 방법을 제안하여 우연성 추천의 효과성을 입증합니다.
이 논문은 개인화된 심층 연구 에이전트의 평가를 위해 250 개의 실제 사용자 - 작업 쿼리로 구성된 PDR-Bench 와 개인화 정렬, 콘텐츠 품질, 사실적 신뢰성을 측정하는 PQR 평가 프레임워크를 제안합니다.
이 논문은 타오바오 비주얼 검색 시스템의 '사용자-검색 시스템 의도 불일치' 문제를 해결하기 위해 오프라인에서 대규모 모델을 활용한 잠재적 의도 마이닝과 온라인에서 실시간 의사결정을 수행하는 새로운 프레임워크 REVISION 을 제안하여 클릭 없는 요청률을 크게 감소시켰음을 보여줍니다.
이 논문은 대규모 멀티테넌트 검색 환경에서 자동화된 파이프라인을 통해 데이터셋을 구축하고, 문서 인덱스를 재구성하지 않고 쿼리 인코더만 효율적으로 미세 조정하는 'DevRev-Search' 프레임워크를 제안하여 확장 가능한 검색 적응을 가능하게 합니다.
이 논문은 Kuaishou 광고 시스템에 4.2% 의 광고 수익 향상과 함께 대규모 실시간 서비스를 가능하게 한 아키텍처, 학습, 서빙을 통합적으로 설계한 생성형 추천 시스템 'GR4AD'를 제안합니다.