OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
이 논문은 100 년에 걸친 미국 재무성 공보로 구성된 대규모 문서 코퍼스를 기반으로 한 새로운 벤치마크 'OfficeQA Pro'를 소개하며, 최첨단 LLM 들이 엔터프라이즈급 근거 기반 추론에서 여전히 낮은 성능을 보인다는 점을 입증하고 구조화된 문서 표현의 중요성을 강조합니다.
148 편의 논문
이 논문은 100 년에 걸친 미국 재무성 공보로 구성된 대규모 문서 코퍼스를 기반으로 한 새로운 벤치마크 'OfficeQA Pro'를 소개하며, 최첨단 LLM 들이 엔터프라이즈급 근거 기반 추론에서 여전히 낮은 성능을 보인다는 점을 입증하고 구조화된 문서 표현의 중요성을 강조합니다.
이 논문은 자연어 처리 및 정보 검색 분야에서 딥러닝과 머신러닝 모델의 불투명성 문제를 해결하기 위해 단어 임베딩, 시퀀스 모델링, 어텐션 모듈, 트랜스포머, BERT, 문서 순위 결정 등 다양한 기법의 설명 가능성과 해석 가능성에 대한 연구 동향을 광범위하게 조사하고 향후 연구 방향을 제시합니다.
이 논문은 협업 정보의 노이즈가 장기 꼬리 항목의 콘텐츠 표현을 훼손하고 중요한 행동 기반 시드 (SID) 를 가리는 문제를 해결하기 위해, 적응적 행동 - 콘텐츠 정렬과 동적 행동 가중치 메커니즘을 통해 협업 정보를 적응적으로 제거하는 ADC-SID 프레임워크를 제안합니다.
본 연구는 온라인 리뷰 평가 순서 (평가 후 리뷰 vs. 리뷰 후 평가) 가 서비스 품질과 제품 속성에 따라 감성적 휴리스틱과 인지적 노력의 매개 작용을 통해 소비자 평점에 극단화 효과를 미친다는 것을 실험 및 대규모 데이터 분석을 통해 규명했습니다.
이 논문은 TREC 2022 공정성 트랙 데이터를 활용해 추론 기반과 비추론 기반 재순위화 모델을 비교한 결과, 추론 기능이 공정성 (AWRF) 을 개선하거나 해치지 않으며 기존 순위의 공정성 특성을 유지한다는 것을 밝혔습니다.
이 논문은 기존 생성형 추천 시스템의 비효율적인 토큰 인터리빙 방식을 개선하여, 아이템과 행동 간의 인과 관계를 명시적으로 모델링하는 새로운 아키텍처 (AttnLFA, AttnMVP) 를 제안함으로써 성능을 향상시키고 학습 시간을 단축하는 것을 목표로 합니다.
이 논문은 생성형 검색의 최적화 차단과 기하학적 충돌 문제를 해결하기 위해, 가변적 강제 학습과 대칭 가중치 공유를 통한 연산 통합 및 단위 초구에서의 등방성 기하학적 최적화를 제안하는 '미분 가능 기하학적 인덱싱 (DGI)'을 소개합니다.
이 논문은 사용자의 장기적 선호도와 급변하는 단기적 관심사를 모두 포착하기 위해 전역 및 국소적 시간적 관점에서 사용자 선호도를 학습하는 통합 프레임워크를 제안하여 뉴스 추천의 정확성과 신선도를 향상시킵니다.
이 논문은 에이전트 실행 궤적을 분석하여 성공 패턴, 오류 복구, 최적화 방안을 추출하고 이를 맥락에 맞는 메모리로 재구성함으로써 에이전트의 자기 개선 능력을 획기적으로 향상시키는 새로운 프레임워크를 제안합니다.
이 논문은 동적 스키마 진화와 재사용 가능한 뷰를 지원하며 샘플링 기반 알고리즘을 통해 계산 병목 현상을 해결함으로써 기존 시스템 대비 월등한 속도와 높은 정확도를 제공하는 탐색형 비즈니스 인텔리전스 시스템 'ExBI'를 제안합니다.
이 논문은 사용자, 아이템, 플랫폼의 이해관계를 모두 고려하여 기존 추천 시스템의 한계를 극복하고 정확성과 공정성을 동시에 향상시키는 최초의 삼자 협력 기반 에이전트 추천 프레임워크 'TriRec'을 제안합니다.
본 논문은 Schema.org 마크업과 링크드 데이터 플랫폼 기반의 구조화된 엔티티 페이지를 활용하여 표준 및 에이전트 기반 RAG 시스템의 정확도와 답변 품질을 크게 향상시킬 수 있음을 실험을 통해 입증했습니다.
이 논문은 임베딩, 색인, 검색, 재순위화, 생성 등 RAG 파이프라인의 각 모듈을 분리하여 구성 가능하게 하고, 다양한 데이터셋과 벡터 데이터베이스, LLM 을 지원하며 성능 및 정확도 지표를 자동 수집하는 종단간 벤치마킹 프레임워크 'RAGPerf'를 제안합니다.
이 논문은 중국어 은유 식별의 투명성과 해석 가능성을 높이기 위해 LLM 을 보조로 활용하여 MIPVU 등 네 가지 서로 다른 프로토콜을 실행 가능한 규칙 스크립트로 구현하고, 이를 통해 프로토콜 선택이 모델 성능보다 식별 결과의 변동성에 더 큰 영향을 미친다는 것을 입증했습니다.
이 논문은 영어와 독일어 카탈로그 기록에 통합 권위 파일 (GND) 주석이 달린 대규모 이언어 말뭉치와 머신 액션 가능한 GND 분류 체계를 공개하여, 확장 가능한 주제 색인 및 권위 기반 AI 보조 도구를 위한 오토니지 인식 다중 레이블 분류 연구를 가능하게 한다고 요약할 수 있습니다.
본 논문은 대형 언어 모델의 사실성 부족과 추론 한계를 극복하기 위해, 반복적 스키마 정제 알고리즘으로 구축된 하이브리드 제약 지식 베이스와 검증 기반 체인 추론을 결합한 'PharmGraph-Auditor' 시스템을 제안하여 처방 검증의 안전성과 추적 가능성을 강화하는 방법을 제시합니다.
이 논문은 13 개의 저자원 BEIR 태스크와 5 가지 LLM 기반 PRF 방법을 통해 체계적인 실험을 수행하여, 피드백 소스와 피드백 모델의 선택이 PRF 성능에 미치는 영향을 규명하고 각 설계 요소의 중요성을 명확히 했습니다.
이 논문은 지속 가능한 전자상거래를 위해 사용자 의도를 정밀하게 파악하여 친환경 제품을 추천하고 불필요한 상호작용을 줄임으로써 시스템 자체의 탄소 발자국까지 최소화하는 LLM 기반 다중 에이전트 추천 시스템 'LLMGreenRec'을 제안합니다.
이 논문은 알고리즘과 AI 요약이 인간적 해석을 자동화하며 사라지게 하는 창의적 독서 과정을 '독서 활동 흔적 (RATs)'이라는 개념으로 재정의하고, 이를 가시화하여 인간 해석의 가치를 보존하는 새로운 도구 설계를 제안합니다.
이 논문은 복잡한 구조와 의미를 가진 인간 중심 테이블 (HCT) 에 대한 자연어 질문 답변을 평가하기 위한 대규모 벤치마크인 HCT-QA 를 제안하고, 다양한 LLM 과 VLM 의 성능을 분석하며 파인튜닝을 통한 성능 향상 가능성을 입증합니다.