OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

이 논문은 100 년에 걸친 미국 재무성 공보로 구성된 대규모 문서 코퍼스를 기반으로 한 새로운 벤치마크 'OfficeQA Pro'를 소개하며, 최첨단 LLM 들이 엔터프라이즈급 근거 기반 추론에서 여전히 낮은 성능을 보인다는 점을 입증하고 구조화된 문서 표현의 중요성을 강조합니다.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Explainability of Text Processing and Retrieval Methods: A Survey

이 논문은 자연어 처리 및 정보 검색 분야에서 딥러닝과 머신러닝 모델의 불투명성 문제를 해결하기 위해 단어 임베딩, 시퀀스 모델링, 어텐션 모듈, 트랜스포머, BERT, 문서 순위 결정 등 다양한 기법의 설명 가능성과 해석 가능성에 대한 연구 동향을 광범위하게 조사하고 향후 연구 방향을 제시합니다.

Sourav Saha, Debapriyo Majumdar, Mandar MitraThu, 12 Ma💬 cs.CL

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

이 논문은 협업 정보의 노이즈가 장기 꼬리 항목의 콘텐츠 표현을 훼손하고 중요한 행동 기반 시드 (SID) 를 가리는 문제를 해결하기 위해, 적응적 행동 - 콘텐츠 정렬과 동적 행동 가중치 메커니즘을 통해 협업 정보를 적응적으로 제거하는 ADC-SID 프레임워크를 제안합니다.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing ZhangThu, 12 Ma💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

이 논문은 생성형 검색의 최적화 차단과 기하학적 충돌 문제를 해결하기 위해, 가변적 강제 학습과 대칭 가중치 공유를 통한 연산 통합 및 단위 초구에서의 등방성 기하학적 최적화를 제안하는 '미분 가능 기하학적 인덱싱 (DGI)'을 소개합니다.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

이 논문은 임베딩, 색인, 검색, 재순위화, 생성 등 RAG 파이프라인의 각 모듈을 분리하여 구성 가능하게 하고, 다양한 데이터셋과 벡터 데이터베이스, LLM 을 지원하며 성능 및 정확도 지표를 자동 수집하는 종단간 벤치마킹 프레임워크 'RAGPerf'를 제안합니다.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

이 논문은 중국어 은유 식별의 투명성과 해석 가능성을 높이기 위해 LLM 을 보조로 활용하여 MIPVU 등 네 가지 서로 다른 프로토콜을 실행 가능한 규칙 스크립트로 구현하고, 이를 통해 프로토콜 선택이 모델 성능보다 식별 결과의 변동성에 더 큰 영향을 미친다는 것을 입증했습니다.

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

이 논문은 영어와 독일어 카탈로그 기록에 통합 권위 파일 (GND) 주석이 달린 대규모 이언어 말뭉치와 머신 액션 가능한 GND 분류 체계를 공개하여, 확장 가능한 주제 색인 및 권위 기반 AI 보조 도구를 위한 오토니지 인식 다중 레이블 분류 연구를 가능하게 한다고 요약할 수 있습니다.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

본 논문은 대형 언어 모델의 사실성 부족과 추론 한계를 극복하기 위해, 반복적 스키마 정제 알고리즘으로 구축된 하이브리드 제약 지식 베이스와 검증 기반 체인 추론을 결합한 'PharmGraph-Auditor' 시스템을 제안하여 처방 검증의 안전성과 추적 가능성을 강화하는 방법을 제시합니다.

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

이 논문은 복잡한 구조와 의미를 가진 인간 중심 테이블 (HCT) 에 대한 자연어 질문 답변을 평가하기 위한 대규모 벤치마크인 HCT-QA 를 제안하고, 다양한 LLM 과 VLM 의 성능을 분석하며 파인튜닝을 통한 성능 향상 가능성을 입증합니다.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI