TaoSR1: The Thinking Model for E-commerce Relevance Search

이 논문은 BERT 기반 모델의 추론 한계를 극복하고 대형 언어 모델 (LLM) 을 직접 전자상거래 관련성 검색에 적용하기 위해 CoT 기반 SFT, DPO, GRPO 등을 결합한 'TaoSR1' 프레임워크를 제안하며, 오프라인 및 온라인 평가에서 기존 모델보다 뛰어난 성능을 입증했습니다.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

이 논문은 고차원 공간에서의 유클리드 - 측지선 불일치 문제를 해결하기 위해 국소 내재 차원성 (LID) 을 활용하여 데이터 매니폴드의 기하학적 특성에 동적으로 적응하는 디스크 기반 벡터 검색 인덱싱 방법인 MCGI 를 제안하며, 수십억 규모 데이터셋에서 기존 최첨단 기법 대비 뛰어난 처리량과 낮은 지연 시간을 입증합니다.

Dongfang ZhaoWed, 11 Ma🤖 cs.AI

Scaling Multilingual Semantic Search in Uber Eats Delivery

이 논문은 수억 개의 쿼리 - 문서 상호작용 데이터를 기반으로 Qwen2 기반의 양방향 모델과 Matryoshka 표현 학습을 활용하여 우버 이츠의 스토어, 메뉴, 식료품 등 다양한 카테고리와 다국어 검색을 통합한 대규모 의미 기반 검색 시스템을 구축하고 평가한 내용을 담고 있습니다.

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul ParsanaWed, 11 Ma💻 cs

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

이 논문은 TREC NeuCLIR 2024, TREC RAG 2024, WikiVideo 등 다양한 벤치마크를 통해 검색 단계의 정보 커버리지 지표가 RAG 시스템의 최종 생성 응답 품질을 예측하는 신뢰할 수 있는 지표가 될 수 있음을 실증적으로 입증했습니다.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van DurmeWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

이 논문은 실종 아동 수색을 위해 비정형 데이터를 시공간적 위험 표면으로 변환하고, 마르코프 체인, 강화 학습, 그리고 LLM 기반 품질 보증을 결합한 3 층 아키텍처를 가진 '가디언' 시스템의 예측 모델과 검증 결과를 제시합니다.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

이 논문은 7 만 건의 다기관 수술 병리 보고서를 기반으로 자연어 검색, 자동 코호트 구축, 임상 질의 응답 등을 통합하여 정적인 병리 아카이브를 능동적인 임상 지능 플랫폼으로 전환하는 통합 LLM 기반 프레임워크 'PathoScribe'를 제안하고 그 유효성을 입증합니다.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

이 논문은 디지털 물리 계층의 하드웨어 제약으로 인해 구현이 어려웠던 아날로그 결합 소스-채널 코딩 (JSCC) 을 기존 디지털 트랜시버에서 고충실도로 실행할 수 있도록 하는 새로운 프레임워크 'D2AJSCC'를 제안하며, 이를 통해 채널 조건 변화에 따른 우아한 성능 저하를 실현하고 이론적 잠재력과 실제 배포 간의 격차를 해소합니다.

Shumin Yao, Hao Chen, Yaping Sun, Nan Ma, Xiaodong Xu, Qinglin Zhao, Shuguang CuiWed, 11 Ma🔢 math

From Verification to Amplification: Auditing Reverse Image Search as Algorithmic Gatekeeping in Visual Misinformation Fact-checking

이 논문은 15 일간 34,486 개의 검색 결과를 분석한 결과, 구글의 역이미지 검색이 시각적 허위정보를 검증하는 과정에서 관련 없는 정보와 반복된 허위정보가 상위를 차지하며 사실 확인 콘텐츠의 가시성이 30% 미만으로 제한되는 등 알고리즘 게이트키핑의 한계를 드러냈음을 규명합니다.

Cong Lin, Yifei Chen, Jiangyue Chen, Yingdan Lu, Yilang Peng, Cuihua ShenWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

이 논문은 기존 대규모 언어 모델의 한계를 극복하고 복잡한 테이블 질의응답의 정확성을 획기적으로 향상시키기 위해, 데이터 리더와 전문 에이전트 팀 간의 협업 및 자동화된 지식 그래프 변환을 가능하게 하는 'DataFactory'라는 다중 에이전트 프레임워크를 제안합니다.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

이 논문은 LLM 의 컨텍스트 윈도우 제한을 극복하기 위해 의미적 상관관계에 따른 적응형 메모리 추출, 다중 인덱스 메모리 데이터베이스, 그리고 사용자 입력에 기반한 자율적 도구 선택을 통해 장기 대화형 QA 성능을 향상시킨 'TA-Mem' 프레임워크를 제안합니다.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

이 논문은 LLM 에이전트의 지식 검색 저하, 규칙 조합 실패, 그리고 노후화된 지식 탐지 부재 문제를 해결하기 위해, 결정론적 규칙 검색, 충돌 인식 메모리, 그리고 파레토 기반 프롬프트 진화를 통합한 테스트 시간 적응 프레임워크인 PRECEPT 를 제안하고, 이를 통해 기존 방법 대비 우수한 성능과 강건성을 입증합니다.

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

본 논문은 3,482 명의 노인 환자 데이터를 활용하여 비구조화된 전자의무기록 (EHR) 을 기반으로 심혈관 위험을 자동 분류하는 프레임워크를 제안하고, 기존 기계학습 및 생성형 LLM 보다 장기 의존성을 포착하는 맞춤형 트랜스포머 아키텍처가 가장 우수한 성능을 보임을 입증했습니다.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI