cs.IR papers | Gist.Science

ThinkQE: Query Expansion via an Evolving Thinking Process

Het paper introduceert ThinkQE, een test-tijd framework voor query-expansie dat door middel van een denkproces en corpus-interactie de zoekresultaten diversifieert en consistent betere prestaties behaalt dan bestaande methoden op diverse webzoek-benchmarks.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

TaoSR1: The Thinking Model for E-commerce Relevance Search

TaoSR1 is een nieuw raamwerk dat Large Language Models direct inzetbaar maakt voor e-commerce relevantiezearch door een drie-staps training te gebruiken die redeneervermogen installeert, hallucinaties tegengaat en efficiënte online implementatie mogelijk maakt, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Dit artikel introduceert ELERAG, een verbeterde Retrieval-Augmented Generation-architectuur die Entiteitenkoppeling integreert om de feitelijke nauwkeurigheid van educatieve vraag-antwoordsystemen in het Italiaans te verhogen, waarbij experimenten aantonen dat deze domeinspecifieke aanpak de prestaties van standaardmodellen overtreft in gespecialiseerde contexten.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

Dit paper introduceert MCGI, een geometrie-bewuste, schijf-residente indexeringsmethode die lokale intrinsieke dimensie gebruikt om de zoekstrategie dynamisch aan te passen aan de onderliggende data-manifold, waardoor de prestaties van billion-scale vectorzoekopdrachten aanzienlijk worden verbeterd ten opzichte van bestaande methoden zoals DiskANN.

Dongfang ZhaoWed, 11 Ma🤖 cs.AI

Scaling Multilingual Semantic Search in Uber Eats Delivery

Dit artikel beschrijft een geproduceerde semantische zoekoplossing voor Uber Eats die een gefinetuned Qwen2-twee-torenmodel gebruikt, getraind op honderden miljoenen geanonimiseerde interacties met InfoNCE en triplet-NCE-verlies, om zoekresultaten voor winkels, gerechten en supermarktartikelen in meerdere talen te verenigen en de recall significant te verbeteren.

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul ParsanaWed, 11 Ma💻 cs

Time warping with Hellinger elasticity

Dit artikel introduceert het Elastic Time Warping-algoritme, dat met een kubische computatiecomplexiteit tijdsreeksen in een willekeurige metrische ruimte matcht door gebruik te maken van een Hellinger-kern als rekstraf.

Yuly BilligWed, 11 Ma💻 cs

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Dit onderzoek toont aan dat er een sterke correlatie bestaat tussen op dekking gebaseerde zoekopdrachtmetrieken en de informatieafdekking van gegenereerde antwoorden in Retrieval-Augmented Generation-systemen, wat deze metrieken valideert als betrouwbare vroege indicatoren voor de uiteindelijke prestaties.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van DurmeWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Dit artikel stelt dat zichtbaarheidsmetingen voor domeinen in generatieve zoekmachines inherent onzeker zijn vanwege hun niet-deterministische aard, en pleit daarom voor het gebruik van statistische frameworks met betrouwbaarheidsintervallen in plaats van betrouwbare enkelvoudige schattingen.

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Dit paper introduceert Guardian, een interpreteerbaar besluitvormingssysteem dat Markov-ketens, versterkende leerling en LLM's combineert om dynamische zoekplannen voor vermiste kinderen te genereren op basis van ongestructureerde data.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Het artikel presenteert PathoScribe, een geïntegreerd framework dat op grote schaal digitale pathologierapporten omzet in een interactieve, redenerende kennisbron die artsen in staat stelt om via natuurlijke taal gevallen te doorzoeken, onderzoeksgroepen te bouwen en klinische vragen te beantwoorden, wat leidt tot een aanzienlijke tijdsbesparing en verbeterde patiëntenzorg.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Dit paper introduceert Guardian, een end-to-end systeem dat een meermodel-pipeline met consensusmechanismen en QLoRA-finetuning gebruikt om de eerste 72 uur van zoektochten naar vermiste personen te ondersteunen door middel van gecontroleerde, auditabele informatie-extractie.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

Deze paper introduceert D2AJSCC, een innovatief framework dat de implementatie van hoogwaardige analoge Joint Source-Channel Coding op standaard digitale transceivers mogelijk maakt door het gebruik van OFDM-subdragers voor golfvormsynthese en een differentieerbaar ProxyNet voor eind-tot-eind training, waardoor de theoretische voordelen van analoge JSCC zonder hardware-aanpassingen in de praktijk worden gebracht.

Shumin Yao, Hao Chen, Yaping Sun, Nan Ma, Xiaodong Xu, Qinglin Zhao, Shuguang CuiWed, 11 Ma🔢 math

From Verification to Amplification: Auditing Reverse Image Search as Algorithmic Gatekeeping in Visual Misinformation Fact-checking

Deze studie toont aan dat Google's reverse image search als algoritmische poortwachter bij het fact-checken van visuele desinformatie vaak faalt doordat ontmaskerende content minder dan 30% van de resultaten uitmaakt en wordt overschaduwd door irrelevante informatie en herhaalde nepbeelden.

Cong Lin, Yifei Chen, Jiangyue Chen, Yingdan Lu, Yilang Peng, Cuihua ShenWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Dit paper introduceert DataFactory, een collaboratief multi-agent framework dat de beperkingen van bestaande Large Language Models voor tabelvraagbeantwoording overwint door gespecialiseerde agententeams te coördineren voor geautomatiseerde kennisomzetting en adaptieve planning, wat leidt tot aanzienlijke verbeteringen in nauwkeurigheid en betrouwbaarheid.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Dit paper introduceert RF-Mem, een adaptief tweestapsretrievalsysteem voor gepersonaliseerde LLM's dat menselijk geheugen nabootst door te schakelen tussen snelle 'familiarity'-herkenning en diepgaande 'recollection'-reconstructie, waardoor het zowel schaalbaar is als nauwkeuriger dan bestaande methoden.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Dit artikel introduceert AgentGEO, een agentisch systeem dat generatieve engine optimalisatie verbetert door specifiek faalredenen voor citaties te diagnosticeren en gerichte reparaties toe te passen, wat resulteert in een aanzienlijke stijging van citatiepercentages met minimale inhoudswijzigingen.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Dit paper introduceert TA-Mem, een nieuw raamwerk voor tool-versterkte, autonome geheugenretrieval dat een LLM-agent, een multi-index geheugendatabase en een adaptieve zoekagent combineert om de beperkingen van het contextvenster bij lange conversaties te overwinnen en de prestaties op de LoCoMo-dataset significant te verbeteren.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Het paper introduceert PRECEPT, een unified framework voor testtijd-adaptatie dat de prestaties van LLM-agenten verbetert door deterministische regelretrieval, conflictbewust geheugen en een door Pareto-gestuurde prompt-evolutie (COMPASS) te combineren, wat leidt tot aanzienlijke winsten in generalisatie, robuustheid en leerefficiëntie.

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Deze keynote op ECIR 2025 belicht het onderzoek naar de interactie tussen parametrische en contextuele kennis in taalmodellen, met name gericht op het diagnosticeren van kennisconflicten en het begrijpen van hoe modellen context integreren of negeren.

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Deze studie introduceert een geautomatiseerd classificatiekader voor het beheer van hartklierenrisico bij ouderen, waarbij een aangepaste Transformer-architectie die lange contextuele afhankelijkheden in ongestructureerde patiëntendossiers verwerkt, superieure prestaties levert ten opzichte van traditionele methoden en generatieve grote taalmodellen.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI