cs.IR Arbeiten | Gist.Science

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Die Arbeit stellt HCT-QA vor, ein umfassendes Benchmark-Dataset mit tausenden realen und synthetischen menschenzentrierten Tabellen sowie zugehörigen Frage-Antwort-Paaren, um die Leistung von Sprach- und Vision-Sprachmodellen beim Beantworten natürlicher Fragen aus komplexen Tabellendokumenten zu evaluieren und durch Feinabstimmung signifikant zu verbessern.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Die Arbeit stellt RED vor, ein robustes, ereignisgesteuertes Netzwerk zur Bewegungsunschärfereduktion, das durch eine modalspezifische Entwirrung und selektive Fusion sowie eine robuste Störstrategie die Leistung bei unvollständigen Ereignisdaten verbessert.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao JiangMon, 09 Ma💻 cs

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Die Arbeit stellt GaiaFlow vor, ein innovatives Framework, das semantisch geführtes Diffusions-Tuning mit adaptiven Early-Exit-Protokollen und quantisierter Inferenz kombiniert, um bei der Informationsretrieval eine nachhaltige Balance zwischen hoher Suchqualität und minimalem CO₂-Fußabdruck zu erreichen.

Rong Fu, Jia Yee Tan, Chunlei Meng, Shuo Yin, Xiaowen Ma, Wangyu Wu, Muge Qi, Guangzhen Yao, Zhaolu Kang, Zeli Su, Simon FongMon, 09 Ma🤖 cs.LG

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Diese Studie führt neue Metriken für „Text-to-Big SQL" ein, um zu zeigen, dass herkömmliche Text-to-SQL-Benchmarks die Kosten- und Leistungsauswirkungen von LLM-Agenten bei großen Datenmengen nicht erfassen, und bietet detaillierte Einblicke in die Effizienz frontier-Modelle.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-ArtigasMon, 09 Ma💬 cs.CL

Unified Learning-to-Rank for Multi-Channel Retrieval in Large-Scale E-Commerce Search

Diese Arbeit stellt ein einheitliches Learning-to-Rank-Modell für den E-Commerce-Suchmaschinen von Target.com vor, das heterogene Abrufkanäle query-spezifisch fusioniert und dabei kurzfristige Nutzerintentionen berücksichtigt, um die Conversion-Rate um 2,85 % zu steigern und gleichzeitig die Latenz unter 50 ms zu halten.

Aditya Gaydhani, Guangyue Xu, Dhanush Kamath, Ankit Singh, Alex LiMon, 09 Ma💻 cs

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

Die Arbeit stellt Aletheia vor, eine browserbasierte Erweiterung, die mittels Large Language Models und Retrieval-Augmented Generation Fake News nicht nur erkennt, sondern durch evidenzbasierte Erklärungen, einen Diskussionsraum und aktuelle Faktenchecks transparent und nutzerzentriert bekämpft.

Dorsaf Sallami, Esma AïmeurMon, 09 Ma💬 cs.CL

VDCook:DIY video data cook your MLLMs

Das Paper stellt VDCook vor, ein selbstentwickelndes Video-Daten-Betriebssystem, das Forschern und Domänenteams ermöglicht, durch natürliche Sprachabfragen und automatisierte Retrieval- sowie Syntheseprozesse dynamisch aktualisierbare, metadatenreiche Videodatensätze für das Training von Multimodalen Large Language Models (MLLMs) zu erstellen.

Chengwei WuMon, 09 Ma🤖 cs.AI

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Der vorgestellte Ansatz AutoThinkRAG verbessert das Verständnis komplexer Dokumente in der Bild-Text-Interaktion durch eine Komplexitäts-gesteuerte Aufteilung der Aufgaben zwischen einem kleinen visuellen Interpreter und einem großen Sprachmodell, was zu neuen State-of-the-Art-Ergebnissen bei geringeren Kosten führt.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang CaiMon, 09 Ma💻 cs

CBR-to-SQL: Rethinking Retrieval-based Text-to-SQL using Case-based Reasoning in the Healthcare Domain

Die Arbeit stellt CBR-to-SQL vor, ein auf Fallbasiertem Schließen (CBR) basierendes Framework, das durch eine zweistufige Abrufstrategie und abstrakte Fallvorlagen die Genauigkeit und Robustheit von Text-zu-SQL-Übersetzungen im medizinischen Bereich im Vergleich zu herkömmlichen RAG-Ansätzen signifikant verbessert.

Hung Nguyen, Hans Moen, Pekka MarttinenMon, 09 Ma🤖 cs.AI

The DSA's Blind Spot: Algorithmic Audit of Advertising and Minor Profiling on TikTok

Diese Studie zeigt durch einen algorithmischen Audit von TikTok auf, dass die aktuelle Definition von „Werbung" im Digital Services Act (DSA) eine regulatorische Lücke darstellt, die es ermöglicht, dass personalisierte Influencer- und Marketinginhalte trotz des Verbots von profilbasierten Werbeanzeigen für Minderjährige weiterhin wirksam an diese Zielgruppe ausgespielt werden.

Sara Solarova, Matej Mosnar, Matus Tibensky, Jan Jakubcik, Adrian Bindas, Simon Liska, Filip Hossner, Matúš Mesarčík, Ivan SrbaMon, 09 Ma🤖 cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

Diese Studie zeigt, dass ein personalisierter Diversitäts-Nudge-Framework mit einem dualen Kalibrierungsalgorithmus die Vielfalt des Nachrichtenkonsums (inländisch und global) bei US-Nutzern erfolgreich steigern kann, wobei die Relevanz zu vorher gelesenen Artikeln ein stärkerer Klick-Prädiktor ist als generische Themen und langfristige Exposition zu einer Präferenz für ausgewogene Nachrichten führt.

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. KonstanMon, 09 Ma🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Dieser Beitrag stellt einen dreistufigen Forschungsrahmen vor, der eine sensitivitätsbewusste, retrieval-augmentierte Intent-Klärung entwickelt, um in sensiblen Domänen wie Gesundheitswesen und Recht den Schutz vertraulicher Daten vor Angriffen bei gleichzeitiger Aufrechterhaltung der Systemnützlichkeit zu gewährleisten.

Maik LarooijMon, 09 Ma🤖 cs.AI

ChatShopBuddy: Towards Reliable Conversational Shopping Agents via Reinforcement Learning

Die Arbeit stellt ChatShopBuddy vor, einen durch Reinforcement Learning optimierten Einkaufsassistenten, der mittels eines neuen Benchmarks, einer hierarchischen Belohnungsmodellierung und einer dynamischen kontrastiven Politikoptimierung mehrere Ziele wie Produktkorrektheit und Überzeugungskraft in realen Szenarien effektiv vereint.

Yiruo Cheng, Kelong Mao, Tianhao Li, Jiejun Tan, Ji-Rong Wen, Zhicheng DouMon, 09 Ma💻 cs

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Die Arbeit stellt OMEGA vor, eine effiziente Methode für das Lernen von Top-K-Suchen, die mit einem einzigen, auf K=1 trainierten Modell und einem dynamischen Verfeinerungsprozess sowohl hohe Genauigkeit als auch Leistung bei variierenden K-Werten erreicht und dabei die Vorverarbeitungszeit im Vergleich zu bestehenden Methoden drastisch reduziert.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo ChenMon, 09 Ma🤖 cs.LG

MLLMRec-R1: Incentivizing Reasoning Capability in Large Language Models for Multimodal Sequential Recommendation

Die Arbeit stellt MLLMRec-R1 vor, ein effizientes GRPO-basiertes Rahmenwerk für die multimodale sequenzielle Empfehlung, das durch die Offline-Textualisierung visueller Signale und eine gemischte Datenaugmentationsstrategie die hohen Trainingskosten und das Problem der Belohnungsinflation adressiert, um die推理fähigkeit von Multimodal Large Language Models zu verbessern.

Yu Wang, Yonghui Yang, Le Wu, Jiancan Wu, Hefei Xu, Hui LinMon, 09 Ma💻 cs

Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion

Die Arbeit stellt R4T vor, ein dreistufiges Framework, das Reinforcement Learning nutzt, um Trainingsdaten für einen effizienten Diffusions-Retriever zu synthetisieren, wodurch die Latenz bei der set-basierten Fan-Out-Retrieval drastisch reduziert und gleichzeitig die Qualität der Ergebnisse optimiert wird.

Pengcheng Jiang, Judith Yue Li, Moonkyung Ryu, R. Lily Hu, Kun Su, Zhong Yi Wan, Liam Hebert, Hao Peng, Jiawei Han, Dima Kuzmin, Craig BoutilierMon, 09 Ma🤖 cs.LG

CARROT: A Learned Cost-Constrained Retrieval Optimization System for RAG

Das Paper CARROT stellt ein lernbasiertes, kostenbeschränktes Optimierungsframework für Retrieval-Augmented Generation (RAG) vor, das mithilfe von Monte-Carlo-Baumsuche, einer nicht-monotonen Nutzenstrategie und einem konfigurierenden Agenten die Herausforderungen von Redundanz, abnehmendem Nutzen und mangelnder Anpassungsfähigkeit bei der Chunk-Auswahl adressiert und damit die Leistung gegenüber Baseline-Modellen um bis zu 30 % verbessert.

Ziting Wang, Haitao Yuan, Wei Dong, Gao Cong, Feifei LiFri, 13 Ma💬 cs.CL

Tuning-Free LLM Can Build A Strong Recommender Under Sparse Connectivity And Knowledge Gap Via Extracting Intent

Die Arbeit stellt IKGR vor, ein tuning-freies Empfehlungssystem, das mittels eines RAG-gesteuerten LLM-Verfahrens absichtszentrierte Wissensgraphen konstruiert, um durch die explizite Verknüpfung von Nutzern und Artikeln mit extrahierten Intentionen sowie eine gegenseitige Dichtungsstrategie die Leistung bei Datenknappheit und Cold-Start-Szenarien signifikant zu verbessern.

Wenqing Zheng, Noah Fatsi, Daniel Barcklow, Dmitri Kalaev, Steven Yao, Owen Reinert, C. Bayan Bruss, Daniele RosaFri, 13 Ma🤖 cs.AI

Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation

Die Arbeit stellt Refine-POI vor, ein Framework, das durch eine topologiebewusste ID-Generierung mittels hierarchischer selbstorganisierender Karten und eine verstärkende Feinabstimmung zur Optimierung von Top-k-Empfehlungen die Grenzen bestehender LLM-basierter POI-Empfehlungssysteme überwindet.

Peibo Li, Shuang Ao, Hao Xue, Yang Song, Maarten de Rijke, Johan Barthélemy, Tomasz Bednarz, Flora D. SalimFri, 13 Ma🤖 cs.LG

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Die Studie stellt die Ettin-Suite vor, eine Open-Data-Sammlung von gepaarten Encoder- und Decoder-Modellen, die mit identischen Trainingsrezepten trainiert wurden und zeigen, dass spezialisierte Architekturen ihre jeweiligen Aufgaben (Klassifizierung/Retrieval vs. Generierung) deutlich besser bewältigen als durch Weitertraining adaptierte Modelle.

Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van DurmeFri, 13 Ma💬 cs.CL

← Zurück Weiter →