cs.AI 篇论文 | Gist.Science

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

该研究通过在 POPROX 平台上对 120 名美国用户进行为期 5 周的实地实验，验证了结合“主题 - 地域双重校准”算法与基于大语言模型的个性化呈现“助推”策略能有效提升新闻推荐的多样性，并促使读者逐渐养成兼顾国内与国际新闻的阅读习惯。

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. Konstan2026-03-09🤖 cs.AI

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

该论文提出了 BM25-V 方法，通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合，利用逆文档频率（IDF）加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

该论文提出了“证明护栏”（Proof-of-Guardrail）系统，利用可信执行环境（TEE）为 AI 代理生成可验证的密码学证明，以确保证据表明响应确实经过了特定开源安全护栏的处理，同时指出即便有此类证明，恶意开发者仍可能通过主动越狱护栏来实施欺骗。

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

本文提出了 StreamWise 系统，通过自适应地动态管理生成质量、模型并行策略及资源调度，在异构硬件上实现了多模态实时生成（如播客视频）的高效服务，在满足严格延迟要求的同时显著降低了成本。

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini2026-03-09🤖 cs.AI

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

本文提出了“歧义坍缩”概念，即大语言模型在处理具有多重合法解释的模糊术语时将其强行简化为单一结论，从而绕过人类意义协商过程，并据此构建了一个涵盖过程、输出和生态系统三个层面的认识论风险分类体系，旨在通过多层面的缓解原则设计能够保留并负责任地治理歧义的系统。

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour2026-03-09🤖 cs.AI

Margin and Consistency Supervision for Calibrated and Robust Vision Models

本文提出了名为 MaCS 的架构无关正则化框架，通过联合优化逻辑空间中的分类间隔与局部预测一致性，在无需额外数据或架构改动的情况下，显著提升了视觉模型的校准度、鲁棒性及泛化能力。

Salim Khazem2026-03-09🤖 cs.AI

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

本文针对大语言模型在对话式视觉分析评估中面临的挑战，基于用户调研提出了 Lexara 工具包，该工具包通过涵盖真实场景的测试用例、可解释的多维度评估指标以及无需编程的交互式探索功能，有效辅助开发者进行模型与提示词的选择。

Srishti Palani, Vidya Setlur2026-03-09🤖 cs.AI

Evaluating LLM Alignment With Human Trust Models

该论文通过对比提示和余弦相似度分析，揭示了 EleutherAI/gpt-j-6B 大语言模型内部对信任的表征与 Castelfranchi 社会认知模型最为契合，表明 LLM 能够以支持人类-AI 协作系统设计的方式编码社会认知构建。

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini2026-03-09🤖 cs.AI

Remote Sensing Image Classification Using Deep Ensemble Learning

该论文提出了一种结合卷积神经网络（CNN）与视觉 Transformer（ViT）的集成学习融合模型，通过训练四个独立模型并在预测阶段进行集成，有效克服了单一架构的局限性及冗余特征瓶颈，在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

本文提出了 MACRO，一种通过从验证执行轨迹中自主发现并合成可复用复合工具，从而将静态工具组合转变为经验驱动式自我演进的医疗影像智能体，显著提升了多步骤任务编排的准确性与跨域泛化能力。

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

本文汇集国际专家观点，在评估基础模型与智能体驱动的计算病理学在诊断、预后等任务中表现优异但临床落地滞后的现状基础上，从技术成熟度、运营准备度及经济监管环境等多维度，探讨了将其负责任地整合至临床实践的路径与障碍。

Qian Da, Yijiang Chen, Min Ju, Zheyi Ji, Albert Zhou, Wenwen Wang, Matthew A Abikenari, Philip Chikontwe, Guillaume Larghero, Bowen Chen, Peter Neiglinger, Dingrong Zhong, Shuhao Wang, Wei Xu, Drew Williamson, German Corredor, Sen Yang, Le Lu, Xiao Han, Kun-Hsing Yu, Jun-zhou Huang, Laura Barisoni, Geert Litjens, Anant Madabhushi, Lifeng Zhu, Chaofu Wang, Junhan Zhao, Weiguo Hu2026-03-09🤖 cs.AI

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

该论文提出了一种基于自监督表示重建（SSRR）损失的新方法，显著提升了神经音频编解码器的训练效率、语音可懂度及实时流式性能，并据此构建了低延迟、零前瞻的 JHCodec 模型。

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak2026-03-09🤖 cs.AI

cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

Evaluating LLM Alignment With Human Trust Models

Remote Sensing Image Classification Using Deep Ensemble Learning

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation