cs.AI 篇论文 | Gist.Science

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

该论文通过一项涵盖全球多地区的大规模调查，从不同社群中提炼出文化的操作性定义，以评估人们对生成式 AI 如何呈现文化 artifacts、概念及价值观的看法与期望，并最终提出了包括参与式方法、超越地理维度的文化考量以及文化“红线”敏感性框架在内的开发建议。

Erin van Liemt, Renee Shelby, Andrew Smart, Sinchana Kumbale, Richard Zhang, Neha Dixit, Qazi Mamunur Rashid, Jamila Smith-Loud2026-03-09🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

本文提出了 LTLGuard，一种结合约束生成与轻量级形式化一致性检查的模块化工具链，旨在利用资源高效的小型语言模型将非正式需求准确转化为无冲突的线性时序逻辑（LTL）规范。

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros Tripakis2026-03-09🤖 cs.AI

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

该论文通过引入更贴近实际的胜率指标重新审视 Best-of-N（BoN）采样，证明在最小假设下其具有统计最优性，并提出一种能消除奖励黑客攻击且保持最优性能的改进变体。

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

本文介绍了 TML-Bench，这是一个针对 Kaggle 风格表格机器学习任务的自主数据科学智能体基准，通过评估 10 个开源大语言模型在不同时间预算下的端到端表现，发现 MiniMax-M2.1 模型综合性能最佳且性能随时间预算增加而提升。

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

该论文提出了一种名为 SCORE 的新方法，通过计算各模型主奇异向量的共享正交基并剪枝冲突分量，有效解决了多领域微调模型合并时的子空间冲突问题，从而显著提升了模型在未见领域上的泛化性能。

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

该论文提出了名为 SAHA 的新型越狱框架，通过识别深层注意力机制中的脆弱性并采用消融影响排序与分层扰动策略，成功突破了现有大语言模型的安全对齐，显著提升了攻击成功率。

Jinman Wu, Yi Xie, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

该论文提出了“解耦安全假设”（DSH），通过几何分析揭示大语言模型中“识别有害性”与“执行拒绝”机制在深层解耦的现象，并据此开发了能实现“只知不行”状态的双差分提取与自适应因果引导方法，进而提出了具有 SOTA 攻击成功率的“拒绝擦除攻击”（REA）。

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

该论文提出了 PVminer 基准及经过监督微调的大语言模型 PVminerLLM，旨在从患者生成的文本中高效提取结构化患者声音信息，实验表明该方法在多种任务上显著优于提示基线，且无需超大模型规模即可实现可扩展的社会与体验信号分析。

Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree2026-03-09🤖 cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

该研究通过在 POPROX 平台上对 120 名美国用户进行为期 5 周的实地实验，验证了结合“主题 - 地域双重校准”算法与基于大语言模型的个性化呈现“助推”策略能有效提升新闻推荐的多样性，并促使读者逐渐养成兼顾国内与国际新闻的阅读习惯。

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. Konstan2026-03-09🤖 cs.AI

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

该论文提出了 BM25-V 方法，通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合，利用逆文档频率（IDF）加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

该论文提出了“证明护栏”（Proof-of-Guardrail）系统，利用可信执行环境（TEE）为 AI 代理生成可验证的密码学证明，以确保证据表明响应确实经过了特定开源安全护栏的处理，同时指出即便有此类证明，恶意开发者仍可能通过主动越狱护栏来实施欺骗。

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

本文提出了 StreamWise 系统，通过自适应地动态管理生成质量、模型并行策略及资源调度，在异构硬件上实现了多模态实时生成（如播客视频）的高效服务，在满足严格延迟要求的同时显著降低了成本。

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini2026-03-09🤖 cs.AI

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

本文提出了“歧义坍缩”概念，即大语言模型在处理具有多重合法解释的模糊术语时将其强行简化为单一结论，从而绕过人类意义协商过程，并据此构建了一个涵盖过程、输出和生态系统三个层面的认识论风险分类体系，旨在通过多层面的缓解原则设计能够保留并负责任地治理歧义的系统。

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour2026-03-09🤖 cs.AI

Margin and Consistency Supervision for Calibrated and Robust Vision Models

本文提出了名为 MaCS 的架构无关正则化框架，通过联合优化逻辑空间中的分类间隔与局部预测一致性，在无需额外数据或架构改动的情况下，显著提升了视觉模型的校准度、鲁棒性及泛化能力。

Salim Khazem2026-03-09🤖 cs.AI

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

本文针对大语言模型在对话式视觉分析评估中面临的挑战，基于用户调研提出了 Lexara 工具包，该工具包通过涵盖真实场景的测试用例、可解释的多维度评估指标以及无需编程的交互式探索功能，有效辅助开发者进行模型与提示词的选择。

Srishti Palani, Vidya Setlur2026-03-09🤖 cs.AI

Evaluating LLM Alignment With Human Trust Models

该论文通过对比提示和余弦相似度分析，揭示了 EleutherAI/gpt-j-6B 大语言模型内部对信任的表征与 Castelfranchi 社会认知模型最为契合，表明 LLM 能够以支持人类-AI 协作系统设计的方式编码社会认知构建。

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini2026-03-09🤖 cs.AI

Remote Sensing Image Classification Using Deep Ensemble Learning

该论文提出了一种结合卷积神经网络（CNN）与视觉 Transformer（ViT）的集成学习融合模型，通过训练四个独立模型并在预测阶段进行集成，有效克服了单一架构的局限性及冗余特征瓶颈，在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

本文提出了 MACRO，一种通过从验证执行轨迹中自主发现并合成可复用复合工具，从而将静态工具组合转变为经验驱动式自我演进的医疗影像智能体，显著提升了多步骤任务编排的准确性与跨域泛化能力。

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

本文汇集国际专家观点，在评估基础模型与智能体驱动的计算病理学在诊断、预后等任务中表现优异但临床落地滞后的现状基础上，从技术成熟度、运营准备度及经济监管环境等多维度，探讨了将其负责任地整合至临床实践的路径与障碍。

Qian Da, Yijiang Chen, Min Ju, Zheyi Ji, Albert Zhou, Wenwen Wang, Matthew A Abikenari, Philip Chikontwe, Guillaume Larghero, Bowen Chen, Peter Neiglinger, Dingrong Zhong, Shuhao Wang, Wei Xu, Drew Williamson, German Corredor, Sen Yang, Le Lu, Xiao Han, Kun-Hsing Yu, Jun-zhou Huang, Laura Barisoni, Geert Litjens, Anant Madabhushi, Lifeng Zhu, Chaofu Wang, Junhan Zhao, Weiguo Hu2026-03-09🤖 cs.AI

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

该论文提出了一种基于自监督表示重建（SSRR）损失的新方法，显著提升了神经音频编解码器的训练效率、语音可懂度及实时流式性能，并据此构建了低延迟、零前瞻的 JHCodec 模型。

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak2026-03-09🤖 cs.AI