cs.CY 篇论文 | Gist.Science

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

本文旨在报告并寻求关于“监管需求工程工件模型（AM4RRE）”的反馈，该模型旨在解决当前合规设计实践中缺乏系统性整合、跨视角协调困难及法律知识密集型等挑战，从而推动将监管要求无缝融入软件工程生命周期以实现“合规即设计”。

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

该研究通过两项涵盖 19,145 名受访者的调查实验，评估了七款前沿大语言模型在政治议题上的说服能力，发现其整体表现优于传统竞选广告且存在显著模型差异（Claude 最强、Grok 最弱），同时揭示了信息型提示对说服效果的影响因模型而异，并提出了评估大模型潜在说服风险的框架。

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

Survey of Computerized Adaptive Testing: A Machine Learning Perspective

本文从机器学习视角出发，对计算机化自适应测试（CAT）进行了全面综述，深入探讨了测量模型、选题算法、题库构建及测试控制等核心环节如何利用机器学习技术进行优化，旨在推动心理测量学与机器学习的跨学科融合，以构建更稳健、公平且高效的自适应测试系统。

Yan Zhuang, Qi Liu, Haoyang Bi, Zhenya Huang, Weizhe Huang, Jiatong Li, Junhao Yu, Zirui Liu, Zirui Hu, Yuting Hong, Zachary A. Pardos, Haiping Ma, Mengxiao Zhu, Shijin Wang, Enhong ChenTue, 10 Ma🤖 cs.LG

Life Histories of Taboo Knowledge Artifacts

这项混合方法比较研究通过追踪维基百科中禁忌知识条目的生命周期，揭示了其如何在冲突与有限身份识别的挑战下，通过多元协作、韧性领导力和新兴治理机制得以建立并持续存在。

Kaylea Champion, Benjamin Mako HillTue, 10 Ma💻 cs

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

该论文提出了名为 Llama-Mob 的指令微调 Llama-3-8B 模型，通过问答形式在长周期城市级人类移动性预测任务中超越了现有最先进方法，并展现出强大的跨城市零样本泛化能力。

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru SezakiTue, 10 Ma💬 cs.CL

MediTools -- Medical Education Powered by LLMs

该研究介绍了名为 MediTools 的基于大语言模型的医疗教育原型应用，通过提供皮肤科病例模拟、AI 增强版 PubMed 文献分析及医疗新闻摘要等工具，旨在革新医学教育并提升临床决策能力，同时通过针对医疗从业者的调查验证了其初步效果。

Amr Alshatnawi, Remi Sampaleanu, David LiebovitzTue, 10 Ma💻 cs

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

该研究证实，利用大语言模型提取认知与语言特征并结合树集成机器学习算法，比直接让模型评分更能准确预测 K-5 数学和阅读题目的难度，从而为减少大规模实地测试提供了高效可行的替代方案。

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

本文介绍了首个将社会学概念“停止点”转化为可复现 NLP 任务的法语标注语料库 SPOT，该数据集包含 4 万多条与虚假信息相关的 Facebook 评论，并通过基准测试证明微调编码器模型在结合上下文元数据后，能显著优于提示式大语言模型，从而有效识别在线对话中常被忽视的普通关键干预。

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

本文提出了 XInsight，一个受心理咨询启发的多智能体框架，通过模拟“探索 - 洞察 - 行动”范式及“推理 - 干预 - 反思”循环，将开放式网络对话转化为标准化的心理治疗记录，并引入 XInsight-Bench 评估基准，从而为数字健康应用提供了更具可解释性、连贯性和临床一致性的心理支持解决方案。

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng WangTue, 10 Ma🤖 cs.LG

Evaluating AI-Enabled deception vulnerability amongst Sub-Saharan-Africa migrants

该研究通过混合结构方程模型与多元线性回归分析，发现针对撒哈拉以南非洲移民的 AI 诈骗脆弱性主要受既往被 targeting 经历的影响，而 AI 内容识别能力及高验证行为则是显著的防护因素。

Deborah OluwasanyaTue, 10 Ma💻 cs

Building the ethical AI framework of the future: from philosophy to practice

该论文提出了一种将伦理原则转化为可执行控制机制的“伦理设计”架构，通过在每个 AI 生命周期阶段实施包含性能、合规及可持续性指标的“三重门”机制，填补了现有治理框架在端到端操作控制方面的空白，从而为构建可验证、可落地的未来 AI 伦理治理体系提供了实践基础。

Jasper Kyle CatapangTue, 10 Ma💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

该论文提出了一种名为 DeepScope 的深度学习系统，通过分析未培养水样的显微图像，在无需 24-72 小时病原体培养的情况下，以每测试 0.44 美元的成本和超过 98% 的时间缩减，实现了秒级的高精度（93% 准确率）水质安全检测。

Sanjay SrinivasanTue, 10 Ma🤖 cs.LG

The Potential for an Innovation Winter: Estimating Impact of Federal Research Reductions on Faculty Activity

该论文通过随机建模与数据分析指出，特朗普政府拟议的联邦研究经费削减将导致大量研究型大学中过半数的 STEM 领域教师面临资金不足，进而严重削弱美国高校的研究质量与博士培养能力。

Robert A. BrownTue, 10 Ma🔬 physics

Causal Analysis of Author Demographics in Academic Peer Review

该研究利用因果推断方法分析发现，作者种族、性别及所属机构所在地（特别是全球南方）对论文录用排名存在显著的负面因果影响，凸显了在传统及人工智能辅助的同行评审中实施公平性干预的紧迫性。

Uttamasha Anjally Oyshi, Gibson Nkhata, Susan GauchTue, 10 Ma💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

该论文探讨了生成式人工智能在 K-16+ 教育阶段提升科学素养的潜力与挑战，论证了通过构建协调教学、学习与评估的 AI 架构来应对科学素养教育难题的必要性，并展望了相关研发需求及该模式在其他学科领域的推广前景。

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam BiswasTue, 10 Ma💻 cs

SuperSkillsStack: Agency, Domain Knowledge, Imagination, and Taste in Human-AI Design Education

该研究通过“超级技能栈”框架分析 80 个学生设计团队的反思，发现生成式 AI 主要作为认知加速器辅助设计早期阶段，而人类凭借能动性、领域知识、想象力和品味等核心能力在理解语境、验证输出及优化方案中发挥不可替代的关键作用。

Qian Huang, King Wang PoonTue, 10 Ma💻 cs

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

本文提出人工智能研究的“第三大抱负”，即利用大语言模型作为研究人类行为、文化与道德推理的科学工具，通过解析其编码的人类符号行为规律，在阐明认识论局限与模型干预影响的同时，系统探索提示实验、合成人口采样等新型方法论在社会科学研究中的应用。

W. Russell Neuman, Chad ColemanTue, 10 Ma💬 cs.CL

Brexit Means Brexit: Selection Bias, Echo Chambers, and Entrenched Opinion on Reddit

该研究通过分析 Reddit 上 r/Brexit 子版块的数据，揭示了政治极化主要源于用户自我选择导致的立场固化与回声室效应，而非跨阵营观点的融合。

Marian-Andrei Rizoiu, Duy Khuu, Andrew Law, Christine LargeronTue, 10 Ma💻 cs

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

该研究通过双指标评估框架，在尼泊尔文化语境下分析了七种大语言模型的社会偏见，发现显式同意偏见与隐式生成偏见存在显著差异且后者受温度参数非线性影响，揭示了当前模型在欠代表文化背景中偏见评估的局限性及去偏策略的紧迫性。

Ashish Pandey, Tek Raj ChhetriTue, 10 Ma💬 cs.CL

Governance of AI-Generated Content: A Case Study on Social Media Platforms

该论文通过对 40 个主流社交媒体平台的调研，发现多数平台仅侧重于对违规 AI 生成内容的监管及披露，而较少涉及所有权与变现等深层问题，因此呼吁利益相关者制定更全面、前瞻的治理框架并加强用户教育。

Lan Gao, Abani Ahmed, Oscar Chen, Margaux Reyl, Zayna Cheema, Nick Feamster, Chenhao Tan, Kurt Thomas, Marshini ChettyTue, 10 Ma💻 cs