cs.AI 篇论文 | Gist.Science

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

该研究提出了一种名为 PoultryLeX-Net 的领域自适应双流 Transformer 架构，通过融合词典增强机制与主题建模，在禽类行业社交媒体情感分析任务中实现了超越现有基线模型的高精度分类性能。

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

本文介绍了 TAMUSA-Chat，这是一个面向学术机构的研究框架，通过监督微调、检索增强生成及系统化评估方法，将通用大语言模型适配为符合治理规范与责任 AI 原则的领域专用对话系统，并公开了相关代码以促进可复现的研究与部署。

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

本文提出了“语境情感推理（CEI）基准”，该基准包含 300 个经人工验证的职场、家庭等场景下的对话案例，旨在通过考察大语言模型在涉及权力关系和多种语用亚类型（如讽刺、被动攻击等）的复杂情境中推断言外之意的能力，来评估其语用推理水平。

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

该论文通过提示功能评估和内部表征分析两种互补方法，揭示了大语言模型在形容词 - 名词组合任务中虽然具备可靠的组合表征能力，却难以将其一致转化为实际任务表现，从而强调了采用对比评估以全面理解模型能力的重要性。

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

该研究通过两项对照实验表明，在行为面试评估与改进中，人机交互方法在提升回答质量、真实性及训练效果方面显著优于迭代式思维链提示，且所需迭代次数更少，揭示了上下文信息而非计算资源是主要限制因素。

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

该研究通过构建土耳其异常测试套件（TAS），系统评估了离线大语言模型在土耳其遗产语言教育中的鲁棒性与教学安全性，发现推理导向的 8B 至 14B 参数模型在成本与安全之间取得了最佳平衡，且异常抵抗能力并不完全取决于模型规模。

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

该研究通过临床评估发现，OpenAI 不同代际模型（GPT-4o 至 GPT-5-mini）在共情能力上并无统计学差异，用户感知的“共情丧失”实为模型危机检测能力增强与过度干预建议之间的安全策略转变，这种在对话中途危机时刻发生的显著变化揭示了当前评估体系难以捕捉的潜在风险。

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

该论文提出了一种结合语义和情感分析的自动化机器学习框架，通过新颖的相似度指标及专家人工评估，系统比较了 Google 翻译与 GPT-4、GPT-4o、DeepSeek 等大模型在新闻与文学等中文文本英译任务中的表现，发现这些模型在新闻翻译上表现优异，但在处理文学文本的文化细节、典故及修辞时仍面临挑战，其中 DeepSeek 在保留文化细微差别和语法表达方面略胜一筹。

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

本文提出并验证了一种基于检索增强生成的语言助手，该助手通过严格依赖权威法规来源、强制引用证据及保留人工最终决策权，旨在为无人机系统的安全评估、认证及合规工作提供可追溯、可审计的决策支持，以应对日益复杂的无人机运营挑战。

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

该论文提出利用维基百科、Wikidata 知识图谱及社会科学专家知识构建了包含 2.6 万条多语言问答的"LatamQA"数据集，用于评估大语言模型在拉丁美洲不同国家及语言（西班牙语、葡萄牙语）背景下的表现，揭示了模型在区域知识掌握度、语言原生优势以及对伊比利亚文化相较于拉美本土文化的认知偏差等方面的显著不平等。

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

本文介绍了 SpreadsheetArena 平台，通过盲测 pairwise 评估来研究大语言模型在生成满足用户显性及隐性约束的电子表格工作簿时的表现，揭示了不同场景下偏好特征的显著差异以及现有模型在金融等专业领域最佳实践对齐方面的不足。

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

本文提出了 SENS-ASR 方法，通过利用知识蒸馏从语言模型中提取语义信息并注入到神经转换器中，以增强流式自动语音识别系统在低延迟和小块处理场景下的转录质量。

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

该论文通过对比实验表明，在阿拉伯语医疗文本的 82 类细粒度分类任务中，经过混合池化和正则化策略微调的双向编码器（如 AraBERTv2）在捕捉精确语义边界方面显著优于基于因果解码的大语言模型。

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

该论文提出了个性化组相对策略优化（P-GRPO）框架，通过将优势估计与当前批次统计解耦并基于特定偏好群体的奖励历史进行归一化，有效解决了标准 GRPO 在异质偏好对齐中因假设样本可交换而导致的偏差问题，从而实现了对多样化用户偏好的更快速收敛和更精准对齐。

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

本文提出了 FERRET 框架，这是一种通过水平、垂直和元扩展三种策略来生成高效多模态对抗对话的自动化红队测试系统，实验表明其性能优于现有最先进方法。

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

Measuring and Eliminating Refusals in Military Large Language Models

该论文针对军事大语言模型因安全机制导致合法查询被过度拒绝的问题，构建了首个由美军专家开发的评估基准，通过测试 31 个公开模型和 3 个军事模型揭示了极高的拒绝率，并利用 Heretic 库对特定模型进行去安全化微调以显著提升回答率，最终主张通过深度专业化训练实现军事场景下的零拒绝与最高任务准确率。

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

cs.AI