PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling
该研究提出了一种名为 PoultryLeX-Net 的领域自适应双流 Transformer 架构,通过融合词典增强机制与主题建模,在禽类行业社交媒体情感分析任务中实现了超越现有基线模型的高精度分类性能。
2384 篇论文
该研究提出了一种名为 PoultryLeX-Net 的领域自适应双流 Transformer 架构,通过融合词典增强机制与主题建模,在禽类行业社交媒体情感分析任务中实现了超越现有基线模型的高精度分类性能。
本文介绍了 TAMUSA-Chat,这是一个面向学术机构的研究框架,通过监督微调、检索增强生成及系统化评估方法,将通用大语言模型适配为符合治理规范与责任 AI 原则的领域专用对话系统,并公开了相关代码以促进可复现的研究与部署。
本文提出了“语境情感推理(CEI)基准”,该基准包含 300 个经人工验证的职场、家庭等场景下的对话案例,旨在通过考察大语言模型在涉及权力关系和多种语用亚类型(如讽刺、被动攻击等)的复杂情境中推断言外之意的能力,来评估其语用推理水平。
该论文通过提示功能评估和内部表征分析两种互补方法,揭示了大语言模型在形容词 - 名词组合任务中虽然具备可靠的组合表征能力,却难以将其一致转化为实际任务表现,从而强调了采用对比评估以全面理解模型能力的重要性。
该研究通过两项对照实验表明,在行为面试评估与改进中,人机交互方法在提升回答质量、真实性及训练效果方面显著优于迭代式思维链提示,且所需迭代次数更少,揭示了上下文信息而非计算资源是主要限制因素。
该研究通过构建土耳其异常测试套件(TAS),系统评估了离线大语言模型在土耳其遗产语言教育中的鲁棒性与教学安全性,发现推理导向的 8B 至 14B 参数模型在成本与安全之间取得了最佳平衡,且异常抵抗能力并不完全取决于模型规模。
该研究通过临床评估发现,OpenAI 不同代际模型(GPT-4o 至 GPT-5-mini)在共情能力上并无统计学差异,用户感知的“共情丧失”实为模型危机检测能力增强与过度干预建议之间的安全策略转变,这种在对话中途危机时刻发生的显著变化揭示了当前评估体系难以捕捉的潜在风险。
该论文提出了一种结合语义和情感分析的自动化机器学习框架,通过新颖的相似度指标及专家人工评估,系统比较了 Google 翻译与 GPT-4、GPT-4o、DeepSeek 等大模型在新闻与文学等中文文本英译任务中的表现,发现这些模型在新闻翻译上表现优异,但在处理文学文本的文化细节、典故及修辞时仍面临挑战,其中 DeepSeek 在保留文化细微差别和语法表达方面略胜一筹。
本文提出并验证了一种基于检索增强生成的语言助手,该助手通过严格依赖权威法规来源、强制引用证据及保留人工最终决策权,旨在为无人机系统的安全评估、认证及合规工作提供可追溯、可审计的决策支持,以应对日益复杂的无人机运营挑战。
该论文提出利用维基百科、Wikidata 知识图谱及社会科学专家知识构建了包含 2.6 万条多语言问答的"LatamQA"数据集,用于评估大语言模型在拉丁美洲不同国家及语言(西班牙语、葡萄牙语)背景下的表现,揭示了模型在区域知识掌握度、语言原生优势以及对伊比利亚文化相较于拉美本土文化的认知偏差等方面的显著不平等。
本文介绍了 SpreadsheetArena 平台,通过盲测 pairwise 评估来研究大语言模型在生成满足用户显性及隐性约束的电子表格工作簿时的表现,揭示了不同场景下偏好特征的显著差异以及现有模型在金融等专业领域最佳实践对齐方面的不足。
本文提出了 SENS-ASR 方法,通过利用知识蒸馏从语言模型中提取语义信息并注入到神经转换器中,以增强流式自动语音识别系统在低延迟和小块处理场景下的转录质量。
该论文通过对比实验表明,在阿拉伯语医疗文本的 82 类细粒度分类任务中,经过混合池化和正则化策略微调的双向编码器(如 AraBERTv2)在捕捉精确语义边界方面显著优于基于因果解码的大语言模型。
该论文提出了个性化组相对策略优化(P-GRPO)框架,通过将优势估计与当前批次统计解耦并基于特定偏好群体的奖励历史进行归一化,有效解决了标准 GRPO 在异质偏好对齐中因假设样本可交换而导致的偏差问题,从而实现了对多样化用户偏好的更快速收敛和更精准对齐。
本文提出了 FERRET 框架,这是一种通过水平、垂直和元扩展三种策略来生成高效多模态对抗对话的自动化红队测试系统,实验表明其性能优于现有最先进方法。
该论文针对军事大语言模型因安全机制导致合法查询被过度拒绝的问题,构建了首个由美军专家开发的评估基准,通过测试 31 个公开模型和 3 个军事模型揭示了极高的拒绝率,并利用 Heretic 库对特定模型进行去安全化微调以显著提升回答率,最终主张通过深度专业化训练实现军事场景下的零拒绝与最高任务准确率。
该研究通过对比五种大语言模型在司法量刑场景下的表现,发现模型虽表现出类似人类的“美德受害者”偏见且对“相邻同意”缺乏显著惩罚,但在职业、公司及学历光环效应上比人类偏见更弱(其中学历光环效应减弱尤为明显),表明尽管当前模型尚不足以直接用于司法决策,但其在减少部分偏见方面已展现出优于人类的潜力。
该论文提出了名为 DeliberationBench 的基准,通过对比大规模随机实验中用户与前沿大语言模型讨论政策后的观点变化与审议式民意调查的标准,验证了这些模型在促进符合民主合法性且尊重用户自主性的观点转变方面具有显著的积极影响。
本文通过引入"GPTheology"(大语言模型神学)这一概念,结合网络社区叙事与全球 AI 宗教实践案例,探讨了人工智能如何被赋予神性并演变为一种融合传统宗教结构的新型技术宗教,进而分析了其带来的哲学、社会及伦理挑战。
该论文通过系统梳理现有文献与法规,揭示了"AI 模型”与"AI 系统”定义模糊导致的监管义务分配难题,并提出了基于参数架构与组件集成的清晰概念及操作性定义,旨在解决 AI 价值链中责任界定的边界问题。