cs.CL 篇论文 | Gist.Science

Using Learning Progressions to Guide AI Feedback for Science Learning

本研究证实，基于学习进展自动生成的评分标准所驱动的 AI 反馈，在清晰度、相关性、参与度及反思性等关键质量维度上，与专家人工设计的评分标准所生成的反馈效果相当，为科学学习中的规模化形成性反馈提供了可扩展的替代方案。

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

本文探讨了大型语言模型在生成虚假内容（即“幻觉”）及被恶意利用方面的风险，并提出了针对事实核查者、新闻机构及政策社区在技术创新、监管改革和 AI 素养提升等方面的应对策略，以应对生成式 AI 时代的信息真实性挑战。

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

Using ChatGPT for Data Science Analyses

本文评估了 ChatGPT（特别是其数据分析插件）作为数据科学工作流中的量化副驾驶在数据探索、可视化及监督与无监督建模任务中的潜力与局限性，并指出其自动化前景。

Ozan Evkaya, Miguel de Carvalho2026-03-03📊 stat

Large Language Model Agent in Financial Trading: A Survey

本文综述了将大语言模型（LLM）作为智能体应用于金融交易的研究现状，系统总结了其常见架构、数据输入、回测表现及面临的挑战，并展望了该领域的未来发展方向。

Han Ding, Yinheng Li, Junhao Wang + 3 more2026-03-03💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

本文提出了 SynthKG 合成数据管道与 Distill-SynthKG 蒸馏框架，通过利用大语言模型生成高质量文档 - 知识图谱对来微调小模型，从而以低成本实现了超越更大基线模型的知识图谱构建质量，并显著提升了检索增强生成（RAG）任务中的检索与问答性能。

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

本文提出了一种基于正交基（包括埃尔米特多项式、傅里叶三角函数及热带化多项式）的激活函数族，通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题，实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练，并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

该论文提出了 AStar，一种无需训练的多模odal 推理框架，它通过自适应检索并融合轻量级的“思维卡片”来引导模型进行结构化思考，从而在不依赖昂贵搜索或复杂后训练的情况下，显著提升了多模态大模型在复杂视觉推理任务中的性能。

Jinyang Wu, Mingkuan Feng, Guocheng Zhai + 7 more2026-03-03💬 cs.CL

Enhancing Hallucination Detection through Noise Injection

该论文提出了一种无需训练的推理时幻觉检测方法，通过向模型参数或隐藏层激活注入噪声来更准确地量化贝叶斯不确定性，从而显著提升了大语言模型幻觉检测的效果。

Litian Liu, Reza Pourreza, Sunny Panchal + 4 more2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

本文提出了名为 LLM-ProS 的新型评估方法，利用 2011 至 2024 年国际大学生程序设计竞赛（ICPC）世界总决赛的 166 道题目，对 GPT-4o、Mistral Large、Llama-3.1-405B 及 o1 系列等先进大语言模型在算法解题中的推理能力、准确性及效率进行了全面基准测试，并深入分析了训练方法、数据污染和思维链等因素对模型性能的影响。

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

该论文提出了一种针对仇恨模因检测的鲁棒大模型自适应框架，通过增强领域内准确性与跨领域泛化能力，在六个数据集上实现了超越现有代理系统的性能，同时提升了模型的抗攻击能力与可解释性。

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

该论文提出了名为 MemeIntel 的框架，通过构建首个大规模双语解释性数据集 MemeXplain 并采用多阶段优化策略训练视觉语言模型，显著提升了阿拉伯语宣传类及英语仇恨类模因的检测准确率与解释生成质量。

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

该论文提出了一种基于对数评分规则奖励的强化学习方法，通过直接微调大语言模型，使其在生成答案的同时输出经过校准的置信度估计，从而有效解决过度自信与自信不足问题，并实现了在未见任务上的泛化能力。

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

该论文通过对 92 个开源预训练模型的元分析，揭示了除模型规模和训练数据量之外，数据构成（如代码占比）和架构选择（如旋转位置编码）等设计决策对下游性能有显著影响，从而构建了一个能更准确预测模型能力的框架。

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

Large Language Models in Bioinformatics: A Survey

本文综述了大语言模型在基因组序列建模、RNA 结构预测、蛋白质功能推断及单细胞转录组分析等生物信息学领域的最新进展，深入探讨了数据稀缺、计算复杂度等挑战，并展望了多模态学习、混合 AI 模型及临床应用等未来方向，强调了其在推动精准医学创新中的变革潜力。

Zhenyu Wang, Zikang Wang, Jiyue Jiang + 3 more2026-03-03🧬 q-bio

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

本文提出了名为 LLaVE 的大语言与视觉嵌入模型框架，通过引入基于难度的加权对比学习有效解决了正负样本相似度分布重叠问题，在 MMEB 基准测试中实现了超越更大规模模型的最先进性能，并展现出优异的零样本泛化能力。

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

本文提出 Vision-R1，通过构建无需人工标注的高质量多模态思维链冷启动数据集，并结合渐进式思维抑制训练与 GRPO 强化学习策略，成功在大规模多模态数学数据上激发了模型的复杂推理能力，使其在 MathVista 等基准测试中达到接近 OpenAI O1 的顶尖水平。

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

该论文提出了一种基于离散潜在变量的生成模型，从理论上证明了通过下一词预测训练的大语言模型所学习到的表示近似于潜在概念的后验概率对数，从而为线性表示假设提供了统一视角并验证了其在多个模型族中的有效性。

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

本文提出了基于轻量级开源大语言模型的 MoBLLM，通过参数高效微调技术构建了首个个体移动性预测基础模型，在多个真实数据集上实现了超越现有深度学习模型的精度、跨场景迁移能力及对突发状况的鲁棒性，同时显著降低了训练成本。

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL

Chain of Correction for Full-text Speech Recognition with Large Language Models

本文提出了一种名为“修正链”（CoC）的多轮对话方法，利用大语言模型结合预识别文本与全文语境对自动语音识别结果进行分段修正，实验表明该方法在稳定性、可控性及流畅性等方面显著优于现有基准系统。

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

本文提出了首个专注于麻醉学推理的大模型综合基准与数据集套件 AnesSuite，并基于此构建了基线模型 Morpheus，显著提升了模型在麻醉专业及通用医学领域的推理能力。

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL