Autonomous Algorithm Discovery for Ptychography via Evolutionary LLM Reasoning
本文提出了一种名为 Ptychi-Evolve 的自主框架,该框架利用大语言模型结合进化机制(如语义引导的交叉与变异)自动发现并演化新的正则化算法,在多种挑战性成像数据集中显著提升了相干衍射成像的重建质量并实现了可解释的算法演化记录。
6740 篇论文
本文提出了一种名为 Ptychi-Evolve 的自主框架,该框架利用大语言模型结合进化机制(如语义引导的交叉与变异)自动发现并演化新的正则化算法,在多种挑战性成像数据集中显著提升了相干衍射成像的重建质量并实现了可解释的算法演化记录。
该论文通过引入 CoT-Control 评估套件发现,尽管推理模型在控制最终输出方面表现较强,但其控制思维链(CoT)内容的能力显著较弱,且随着模型规模增大、强化学习训练、测试时计算增加或问题难度提升而进一步降低,这表明目前 CoT 监控机制不太可能因模型主动操控思维链而失效。
该论文指出,人工智能在地球系统科学中的快速应用若缺乏干预,将因算力与数据基础设施的全球南北差异而加剧气候信息领域的不平等,因此呼吁通过转向以数据为中心的开发模式、建立气候数字公共基础设施以及推动知识共同生产,来确保 AI 革命真正促进全球系统韧性而非加剧不公。
该论文通过一项涵盖全球多地区的大规模调查,从不同社群中提炼出文化的操作性定义,以评估人们对生成式 AI 如何呈现文化 artifacts、概念及价值观的看法与期望,并最终提出了包括参与式方法、超越地理维度的文化考量以及文化“红线”敏感性框架在内的开发建议。
本文提出了 LTLGuard,一种结合约束生成与轻量级形式化一致性检查的模块化工具链,旨在利用资源高效的小型语言模型将非正式需求准确转化为无冲突的线性时序逻辑(LTL)规范。
该论文通过引入更贴近实际的胜率指标重新审视 Best-of-N(BoN)采样,证明在最小假设下其具有统计最优性,并提出一种能消除奖励黑客攻击且保持最优性能的改进变体。
本文介绍了 TML-Bench,这是一个针对 Kaggle 风格表格机器学习任务的自主数据科学智能体基准,通过评估 10 个开源大语言模型在不同时间预算下的端到端表现,发现 MiniMax-M2.1 模型综合性能最佳且性能随时间预算增加而提升。
该论文提出了一种名为 SCORE 的新方法,通过计算各模型主奇异向量的共享正交基并剪枝冲突分量,有效解决了多领域微调模型合并时的子空间冲突问题,从而显著提升了模型在未见领域上的泛化性能。
该论文提出了名为 SAHA 的新型越狱框架,通过识别深层注意力机制中的脆弱性并采用消融影响排序与分层扰动策略,成功突破了现有大语言模型的安全对齐,显著提升了攻击成功率。
该论文提出了“解耦安全假设”(DSH),通过几何分析揭示大语言模型中“识别有害性”与“执行拒绝”机制在深层解耦的现象,并据此开发了能实现“只知不行”状态的双差分提取与自适应因果引导方法,进而提出了具有 SOTA 攻击成功率的“拒绝擦除攻击”(REA)。
该论文提出了 PVminer 基准及经过监督微调的大语言模型 PVminerLLM,旨在从患者生成的文本中高效提取结构化患者声音信息,实验表明该方法在多种任务上显著优于提示基线,且无需超大模型规模即可实现可扩展的社会与体验信号分析。
该研究通过在 POPROX 平台上对 120 名美国用户进行为期 5 周的实地实验,验证了结合“主题 - 地域双重校准”算法与基于大语言模型的个性化呈现“助推”策略能有效提升新闻推荐的多样性,并促使读者逐渐养成兼顾国内与国际新闻的阅读习惯。
该论文提出了 BM25-V 方法,通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合,利用逆文档频率(IDF)加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。
该论文提出了“证明护栏”(Proof-of-Guardrail)系统,利用可信执行环境(TEE)为 AI 代理生成可验证的密码学证明,以确保证据表明响应确实经过了特定开源安全护栏的处理,同时指出即便有此类证明,恶意开发者仍可能通过主动越狱护栏来实施欺骗。
本文提出了 StreamWise 系统,通过自适应地动态管理生成质量、模型并行策略及资源调度,在异构硬件上实现了多模态实时生成(如播客视频)的高效服务,在满足严格延迟要求的同时显著降低了成本。
本文提出了“歧义坍缩”概念,即大语言模型在处理具有多重合法解释的模糊术语时将其强行简化为单一结论,从而绕过人类意义协商过程,并据此构建了一个涵盖过程、输出和生态系统三个层面的认识论风险分类体系,旨在通过多层面的缓解原则设计能够保留并负责任地治理歧义的系统。
本文提出了名为 MaCS 的架构无关正则化框架,通过联合优化逻辑空间中的分类间隔与局部预测一致性,在无需额外数据或架构改动的情况下,显著提升了视觉模型的校准度、鲁棒性及泛化能力。
本文针对大语言模型在对话式视觉分析评估中面临的挑战,基于用户调研提出了 Lexara 工具包,该工具包通过涵盖真实场景的测试用例、可解释的多维度评估指标以及无需编程的交互式探索功能,有效辅助开发者进行模型与提示词的选择。
该论文通过对比提示和余弦相似度分析,揭示了 EleutherAI/gpt-j-6B 大语言模型内部对信任的表征与 Castelfranchi 社会认知模型最为契合,表明 LLM 能够以支持人类-AI 协作系统设计的方式编码社会认知构建。
该论文提出了一种结合卷积神经网络(CNN)与视觉 Transformer(ViT)的集成学习融合模型,通过训练四个独立模型并在预测阶段进行集成,有效克服了单一架构的局限性及冗余特征瓶颈,在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。