Coverage-Aware Web Crawling for Domain-Specific Supplier Discovery via a Web--Knowledge--Web Pipeline
该论文提出了一种“网络—知识—网络”(W→K→W)迭代管道,结合领域自适应的少样本大语言模型提示与基于生态学原理的覆盖率估计框架,通过利用知识图谱的拓扑结构引导爬虫定向探索,从而在显著减少页面抓取量的同时,高效且精准地发现了半导体设备制造业中传统数据库遗漏的中小供应商。
11434 篇论文
该论文提出了一种“网络—知识—网络”(W→K→W)迭代管道,结合领域自适应的少样本大语言模型提示与基于生态学原理的覆盖率估计框架,通过利用知识图谱的拓扑结构引导爬虫定向探索,从而在显著减少页面抓取量的同时,高效且精准地发现了半导体设备制造业中传统数据库遗漏的中小供应商。
该论文通过建立激活空间干预与权重更新之间的一阶等价性,提出了一个 principled 的激活导向框架,确定了后块输出为最佳干预位置,并引入联合适应新范式,在仅训练 0.04% 参数的情况下实现了接近全参数微调的性能,显著优于现有的激活导向和参数高效微调方法。
该论文提出了一种基于隐式神经表示和重参数化策略的张量环函数分解方法,通过引入可学习潜张量与固定基的混合结构来优化频谱特性并改善训练动态,从而在图像修复、去噪、超分辨率及点云恢复等多维数据恢复任务中实现了优于现有方法的性能。
该论文提出了一种结合多分支 CNN 特征提取与增强型 Legendre 记忆单元(LMU)的紧凑声学框架,并引入基于熵门控的校准后验集成融合策略,有效解决了跨域婴儿哭声分类中信号非平稳、标注稀缺及域偏移等挑战,显著提升了模型的泛化能力与实时部署性能。
本文介绍了名为 Whisper-RIR-Mega 的配对清洁与混响语音基准数据集,该数据集通过将 LibriSpeech 语料与 RIR-Mega 真实房间脉冲响应结合,并针对混响时间和直达声混响比进行分层划分,用于评估不同规模 Whisper 模型在房间声学条件下的自动语音识别鲁棒性。
本文提出了名为 RigidSSL 的几何预训练框架,通过结合刚性感知流匹配目标与大规模结构扰动及分子动力学数据,有效解决了现有蛋白质生成模型在几何联合学习、全局刚性理解及动态构象建模方面的局限,显著提升了蛋白质设计的可设计性、新颖性及构象系综的物理真实性。
mlx-vis 是一款基于 Apple Silicon 的 Python 库,它利用 MLX 框架在 Metal GPU 上实现了六种降维方法及 KNN 图算法,并集成了无需 Matplotlib 的 GPU 加速圆形点渲染器,从而能在 M3 Ultra 等芯片上极速完成从数据嵌入到视频生成的全流程可视化。
该论文提出了“遍历即策略”(Traversal-as-Policy)框架,通过将沙盒执行日志蒸馏为可执行的门控行为树(GBT),将控制策略从隐式生成转变为显式遍历,从而在 OpenHands 基准测试中显著提升了智能体的任务成功率、安全性并降低了成本。
该论文针对顺序多智能体大语言模型系统中局部隐私约束无法防止级联泄露的问题,通过形式化互信息泄露并推导理论界,提出了一种隐私正则化训练框架,证明了必须将隐私视为系统级属性以在训练和部署阶段实现有效的隐私 - 效用权衡。
RoboLayout 通过引入可微分的可达性约束和局部细化优化机制,扩展了 LayoutVLM 框架,使其能够生成既符合语义逻辑又适应不同具身智能体物理交互能力的 3D 室内场景布局。
本文提出了一种结合临床特征注入 Transformer 与领域自适应掩码自编码器的多模态计算病理框架,仅利用常规 PAS 染色活检和临床数据,在儿童狼疮性肾炎预后预测中实现了高达 90.1% 的三类准确率。
本文提出了名为 JAWS 的基于空间自适应雅可比正则化的概率正则化策略,通过根据局部物理复杂度动态调整正则化强度,在抑制高频不稳定性与保留奇异特征梯度之间取得平衡,从而显著提升了神经算子在长时程推演中的稳定性、激波保真度及泛化能力,同时降低了训练计算成本。
本文介绍了 VDCook,一个基于自然语言查询和 MCP 协议实现自动检索与合成、支持持续演进与多维元数据标注的自进化视频数据操作系统,旨在降低构建垂直领域多模态大模型训练数据集的门槛。
该论文通过引入结构歧义成本(SAC)和证明引擎无关的下界,揭示了语法等价性并不保证解码效率,并提出了基于可达性预言机的语法约束解码理论框架,以优化大语言模型在上下文无关语法约束下的解码性能与成本。
该论文提出了一种对 Brier 分数中 Yates 协方差分解的直观代数重排,将其转化为方差失配、相关度不足和大尺度校准三个非负项,从而清晰揭示了完美概率预报需同时满足方差匹配、完全正相关及均值匹配的最优条件。
本文提出了 IntSeqBERT,一种利用对数尺度幅值与多模数同余谱嵌入的双流 Transformer 模型,通过联合训练幅值回归、符号分类及同余预测任务,结合概率中国剩余定理求解器,显著提升了 OEIS 整数序列的预测精度并揭示了复合模数在捕捉算术结构中的高效性。
该研究通过建立基于“拔河”原理的随机过程模型,揭示了时间序列自相关特性对多臂老虎机决策性能的影响机制,发现负自相关在奖励丰富(获胜概率之和大于 1)的环境中更优,而正自相关在奖励匮乏(获胜概率之和小于 1)的环境中更有效,且当获胜概率之和等于 1 时决策性能与自相关无关。
本文提出了一种连续时间 Koopman 自编码器(CT-KAE)作为双层准地转海洋系统的轻量级代理模型,通过将其非线性动力学投影为线性常微分方程,实现了比自回归 Transformer 基线更稳定、误差增长有界且推理速度快数个数量级的长时序海洋状态预测。
该论文通过构建包含内生教育和异质性厂商的任务模型,揭示了生成式 AI 在压缩个体技能差异的同时,因经济价值向集中互补资产转移而可能加剧总体不平等的悖论,并界定了决定这一结果的两个制度与技术 regimes。
该论文提出了一种名为 CDDS 的新颖跨模态对齐算法,通过引入双路径 UNet 进行约束解耦以及分布采样方法,有效解决了语义与模态信息区分标准缺失及模态间隙导致的对齐偏差问题,从而在多个基准测试中显著超越了现有最先进方法。