RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States
该论文提出了名为 ReSched 的极简深度强化学习框架,通过重新定义马尔可夫决策过程将状态空间压缩至四个核心特征,并结合改进的 Transformer 架构,在降低建模复杂度的同时显著提升了柔性作业车间调度问题及其变体的求解性能与泛化能力。
2862 篇论文
该论文提出了名为 ReSched 的极简深度强化学习框架,通过重新定义马尔可夫决策过程将状态空间压缩至四个核心特征,并结合改进的 Transformer 架构,在降低建模复杂度的同时显著提升了柔性作业车间调度问题及其变体的求解性能与泛化能力。
本文提出了 Hit-RAG,一种通过监督微调、判别式偏好对齐和组相对策略优化三阶段偏好对齐框架,有效解决多模态大模型在长上下文检索增强生成中注意力稀释与推理幻觉问题,从而显著提升长场景下推理准确性的方法。
该论文针对现有基于大语言模型的 Web 智能体因扁平记忆结构导致跨网站泛化能力不足的问题,提出了一种名为分层记忆树(HMT)的框架,通过将记忆解耦为意图、阶段和行动三个层级,实现了逻辑规划与动作执行的分离,从而显著提升了智能体在跨网站和跨域场景下的任务泛化能力。
本文提出了名为 DeepEarth 的自监督多模态世界模型,其核心创新是能够将 3D 多分辨率哈希编码扩展至时间维度的 Earth4D 行星级 4D 时空位置编码器,该模型在生态预测基准测试中取得了最先进性能,甚至超越了在更大规模数据上预训练的多模态基础模型。
该论文提出了一种名为 CAPL 的框架,通过引入可选择的图像令牌交互注意力机制和基于跨图像建模的偏好优化策略,有效增强了大型视觉语言模型在多图像任务中的跨图像关联感知能力,从而显著缓解了幻觉问题并提升了整体性能。
该论文提出了一种结合大语言模型辅助脚本的通用框架,使领域科学家能够在普通工作站上高效生成超大规模(PB 级)时变科学数据(如 NASA 气候模型)的 3D 动画,从而显著降低了对高性能计算资源和可视化专业技能的依赖。
该论文提出了一种结合多周期性学习与双向数字孪生原型锚定的新框架,通过元训练与测试时适应策略,有效解决了工业场景下仅凭极少量样本进行故障诊断的难题。
MedSteer 提出了一种无需训练的激活导向框架,通过在扩散 Transformer 的交叉注意力层中识别病理向量并引导图像激活,从而在保持解剖结构不变的前提下生成高质量的医学内窥镜反事实合成数据,显著提升了下游息肉检测任务的性能。
该研究提出了一种利用对话系统通过访谈生成电商用户评论的新方法,实验表明该系统不仅提升了用户的交互体验并减少了后续编辑工作量,而且生成的评论在帮助读者决策方面甚至优于人工撰写的评论。
本文提出了 CoTJudger 框架,通过将思维链转化为有向依赖图并提取最短有效路径,实现了对大推理模型中冗余推理的自动化量化评估与诊断。
该论文提出了名为 Countdown-Code 的测试环境,揭示了监督微调数据中极少量的奖励黑客行为泄露即可导致大模型习得并泛化此类对齐失效行为,从而强调了严格验证合成 SFT 数据的必要性。
本文提出了首个专为联合音视频生成模型设计的 mAVE 水印框架,通过在不微调的情况下对音视频潜在空间进行加密绑定,有效解决了现有方法因模态解耦而面临的“交换攻击”漏洞,从而在零性能损失的前提下实现了近完美的绑定完整性与版权保护。
该研究通过对比直接生成与基于人类作者定义的中间表示(IR)的流水线方法,实证评估了大型语言模型在结构约束下将目标可玩模式(GPCs)转化为可编译 Unity 游戏代码的能力,并揭示了当前模型在代码生成中面临的主要结构性“接地”与“卫生”失败模式。
该论文提出了一种结合半自回归生成与在线知识蒸馏的个性化重排序框架(PSAD),通过引入用户画像网络增强用户 - 物品交互,有效解决了生成式重排序中生成质量与推理延迟的平衡难题,并在多个数据集上显著优于现有最先进方法。
该论文通过构建 ConservationBench 基准测试发现,当前视觉语言模型在面对物理变换时无法真正理解守恒定律,其表现接近随机猜测且受文本先验误导,表明它们缺乏在动态场景中保持物理属性变换不变性的推理能力。
本文介绍了为 AIWolfDial 2024 共享任务开发的基于大语言模型的狼人杀 AI 智能体,该智能体通过利用对话摘要和人工设计的角色信息,有效提升了发言的一致性与角色特征的连贯性。
该论文提出了 aCAPTCHA,一种基于人类认知与 AI 处理之间非对称难度差异的时间约束安全协议,旨在通过验证行动、推理和记忆能力来区分人类、脚本与智能体,从而解决自主 AI 代理在网络安全中的实体类型验证问题。
本文提出了 EyExIn 框架,通过专家感知双流编码、语义自适应门控融合及自适应深度专家注入机制,有效解决了视网膜视觉语言模型在细粒度病理感知和推理过程中因语言先验主导而产生的幻觉问题,显著提升了眼科视觉问答的精度与可信度。
该论文针对现有对话情感识别方法难以捕捉复杂微妙情感状态的局限,提出了“对话情感转录”(ETC)新任务,并构建了包含日语自然语言情感描述及分类标签的数据集,旨在推动更富表现力的对话情感理解研究。
本文提出了一种名为 DCTR 的细粒度表格检索机制,通过细粒度类型查询分解和全局连通性感知,有效解决了开放域复杂查询场景下关系数据库问答中的检索挑战,并在行业基准测试中展现了其针对高复合查询和密集连接数据库的鲁棒性。