MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines
该论文提出了一种名为 MultiGen 的新方法,通过引入独立于模型上下文窗口的可编辑外部记忆模块,将生成过程分解为记忆、观测和动态三个部分,从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。
4237 篇论文
该论文提出了一种名为 MultiGen 的新方法,通过引入独立于模型上下文窗口的可编辑外部记忆模块,将生成过程分解为记忆、观测和动态三个部分,从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。
本文提出了名为 VB 的基准测试,旨在评估多模态大模型在图像可见性与视角推理任务中判断可见性、识别不可回答情况并给出置信度的能力,通过最小化编辑对照实验和多项严格指标发现 GPT-4o 与 Gemini 3.1 Pro 表现最佳,而开源模型 Gemma 3 12B 亦展现出超越部分旧版闭源系统的潜力。
本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。
该论文提出利用眼动追踪数据作为监督信号,通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程,从而显著提升了模型在医学影像推理任务中的性能与泛化能力。
本文提出了一种结合语法引导合成(SyGuS)与扩展了谓词和函数更新的时序流逻辑(TSL)的新方法,通过从执行轨迹中挖掘数据转换与时序规范,实现了比被动学习基线更鲁棒且样本效率更高的反应式程序合成。
该论文提出了 ATLAS 框架,通过引入可学习的上下文控制与基于评分标准的强化微调策略,使小语言模型能够在大型工具空间中高效执行长程任务,从而在有限的参数和上下文预算下达到接近前沿智能体的性能。
本文提出了一种结合地球静止轨道卫星数据与分层规划方法的动态目标观测新策略,通过利用长达 35 分钟的超前信息制定长期观测蓝图并结合星载传感器进行短期优化,显著提升了云规避和风暴追踪等场景下的观测性能(最高提升 41%)。
本文提出了 ProtAlign 框架,通过对比学习将蛋白质序列与结构映射到统一的嵌入空间,从而实现了跨模态检索并提升了功能预测与稳定性评估等下游任务的性能。
该论文针对现有隐形水印检测依赖特定算法先验知识的局限,提出了无需解码信息的通用水印存在检测(UWPD)任务,并构建了 UniFreq-100K 数据集及提出利用自适应频谱感知与动态多频谱注意力机制的 FSNet 模型,实现了在未知嵌入算法下的优异零样本检测能力。
该论文提出了一种双向反馈融合框架,通过联合建模室内环境演变与人类活动特征,并引入双时间尺度模块及复合损失函数,显著提升了室内二氧化碳和 PM2.5 浓度预测的准确性与可解释性。
本文提出了名为 FutureBoosting 的混合 AI 框架,通过将冻结的时间序列基础模型生成的预测特征融入回归模型,有效克服了单一模型在捕捉跨变量关联与历史驱动因素方面的局限,从而在电价预测任务中显著提升了预测精度与可解释性。
本文提出了一种名为"Safe Transformer"的模块化方法,通过在 Transformer 层间插入包含显式安全位的离散信息瓶颈,利用对比学习实现安全决策的可解释性与可控制性,仅需轻量级微调即可在保持生成能力的同时显著降低攻击成功率。
该论文提出了一种结合密度不变观测编码、密度随机化训练及物理信息近距奖励塑造的强化学习方法,有效解决了密集人群导航中因分布外密度导致的泛化失效问题,在显著减少冻结现象的同时实现了零样本密度泛化与高碰撞避免率。
本文提出了“校准信用智能”(CCI)框架,通过结合贝叶斯神经网络、公平性约束梯度提升及分布偏移感知融合策略,在动态变化的信贷数据中实现了兼具高准确性、可靠校准性与群体公平性的风险评分。
该论文提出了一种名为"Agent Hunt"的基于赏金机制的协作式自动形式化框架,通过让多个大语言模型代理在交互式定理证明环境中动态发布、竞标并完成代数拓扑领域的证明任务,从而探索去中心化的协作证明搜索与理论构建方法。
该论文提出了秩分解隐式神经偏置(RIB)以替代传统的相对位置偏置,从而在超分辨率 Transformer 中启用高效的 FlashAttention 并支持更大窗口与数据集的扩展,最终在显著提升重建质量(Urban100×2 达 35.63 dB PSNR)的同时,将训练和推理时间分别缩短了 2.1 倍和 2.9 倍。
该论文提出了 ResearchEnvBench 基准,旨在评估自主智能体在给定研究代码库和文档时自动构建可运行执行环境的能力,并揭示了当前最先进模型在解决复杂依赖和版本耦合方面存在的显著差距。
本文介绍了 ViroGym,一个包含 79 项深度突变扫描实验和多种真实世界预测任务的大规模基准,旨在评估蛋白质语言模型在病毒蛋白变异效应预测中的表现,并为疫苗抗原选择提供基于实验数据指导的理性框架。
该论文提出了一种高效且支持异构训练目标的去中心化扩散模型框架,通过结合异构训练范式、预训练检查点转换及 PixArt-alpha 架构,在显著降低计算与数据需求的同时,实现了比同质化基线更优的生成质量与多样性。
该论文提出了一种通过微调预训练生成模型,使其能够在保持生成质量的同时直接在复杂可行域(如道路地图)内生成样本的约束生成框架。