NuNext: Reframing Nucleus Detection as Next-Point Detection
该论文提出了一种名为 NuNext 的新方法,通过将细胞核检测重构为基于多模态大语言模型的“下一点预测”任务,并采用包含空间感知软监督、视觉思维链策略及强化学习微调的两阶段训练框架,在无需复杂后处理的情况下显著提升了组织病理学图像中细胞核检测的精度。
3956 篇论文
该论文提出了一种名为 NuNext 的新方法,通过将细胞核检测重构为基于多模态大语言模型的“下一点预测”任务,并采用包含空间感知软监督、视觉思维链策略及强化学习微调的两阶段训练框架,在无需复杂后处理的情况下显著提升了组织病理学图像中细胞核检测的精度。
该研究通过对比直接生成与基于人类作者定义的中间表示(IR)的流水线方法,实证评估了大型语言模型在结构约束下将目标可玩模式(GPCs)转化为可编译 Unity 游戏代码的能力,并揭示了当前模型在代码生成中面临的主要结构性“接地”与“卫生”失败模式。
本文提出了名为 AutoUE 的多智能体系统,通过结合检索增强生成、游戏设计模式约束及自动化测试流水线,实现了在虚幻引擎中从零开始端到端生成包含场景、代码及交互功能的 3D 游戏。
该论文提出了一种结合半自回归生成与在线知识蒸馏的个性化重排序框架(PSAD),通过引入用户画像网络增强用户 - 物品交互,有效解决了生成式重排序中生成质量与推理延迟的平衡难题,并在多个数据集上显著优于现有最先进方法。
该论文通过构建 ConservationBench 基准测试发现,当前视觉语言模型在面对物理变换时无法真正理解守恒定律,其表现接近随机猜测且受文本先验误导,表明它们缺乏在动态场景中保持物理属性变换不变性的推理能力。
该论文提出了一种名为 FEMA 的失败经验记忆机制,通过显式存储并检索短期失败经历来引导策略避免重复错误,从而在强化学习中显著提升了样本效率并促进了长时程探索。
该论文提出了一种名为语义分区对比学习(S-PCL)的高效自监督预训练框架,通过随机划分图像块构建互补视图来隐式学习胸部 X 光片的解剖与病理特征,从而在无需手工增强、辅助解码器或动量编码器的情况下,实现了比现有方法更低的计算成本和更高的诊断精度。
该论文提出了 aCAPTCHA,一种基于人类认知与 AI 处理之间非对称难度差异的时间约束安全协议,旨在通过验证行动、推理和记忆能力来区分人类、脚本与智能体,从而解决自主 AI 代理在网络安全中的实体类型验证问题。
该论文提出了 TIQA 任务及配套的标注数据集,并设计了轻量级的 ANTIQA 方法,旨在通过更贴合人类感知的文本质量评分,有效解决现有生成式图像中文本渲染评估与 OCR 或通用视觉模型判断偏差较大的问题,从而显著提升生成流程中的文本质量筛选与重排序效果。
该论文提出了一种名为“图像间像素混洗(IPS)”的新方法,通过将多聚焦图像融合重构为像素级分类任务,利用单张清晰图像及其低通滤波版本生成无需真实多聚焦数据的合成训练集,并结合卷积神经网络与状态空间模型构建的跨图像融合网络,实现了在缺乏真实多聚焦训练数据的情况下仍能显著超越现有方法的高质量融合效果。
该论文提出了一种基于真实一级方程式遥测数据的学习型初始化策略,通过利用神经网络根据局部赛道几何特征预测专家级赛车线,显著提升了自动驾驶赛车轨迹优化求解器的收敛速度与运行效率,同时保持了最优单圈成绩。
本文介绍了一个包含音频和振动多模态信号的单速链式输送机工业故障数据集,旨在通过标准化评估协议和基线模型,支持复杂工况下的系统级故障检测与多模态融合研究。
本文提出了 EyExIn 框架,通过专家感知双流编码、语义自适应门控融合及自适应深度专家注入机制,有效解决了视网膜视觉语言模型在细粒度病理感知和推理过程中因语言先验主导而产生的幻觉问题,显著提升了眼科视觉问答的精度与可信度。
该论文通过一项涉及家庭与言语治疗师的三项研究,探讨了多模态大语言模型在儿童早期发展社区中的应用,提出应将人机对齐视为一个由专家结构、专业中介和家庭适应性共同构成的社区治理过程,而非单纯的个人优化问题。
该论文提出了 AutoSelect 方法,通过将视觉 Token 剪枝重构为容量受限的通信问题,利用噪声门控机制在无需辅助目标的情况下自动筛选关键 Token,从而在显著降低推理成本的同时保持了视觉语言模型的高精度。
本文提出了名为 DexKnot 的框架,通过结合关键点仿射性与扩散策略,利用从真实世界手动变形数据中学习到的形状无关表征,实现了机器人对未见过的塑料袋实例及形变进行泛化且可靠的打结操作。
本文提出了一种基于理论建模与实验校准的模型驱动方法,通过关联特定点温度与致动器膨胀状态,成功将六足机器人精密机电致动器的热漂移减少了 80% 以上。
本文提出了 PDD 框架,通过结合 VMamba 与 Wide-ResNet 的双教师先验、流形匹配统一模块及多样化蒸馏策略,有效解决了医学图像中细微异质异常检测的难题,并在多个数据集上取得了显著优于现有最先进方法的性能。
这篇教程以扩展特殊欧几里得群 SE₂(3) 的李群理论为基础,系统介绍了面向控制的辅助惯性导航系统,通过明确不变性与对称性的作用,构建了融合惯性测量与辅助信息的几何框架,并探讨了高阶状态表示、同步观测器设计及等变滤波等现代扩展方法。
该论文提出了名为 CanoVerse 的包含 32 万个 3D 对象的超大规模标准化数据集及高效对齐框架,通过解决 3D 资产的方向歧义问题,显著提升了 3D 生成稳定性、跨模态检索精度及零样本点云姿态估计能力。