cs 篇论文 | Gist.Science

NuNext: Reframing Nucleus Detection as Next-Point Detection

该论文提出了一种名为 NuNext 的新方法，通过将细胞核检测重构为基于多模态大语言模型的“下一点预测”任务，并采用包含空间感知软监督、视觉思维链策略及强化学习微调的两阶段训练框架，在无需复杂后处理的情况下显著提升了组织病理学图像中细胞核检测的精度。

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

该研究通过对比直接生成与基于人类作者定义的中间表示（IR）的流水线方法，实证评估了大型语言模型在结构约束下将目标可玩模式（GPCs）转化为可编译 Unity 游戏代码的能力，并揭示了当前模型在代码生成中面临的主要结构性“接地”与“卫生”失败模式。

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

AutoUE: Automated Generation of 3D Games in Unreal Engine via Multi-Agent Systems

本文提出了名为 AutoUE 的多智能体系统，通过结合检索增强生成、游戏设计模式约束及自动化测试流水线，实现了在虚幻引擎中从零开始端到端生成包含场景、代码及交互功能的 3D 游戏。

Lei Yin, Wentao Cheng, Zhida Qin, Tianyu Huang, Yidong Li, Gangyi Ding2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

该论文提出了一种结合半自回归生成与在线知识蒸馏的个性化重排序框架（PSAD），通过引入用户画像网络增强用户 - 物品交互，有效解决了生成式重排序中生成质量与推理延迟的平衡难题，并在多个数据集上显著优于现有最先进方法。

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

该论文通过构建 ConservationBench 基准测试发现，当前视觉语言模型在面对物理变换时无法真正理解守恒定律，其表现接近随机猜测且受文本先验误导，表明它们缺乏在动态场景中保持物理属性变换不变性的推理能力。

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory

该论文提出了一种名为 FEMA 的失败经验记忆机制，通过显式存储并检索短期失败经历来引导策略避免重复错误，从而在强化学习中显著提升了样本效率并促进了长时程探索。

Chenyang Miao2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

该论文提出了一种名为语义分区对比学习（S-PCL）的高效自监督预训练框架，通过随机划分图像块构建互补视图来隐式学习胸部 X 光片的解剖与病理特征，从而在无需手工增强、辅助解码器或动量编码器的情况下，实现了比现有方法更低的计算成本和更高的诊断精度。

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

该论文提出了 aCAPTCHA，一种基于人类认知与 AI 处理之间非对称难度差异的时间约束安全协议，旨在通过验证行动、推理和记忆能力来区分人类、脚本与智能体，从而解决自主 AI 代理在网络安全中的实体类型验证问题。

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

该论文提出了 TIQA 任务及配套的标注数据集，并设计了轻量级的 ANTIQA 方法，旨在通过更贴合人类感知的文本质量评分，有效解决现有生成式图像中文本渲染评估与 OCR 或通用视觉模型判断偏差较大的问题，从而显著提升生成流程中的文本质量筛选与重排序效果。

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

该论文提出了一种名为“图像间像素混洗（IPS）”的新方法，通过将多聚焦图像融合重构为像素级分类任务，利用单张清晰图像及其低通滤波版本生成无需真实多聚焦数据的合成训练集，并结合卷积神经网络与状态空间模型构建的跨图像融合网络，实现了在缺乏真实多聚焦训练数据的情况下仍能显著超越现有方法的高质量融合效果。

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Efficient Trajectory Optimization for Autonomous Racing via Formula-1 Data-Driven Initialization

该论文提出了一种基于真实一级方程式遥测数据的学习型初始化策略，通过利用神经网络根据局部赛道几何特征预测专家级赛车线，显著提升了自动驾驶赛车轨迹优化求解器的收敛速度与运行效率，同时保持了最优单圈成绩。

Samir Shehadeh, Lukas Kutsch, Nils Dengler, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

本文介绍了一个包含音频和振动多模态信号的单速链式输送机工业故障数据集，旨在通过标准化评估协议和基线模型，支持复杂工况下的系统级故障检测与多模态融合研究。

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming Li2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

本文提出了 EyExIn 框架，通过专家感知双流编码、语义自适应门控融合及自适应深度专家注入机制，有效解决了视网膜视觉语言模型在细粒度病理感知和推理过程中因语言先验主导而产生的幻觉问题，显著提升了眼科视觉问答的精度与可信度。

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

More Than 1v1: Human-AI Alignment in Early Developmental Communities with Multimodal LLMs

该论文通过一项涉及家庭与言语治疗师的三项研究，探讨了多模态大语言模型在儿童早期发展社区中的应用，提出应将人机对齐视为一个由专家结构、专业中介和家庭适应性共同构成的社区治理过程，而非单纯的个人优化问题。

Weiyan Shi, Kenny Tsu Wei Choo2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

该论文提出了 AutoSelect 方法，通过将视觉 Token 剪枝重构为容量受限的通信问题，利用噪声门控机制在无需辅助目标的情况下自动筛选关键 Token，从而在显著降低推理成本的同时保持了视觉语言模型的高精度。

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation

本文提出了名为 DexKnot 的框架，通过结合关键点仿射性与扩散策略，利用从真实世界手动变形数据中学习到的形状无关表征，实现了机器人对未见过的塑料袋实例及形变进行泛化且可靠的打结操作。

Jiayuan Zhang, Ruihai Wu, Haojun Chen, Yuran Wang, Yifan Zhong, Ceyao Zhang, Yaodong Yang, Yuanpei Chen2026-03-10💻 cs

Model-based thermal drift compensation for high-precision hexapod robot actuators

本文提出了一种基于理论建模与实验校准的模型驱动方法，通过关联特定点温度与致动器膨胀状态，成功将六足机器人精密机电致动器的热漂移减少了 80% 以上。

Clément Robert, Alain Vissiere, Olivier Company, Pierre Noire, Thierry Roux, Sébastien Krut2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

本文提出了 PDD 框架，通过结合 VMamba 与 Wide-ResNet 的双教师先验、流形匹配统一模块及多样化蒸馏策略，有效解决了医学图像中细微异质异常检测的难题，并在多个数据集上取得了显著优于现有最先进方法的性能。

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

Tutorial on Aided Inertial Navigation Systems: A Modern Treatment Using Lie-Group Theoretical Methods

这篇教程以扩展特殊欧几里得群 SE₂(3) 的李群理论为基础，系统介绍了面向控制的辅助惯性导航系统，通过明确不变性与对称性的作用，构建了融合惯性测量与辅助信息的几何框架，并探讨了高阶状态表示、同步观测器设计及等变滤波等现代扩展方法。

Soulaimane Berkane2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

该论文提出了名为 CanoVerse 的包含 32 万个 3D 对象的超大规模标准化数据集及高效对齐框架，通过解决 3D 资产的方向歧义问题，显著提升了 3D 生成稳定性、跨模态检索精度及零样本点云姿态估计能力。

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

← 上一页下一页 →