CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender 是一个旨在弥合文本到图像生成中语义内容与认知属性(如情绪效价、唤醒度、支配性及图像记忆性)之间鸿沟的框架,它通过建立认知空间与语义流形之间的映射,利用认知锚点重构流匹配过程中的速度场,从而实现了对生成图像认知特性的连续、多维且精细的干预。

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

本文提出了 ToolRosetta 框架,通过自动将开源代码库转换为可执行的 MCP 工具并集成安全检测,使大语言模型代理能够自主规划并调用现有工具以高效完成复杂任务,从而显著降低了代码复用与部署的人力成本。

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本文提出了名为“见、规划、回退”(SPR)的进度感知视觉 - 语言 - 动作框架,该框架通过将语言指令动态转化为空间子目标序列,并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态,从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

本文提出了名为 IntroSVG 的生成框架,通过构建一个兼具生成与批判双重角色的统一视觉语言模型,利用监督微调、直接偏好优化以及“生成 - 审查 - 优化”的迭代闭环机制,将渲染后的视觉反馈融入训练过程,从而显著提升了文本到矢量图形(SVG)生成的质量、语义对齐度及可编辑性。

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

该论文提出了名为 OddGridBench 的可控基准以评估多模态大模型对细微视觉差异的敏感度,发现现有模型表现远逊于人类,并进一步通过引入课程学习与距离感知奖励的 OddGrid-GRPO 强化学习框架显著提升了模型的细粒度视觉判别能力。

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

ProvAgent: Threat Detection Based on Identity-Behavior Binding and Multi-Agent Collaborative Attack Investigation

本文提出了 ProvAgent 框架,通过结合传统模型的高效初筛、基于图对比学习的细粒度身份 - 行为一致性绑定以及多智能体协作的自主调查机制,有效解决了高级持续性威胁(APT)检测中专家依赖与警报疲劳的矛盾,实现了低成本、高精度的攻击过程重构。

Wenhao Yan, Ning An, Linxu Li, Bingsheng Bi, Bo Jiang, Zhigang Lu, Baoxu Liu, Junrong Liu, Cong DongWed, 11 Ma💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

本文提出了一种名为 EPPINN 的框架,通过结合证据深度学习与物理信息建模,在无需贝叶斯采样或集成推理的情况下实现了对急性缺血性卒中 CT 灌注成像中物理约束违反的不确定性量化,从而在提升参数估计精度的同时显著增强了临床诊断的可靠性。

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs