CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation
CogBlender 是一个旨在弥合文本到图像生成中语义内容与认知属性(如情绪效价、唤醒度、支配性及图像记忆性)之间鸿沟的框架,它通过建立认知空间与语义流形之间的映射,利用认知锚点重构流匹配过程中的速度场,从而实现了对生成图像认知特性的连续、多维且精细的干预。
3210 篇论文
CogBlender 是一个旨在弥合文本到图像生成中语义内容与认知属性(如情绪效价、唤醒度、支配性及图像记忆性)之间鸿沟的框架,它通过建立认知空间与语义流形之间的映射,利用认知锚点重构流匹配过程中的速度场,从而实现了对生成图像认知特性的连续、多维且精细的干预。
本文提出了名为 MDTrack 的新型多模态目标跟踪框架,通过为不同模态分配专用专家实现模态感知融合,并利用解耦的状态空间模型与交叉注意力机制进行独立且协同的时序传播,从而在五个基准测试中取得了最先进的性能。
本文提出了 ToolRosetta 框架,通过自动将开源代码库转换为可执行的 MCP 工具并集成安全检测,使大语言模型代理能够自主规划并调用现有工具以高效完成复杂任务,从而显著降低了代码复用与部署的人力成本。
本文提出了名为“见、规划、回退”(SPR)的进度感知视觉 - 语言 - 动作框架,该框架通过将语言指令动态转化为空间子目标序列,并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态,从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。
该研究通过控制实验,系统分析了网络延迟对网络虚拟白板中实用性与享乐性多维体验质量的影响,并深入探讨了这种影响在不同协作模式(顺序协作与自由协作)及不同呈现形式(有无虚拟化身)下的差异,旨在为优化此类系统的实际部署提供指导。
本文提出了 CORAL 框架,通过冻结预训练 VLA 骨干网络并为每个任务分配独立的轻量级 LoRA 专家,在运行时动态切换专家以彻底消除多任务学习中的梯度冲突与灾难性遗忘,从而在真实机器人和多个仿真基准上实现了高效、可扩展的终身多任务学习。
该研究提出了一种无需文本上下文、融合副语言信息与情感识别的自监督学习模型,用于检测日语共情对话中的情感验证时机,并在实验证明其显著优于传统语音基线,为构建更具共情能力的人机交互系统提供了纯语音驱动的新路径。
本文提出了一种基于 RISC-V 可信执行环境(TEE)的外部熵供应方案,通过建立受信任的服务器为资源受限的物联网设备提供加密级随机数,从而解决其熵源不足的安全难题。
本文提出了名为 IntroSVG 的生成框架,通过构建一个兼具生成与批判双重角色的统一视觉语言模型,利用监督微调、直接偏好优化以及“生成 - 审查 - 优化”的迭代闭环机制,将渲染后的视觉反馈融入训练过程,从而显著提升了文本到矢量图形(SVG)生成的质量、语义对齐度及可编辑性。
本文提出了 NLiPsCalib 框架,通过结合可控近场光源与近场光度立体视觉技术,仅需少量日常物体接触即可高效校准弯曲视觉触觉传感器,从而显著降低高保真 3D 重建的门槛并提升其重建精度。
该论文提出了名为 OddGridBench 的可控基准以评估多模态大模型对细微视觉差异的敏感度,发现现有模型表现远逊于人类,并进一步通过引入课程学习与距离感知奖励的 OddGrid-GRPO 强化学习框架显著提升了模型的细粒度视觉判别能力。
该研究通过部署涵盖各类非法主题的蜜罐洋葱网站并监测其引流效果,发现人类用户主要源自 Ahmia 搜索引擎,且儿童性虐待(CSAM)主题的站点互动率显著高于其他类别,同时英语版本比多语言版本更受青睐。
本文提出并验证了一种面向 ESP32 微控制器的动态精度数学引擎,通过集成 Q16.16 定点核心、CORDIC 三角函数模块及缓存感知矩阵乘法内核,实现了在运行时灵活切换定点与浮点执行路径,从而在保持精度的同时将三角函数运算速度提升了 18.5 至 24.7 倍。
该研究通过提示工程、多模型交叉验证及专家评估,证实了 ChatGPT 虽能在一定程度上生成逼真的合成系统需求规格说明书,但仍存在矛盾与缺陷,且其自动质量评估无法完全替代专家人工评审。
本文提出了一种名为预测谱校准(PSC)的无源测试时适应框架,通过扩展子空间对齐至块谱匹配,在无需源数据的情况下有效提升了图像回归模型在分布偏移下的性能。
这篇发表于 ICDE 2026 的教程论文全面综述了人工智能与向量搜索相互促进的“良性循环”,深入探讨了 AI 如何优化向量搜索流程、向量搜索如何通过检索增强生成(RAG)赋能大语言模型,以及两者端到端协同优化的策略、挑战与未来机遇。
本文提出了一种基于潜在空间迭代优化的鲁棒且可证明安全的图像隐写框架,该方法通过接收端迭代优化潜在变量来显著提升消息提取在压缩等处理下的准确率,同时保持可证明安全性并具备作为独立模块增强其他方案的通用性。
本文提出了 ProvAgent 框架,通过结合传统模型的高效初筛、基于图对比学习的细粒度身份 - 行为一致性绑定以及多智能体协作的自主调查机制,有效解决了高级持续性威胁(APT)检测中专家依赖与警报疲劳的矛盾,实现了低成本、高精度的攻击过程重构。
本文提出了一种名为 EPPINN 的框架,通过结合证据深度学习与物理信息建模,在无需贝叶斯采样或集成推理的情况下实现了对急性缺血性卒中 CT 灌注成像中物理约束违反的不确定性量化,从而在提升参数估计精度的同时显著增强了临床诊断的可靠性。
SinGeo 提出了一种无需额外模块或显式变换的简单框架,通过双判别学习架构和首创的课程学习策略,使单一模型能够克服现有方法在未见视角和方向上的局限性,实现了在多种条件下的鲁棒跨视角地理定位并取得了最先进性能。