Vision-Language System using Open-Source LLMs for Gestures in Medical Interpreter Robots
该论文提出了一种基于本地部署开源大语言模型的隐私保护视觉语言框架,用于医疗翻译机器人,通过新构建的临床对话手势数据集实现了对同意和指令等言语行为的高精度识别,并生成了比基线更具拟人化且恰当的机器人手势。
255 篇论文
该论文提出了一种基于本地部署开源大语言模型的隐私保护视觉语言框架,用于医疗翻译机器人,通过新构建的临床对话手势数据集实现了对同意和指令等言语行为的高精度识别,并生成了比基线更具拟人化且恰当的机器人手势。
该研究通过在 POPROX 平台上对 120 名美国用户进行为期 5 周的实地实验,验证了结合“主题 - 地域双重校准”算法与基于大语言模型的个性化呈现“助推”策略能有效提升新闻推荐的多样性,并促使读者逐渐养成兼顾国内与国际新闻的阅读习惯。
本文提出了一种集成高分辨率触觉传感阵列与振动反馈执行器的闭环心肺复苏(CPR)训练手套,通过实时监测按压参数并提供触觉指导,实现了无需依赖外部视听设备的高精度自训练。
本文针对大语言模型在对话式视觉分析评估中面临的挑战,基于用户调研提出了 Lexara 工具包,该工具包通过涵盖真实场景的测试用例、可解释的多维度评估指标以及无需编程的交互式探索功能,有效辅助开发者进行模型与提示词的选择。
该论文通过对 15 名 UX 设计师的设计工作坊研究,揭示了 AI 采纳不仅是效率提升的过程,更是个体、团队与组织层面围绕责任、信任与自主性等价值观进行协商并重构权力关系的过程。
该论文提出了一种名为“玻璃手眼分析”的远程协作可视化方法,通过在镜像视频上叠加可视化界面并支持双向手势控制,使参与者能在面对面交流数据时增强临场感与对彼此分析意图的相互感知。
该论文基于 29 位国际专家的观点,围绕五大可视化协作活动及 XR 与 AI 技术的影响,系统归纳了远程同步可视化协作面临的 16 项挑战,并提出了涵盖技术选择、社会因素、AI 辅助及评估的未来研究框架。
该研究通过用户实验表明,人们对 AI 公平性的判断不仅取决于结果,更深受对数据分布差异(即“次边际性”)成因信念的影响,因此算法公平性指标的设计必须考虑分布背景才能与人类期望保持一致。
该研究提出并验证了一种基于紧急程度的自适应混合现实通知系统,通过将非紧急信息置于视野边缘、紧急信息逐步移至中心,显著降低了用户的心智负荷与挫败感,同时保持了通知的知晓率。
该论文提出了名为 LongNAP 的用户模型,通过结合参数化学习与上下文学习,利用大规模标注的自然交互数据来预测用户的多模态下一步操作,从而实现了在复杂交互背景下对用户需求的主动式预测。
该论文提出通过引入作者上下文(HuLM 任务)来纠正大型语言模型中的生态谬误,实验表明在 8B Llama 模型上应用人类感知的微调(HuFT)或持续预训练,能显著提升其在多项下游任务中的性能。
该论文基于交互主义和建构主义心理学理论,提出了一种融合个体特质与情境特征的机器学习方法,利用大型语言模型分析社交媒体数据以预测心理健康状态,在保持竞争力的同时显著提升了模型的可解释性。
该论文提出了一种层级化的资源理性优化框架,将眼动决策与理解目标统一起来,通过计算模型成功解释了人类阅读中从词汇识别到篇章理解的多尺度行为特征。
本文介绍了名为 ProxyMe 的 VR 原型设计,旨在通过结合化身具身、语音克隆与 AI 语音增强技术,探索用户将 AI 生成的沟通内容体验为自身表达行为的“自我延伸”现象,并研究不同委托与可控程度对感知代理权、作者身份及自我认同的影响。
该论文提出并验证了可解释智能评估平台 XIA,通过提供可视化认知诊断与对比反事实解释,有效帮助职前教师从依赖分数转向基于证据的推理,从而提升了其评估素养。
该研究提出了一种根据学习者表现实时调整透明度的自适应“幽灵导师”系统,并通过实验证明其在 VR 钢琴学习中相比固定透明度模式能更有效地减少对外部提示的依赖,从而提升短期技能保持和演奏准确性。
该研究通过一项针对 12 名小学生的探索性实验,评估了社会辅助机器人作为同伴调解员在教授冲突解决技能方面的可行性,结果显示尽管机器人组与平板组在统计指标上无显著差异,但多数学生反馈积极,且机器人条件下观察到了特质指标与学习指标间的显著相关性,表明 SARs 在同伴调解培训中具有应用潜力。
这项研究通过对比实验发现,虽然基于大语言模型(LLM)的消息生成方式在用户感知帮助度上显著优于模板化方法,但结合上下文多臂老虎机(Bandit)的优化策略并未带来额外收益,表明在个性化健康行为干预中,对用户输入的语境化回应比单纯的结构化探索或生成灵活性更为关键。
该论文通过邀请专业设计师为虚拟现实中的八种增强能力设计化身,提炼出 16 条设计指南,并经由用户实验验证了这些指南能显著提升化身传达增强能力及其交互方式的直观性。
本文介绍了名为"The Pen"的耳戴式设备,它通过笔状外形和可摘戴设计支持按需启用的“ episodic(偶发性)”认知辅助模式,研究证实这种具有明确起止边界和本地处理能力的交互方式能有效提升用户的自主感、认知流畅度及社交舒适度。