HECTOR: Hybrid Editable Compositional Object References for Video Generation
HECTOR 提出了一种混合参考条件生成管道,支持通过静态图像或动态视频作为混合引导,并允许用户显式指定各元素的轨迹,从而实现对视频生成中复杂时空约束的细粒度组合控制。
3462 篇论文
HECTOR 提出了一种混合参考条件生成管道,支持通过静态图像或动态视频作为混合引导,并允许用户显式指定各元素的轨迹,从而实现对视频生成中复杂时空约束的细粒度组合控制。
本文提出了名为 deZent 的去中心化 z-匿名方案,通过随机计数结构和安全求和机制在传感器网络中实现本地化隐私保护,在保持与中心化方案相当发布率的同时显著降低了对中心实体的通信开销。
本文提出了一种将稀疏非线性动力学识别(SINDy)与递归最小二乘(RLS)自适应控制相结合的新型方法,通过实时辨识并抵消湍流环境中的残余风力干扰,显著提升了 Crazyflie 无人机在复杂动态环境下的轨迹跟踪精度与鲁棒性。
本文介绍了 OptBench,这是一个基于 DuckDB 的交互式工作平台,旨在通过统一的后端和可视化工具,帮助研究人员和从业者透明、公平地构建、基准测试及对比针对混合 SQL 与 AI/ML 查询的查询优化器。
这项研究通过针对 26 名学龄前儿童的趣味实验,揭示了嗅觉、触觉与情感判断之间存在显著的跨感官对应关系,并据此提出了符合幼儿认知特点的设计指南及可复用的研究方法。
该论文通过细粒度复杂性分析,揭示了在计算平移下的 豪斯多夫距离时,维度、对称性(有向与无向)及离散性(连续与离散)之间复杂的相互作用,并针对连续有向情形提出了不对称的时间复杂度结果、证明了 时有向与无向变体的条件性分离,以及指出了离散情形在 时归约至 3SUM 问题从而限制了基于正交向量假设的下界证明。
该论文提出了 H3LIX 去中心化前沿模型架构(DFMA),通过利用本地实例生成合成数据、在共享的集体上下文场中同步上下文信号以及结合能源自适应演化,构建了一种隐私保护、可持续且模仿生物神经网络特性的分布式人工智能系统,从而为 AI 发展提供了一条区别于传统集中式大模型的新路径。
本文通过初步文献调研,探讨了如何设计生成式人工智能增强的群体感知工具,以在协作学习与工作中支持自主的社会共享元认知,避免过度依赖 AI 指令并促进群体自主调节能力的形成。
本文提出了一种基于黑盒优化与语义同质化的系统性框架,在 CARLA 仿真中对比评估了 Dolphins、OmniDrive 和 LeapVAD 三种视觉语言模型架构在物理补丁攻击下的鲁棒性,揭示了当前自动驾驶 VLM 设计存在严重的安全漏洞及独特的架构脆弱性模式。
该论文提出了视觉查询分割(VQS)新任务及首个大规模基准 VQS-4K,并设计了基于 SAM 2 改进的 VQ-SAM 方法,旨在实现对未修剪视频中目标对象所有出现时刻的像素级精准定位。
本文针对生成式人工智能在协作中可能导致过度依赖的问题,提出通过设计结合群体感知工具(GAT)的 GenAI 系统,利用可视化呈现成员差异以引发认知冲突,从而隐性引导并促进协作中的自主意义建构,并据此提出了初步的设计原则。
本文提出了 PSANE 框架,该框架利用足式机器人在未知可变形地形中的本体感知交互数据,通过高斯过程回归构建可通行性模型并结合多目标优化策略,实现了仅依赖本体感知即可安全导航与探索的目标。
本文提出了一种无需基础设施的磁感应定位系统,使轻型无人机能够仅依靠机载传感器在移动四足机器人上实现厘米级精度的自主悬停、跟踪与降落,从而显著提升了异构机器人在无外部定位环境下的协同作业能力。
该论文介绍了 MEGC2026 微表情挑战赛,旨在通过引入基于多模态大语言模型的微表情视频问答(ME-VQA)和长视频问答(ME-LVQA)两项新任务,推动微表情分析在复杂时空推理与多模态理解领域的研究进展。
本文提出了 TIDE,一种无需额外训练且无采样开销的文本引导动态外推方法,通过引入文本锚定机制和基于谱进展感知的动态温度控制,有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题,实现了任意分辨率和长宽比的图像生成。
本文提出了一种名为 bsort 的非比较排序算法,该算法通过统一处理有符号/无符号整数及浮点数,实现了 的时间复杂度和 的辅助空间复杂度,在小字长数据场景下性能可与主流库中的优化混合算法相媲美。
本文针对随机顺序流模型下的单位区间选择问题,提出了一种仅需线性空间且期望近似比达到 0.7401 的单遍流算法,并证明了该性能提升在空间限制下是可能的,同时给出了相应的空间下界。
该论文指出生成式人工智能并非软件工程定性研究的万能解决方案,强调需结合具体研究策略与数据特征审慎应用,并系统探讨了其在定性研究中的机遇、挑战及质量评估标准。
本文提出了名为 FAME 的力自适应强化学习框架,通过结合上肢姿态与双手机械交互力的潜在上下文编码,使全尺寸人形机器人(如 Unitree H12)能够在无需腕部力/力矩传感器的情况下,显著提升在外部力扰动下的站立平衡能力与操作范围。
本文基于两项实证研究,探讨了虚拟现实(VR)和增强现实(AR)在公立教育语言学习中的应用,指出其虽能提升学习动机和情境化体验,但仍面临技术障碍、认知负荷及课程整合等挑战,并提出了优化界面设计、减轻认知负担及加强师资培训等实施策略。