TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

本文提出了名为 TaiChi 的新型视觉语言模型框架,通过双视觉分词器、双边注意力网络及基于 KAN 的模态投影器解决现有模型在粒度、序列长度和跨模态对齐方面的局限,并构建了多模态多任务 Token 通信系统以验证其优越性能。 *(注:虽然您提供的标题是"TokenCom",但摘要内容中明确提出的模型名称为"TaiChi",因此总结中采用了摘要内实际定义的模型名称。)*

Feibo Jiang, Siwei Tu, Li Dong + 5 more2026-03-03🔢 math

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

本文提出了 RAISE,一种无需训练的需求驱动进化框架,通过在推理过程中动态执行提示词重写、噪声重采样等多样化优化动作,并根据结构化需求清单自适应分配计算资源,从而在显著降低生成样本和视觉语言模型调用成本的同时,实现了复杂文本到图像生成任务中的状态最先进对齐效果。

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

本文提出了 ArtiFixer,一种通过结合新型不透明度混合策略的双向生成模型与单步生成数百帧的因果自回归蒸馏模型的两阶段流水线,有效解决了现有 3D 重建方法在稀疏观测区域泛化性差和生成质量低的问题,显著提升了新视角合成质量并优于现有最先进方法。

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

M2^2: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

本文提出了无需训练的 M² 框架,通过结合动态轨迹总结(内部记忆)与离线洞察检索(外部记忆)的双层记忆机制,有效解决了多模态智能体在长周期网页导航任务中的上下文效率与决策鲁棒性瓶颈,并在多个基准测试中显著提升了成功率并降低了计算成本。

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs