RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 提出了一种基于 LLM 生成评分标准(Rubric)的强化学习框架,通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题,在提升生成多样性与泛化能力的同时,以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架,有效突破了电路网表示学习中真实标注数据稀缺的瓶颈,并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

本文提出了 Latent-DARM 框架,通过在潜在空间连接离散扩散模型(作为规划器)与自回归模型(作为执行器),有效克服了单一模型在推理规划或文本流畅性上的局限,在显著提升数学、科学及常识推理基准准确率的同时,大幅降低了 token 消耗。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

该论文提出了名为\EvalAct(评估即行动)的框架,通过将检索质量评估转化为显式动作并引入过程校准优势重缩放(PCAR)优化方法,有效解决了检索增强代理在多步推理中因噪声检索和奖励信号粗糙导致的可靠性问题,从而在多个开放域问答基准上显著提升了性能。

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao SangWed, 11 Ma🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

该论文构建了一个宏观金融压力测试框架,论证了快速 AI 采纳引发的核心风险并非生产力崩溃或生存危机,而是由于经济制度仍锚定于人类认知稀缺性,导致 AI 创造的供给过剩与因劳动收入下降、货币流通速度减缓及中介业务崩溃而引发的需求不足之间出现结构性错配,进而可能触发私人信贷与抵押贷款市场的连锁危机。

Xupeng ChenWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

本文提出了名为 PrivPRISM 的自动化框架,通过结合语言模型与静态代码分析,系统性地检测 Google Play 应用的数据安全声明与隐私政策之间的不一致性,研究发现大量流行应用存在披露矛盾、通用模板滥用及敏感数据未充分披露等严重合规问题。

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

该论文提出了基于布鲁姆分类学的 BD-FDG 框架,通过结构化知识组织、认知分层问题建模及自动化质量控制,构建了包含 23 万样本的 SSA-SFT 数据集并微调出 SSA-LLM-8B 模型,显著提升了大语言模型在空间态势感知领域的专业表现,同时保持了通用能力。

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong ZhangWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

该研究提出了一种结合预训练与定制神经网络的单模型方法,通过数据增强、图像归一化和迁移学习等技术,利用 GTSRB 及 Udacity 模拟器等多源数据集,系统性地实现了交通标志识别、车辆与车道检测及行为克隆,从而提升了自动驾驶系统的感知能力与决策可靠性。

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI