MAviS: A Multimodal Conversational Assistant For Avian Species

该论文提出了专为鸟类物种设计的多模态对话助手 MAviS,通过构建包含图像、音频和文本的大规模数据集(MAviS-Dataset)及评估基准(MAviS-Bench),训练出在细粒度物种理解与多模态问答方面表现优于现有开源模型(如 MiniCPM-o-2.6)的 MAviS-Chat,从而推动了生物多样性保护与生态监测领域的智能化发展。

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

该论文提出了名为 FinSheet-Bench 的合成基准测试,旨在评估大语言模型在复杂金融电子表格上的表现,结果显示尽管顶尖模型在简单任务上表现尚可,但在处理大规模复杂数据时错误率仍过高,表明当前模型尚无法独立胜任专业金融应用,需结合文档理解与确定性计算的新架构。

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh2026-03-10💻 cs

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

该论文提出了 AgrI 挑战赛,通过引入多团队独立采集数据的跨团队验证(CTV)评估范式,揭示了单一数据源训练在农业视觉任务中的泛化缺陷,并证明了多源协作训练能显著缩小跨域泛化差距,同时发布了一个包含 5 万余张图像的大规模公开数据集以推动数据为中心的农业视觉研究。

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Scaling Laws in the Tiny Regime: How Small Models Change Their Mistakes

该论文填补了亚 2000 万参数“小模型”领域的研究空白,揭示了在 TinyML 规模下模型误差率虽遵循幂律但指数更陡、饱和更早,且误差分布、类别难度偏好及校准度均随规模发生显著质变,从而证明直接套用大模型规律会误导边缘 AI 部署,必须在目标模型规模下进行验证。

Mohammed Alnemari, Rizwan Qureshi, Nader Begrazadah2026-03-10🤖 cs.LG