The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

この論文は、生成タスクに優れた大規模言語モデル(LLM)が評価タスクでも同様に優れているという仮説を検証し、実際には評価性能が生成性能より低く、さらにモデルが不十分な領域でも誤って自信を持って評価を行う「不誠実な評価」が発生する「生成 AI のパラドックス」が存在することを明らかにしています。

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

Computational lexical analysis of Flamenco genres

この論文は、自然言語処理と機械学習を用いて 2000 以上のフラメンコ歌詞を分析し、語彙パターンに基づくジャンル分類、各スタイルの意味領域の特定、およびジャンル間の距離測定によるネットワーク分析を通じて、フラメンコ音楽の歴史的つながりや進化を定量的に解明したものである。

Pablo Rosillo-Rodes, Maxi San Miguel, David Sanchez2026-03-09💬 cs.CL

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

本論文は、x ベクトルによるクラスタリングを用いた教師なし学習と、モンテカルロドロップアウトを応用したベイズ的バッチ能動学習を組み合わせた 2 段階の能動学習パイプラインを提案し、音声認識モデルの学習に必要なラベル付けコストを大幅に削減しながら精度を向上させる手法を確立したものである。

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess

Goldfish: Monolingual Language Models for 350 Languages

この論文は、低資源言語において大規模な多言語モデルが基礎的な文法生成で苦戦していることを指摘し、350 言語向けに 125M パラメータ以下の小規模な単一言語モデル「Goldfish」を開発・公開することで、それらの言語における言語モデルのパフォーマンスを大幅に向上させたことを報告しています。

Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen2026-03-09💬 cs.CL

Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models

この論文は、大規模言語モデルのバイアスを軽減するために、小さなバイアスおよび反バイアス専門モデルから導出されたデバイアス信号をデコーディング時に追加する、計算効率と解釈性に優れたアプローチを提案し、多様なバイアス指標における軽減効果と性能維持を実証しています。

Schrasing Tong, Eliott Zemour, Jessica Lu, Rawisara Lohanimit, Lalana Kagal2026-03-09💬 cs.CL

SpecFuse: Ensembling Large Language Models via Next-Segment Prediction

本論文は、推論中のモデル貢献度をタスク性能に応じて動的に調整し、スペキュレイティブデコーディングのアイデアを応用してセグメントレベルでモデル間を協調させることで、トレーニング不要かつリアルタイムな重み更新を実現する新しい LLM アンサンブル手法「SpecEM」を提案し、複数のベンチマークで最先端の手法を上回る性能向上を実証したものである。

Bo Lv, Nayu Liu, Chen Tang, Xin Liu, Yue Yu, Ping Luo2026-03-09🤖 cs.AI

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

本論文は、マルチモーダル大規模言語モデルにおける視覚理解を強化するため、複数の視覚エンコーダを効率的に統合する軽量なアーキテクチャ「LEO」を提案し、多様なベンチマークおよび自律走行分野において既存の手法を上回る性能と汎用性を示すことを実証しています。

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

この論文は、大規模言語モデルが科学文献の検索からアイデア生成、実験、コンテンツ作成、マルチモーダルな図表の作成、そして査読に至るまで、科学者の研究ライフサイクル全体を支援する新たなエコシステムを包括的に調査し、手法や評価、倫理的課題を概説するものである。

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

CAReDiO: Cultural Alignment via Representativeness and Distinctiveness Guided Data Optimization

この論文は、LLM の多様な文化への適合性を高めるため、情報理論に基づく目的関数を用いて文化的代表性と独自性を同時に最適化する新しいデータ最適化フレームワーク「CAReDiO」を提案し、少量のデータで高品質な文化適合を実現することを示しています。

Jing Yao, Xiaoyuan Yi, Jindong Wang, Zhicheng Dou, Xing Xie2026-03-09💬 cs.CL

RM-R1: Reward Modeling as Reasoning

この論文は、報酬モデルを推論タスクとして再定義し、高品質な推論チェーンの蒸留と検証可能な報酬による強化学習を通じて、より解釈性が高く高性能な「推論型報酬モデル(ReasRMs)」の一種である RM-R1 を提案し、既存の巨大モデルやプロプライエタリモデルを上回る性能を実証したものである。

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

本論文は、イベントカメラの非同期かつスパースなデータを言語モデルの技術(線形アテンションや自己教師あり学習)を応用して処理する新しいフレームワーク「EVA」を提案し、従来の手法を凌駕する認識・検出タスクでの性能向上を実現したことを報告しています。

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

この論文は、推論時の活性化制御(アクティベーション・ステアリング)技術、特に kNN ベースの条件付き手法「K-CAST」を導入することで、大規模言語モデルが内容の妥当性と論理的妥当性を混同するバイアスを軽減し、形式論理的推論の精度を最大 15% 向上させることを実証しています。

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

本論文は、既存の評価手法が抱える情報の非効率性という課題を解決するため、LLM の内部価値境界を探索して適応的にテスト質問を生成・拡張し、モデル間の価値差をより明確かつ有益に測定する新たなアルゴリズム「AdAEM」を提案し、その有効性を検証したものである。

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

この論文は、既存のベンチマークが抱える汚染やバイアスの問題を解決し、大規模言語モデルのドメイン専門知識を、他のモデルや人手に頼らず生データから自動的に生成された完成型タスクによって安価かつ公平に評価する決定論的パイプラインを提案するものです。

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

本論文は、大規模言語モデル(LLM)の重みを固定したまま、ユーザーの入力に応じてシステムプロンプトを適応的に調整する「Sysformer」というトランスフォーマーモデルを提案し、有害な入力への拒否率や安全な入力への対応精度を大幅に向上させ、高度な脱獄攻撃に対しても堅牢性を高めることを実証しています。

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本論文は、視覚言語モデル(VLM)の活性化における「視覚トークンの過剰性」と「モダリティ間の分布ギャップ」という 2 つの課題を特定し、勾配駆動の重要度因子を用いて重要なトークンを優先的に保持するポストトレーニング量子化フレームワーク「VLMQ」を提案し、低ビット設定でも最先端の性能を実現したことを示しています。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI