The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

この論文は、成人を対象とした AI 生成の非同意性画像(ディープフェイクポルノ)を容易に作成可能にする「悪意ある技術生態系」の存在を指摘し、NIST の報告書に基づく現在のガバナンス手法がその生態系を効果的に規制できていないことと、その背景にある誤った前提を明らかにする survivor-centered(生存者中心)のアプローチを採った研究です。

Michelle L. Ding, Harini SureshMon, 09 Ma🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

本論文は、既存の評価手法が抱える情報の非効率性という課題を解決するため、LLM の内部価値境界を探索して適応的にテスト質問を生成・拡張し、モデル間の価値差をより明確かつ有益に測定する新たなアルゴリズム「AdAEM」を提案し、その有効性を検証したものである。

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing XieMon, 09 Ma🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

この論文は、7 つの可読性指標を統合したクラスタリング手法と独自のデータセットを用いて大規模言語モデルを微調整する枠組みを提案し、これにより回答の正確性を保ちつつ、小学低学年から成人教育までの 6 つの学年レベルに合わせた適切な教育コンテンツを生成し、プロンプトベースの手法と比較して 35.64 ポイントも学年適合性を向上させたことを示しています。

Jio Oh, Steven Euijong Whang, James Evans, Jindong WangMon, 09 Ma🤖 cs.AI

Towards Autonomous Mathematics Research

この論文は、自然言語で数学的推論を生成・検証・修正する自律型研究エージェント「Aletheia」を紹介し、オリンピックレベルの問題から博士課程レベルの課題、さらには人間の介入なしに構造定数を計算する論文の作成や未解決問題の解決に至るまで、AI 支援数学研究における新たな自律性の段階と透明性の枠組みを提案しています。

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang LuongMon, 09 Ma🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque AhmedMon, 09 Ma🤖 cs.AI

Operational Agency: A Permeable Legal Fiction for Tracing Culpability in AI Systems

この論文は、AI に法的人格を付与することなく、その目標指向性や予測処理などの運用特性を評価する「運用代理(OA)」という法的概念と、開発者から利用者までの因果関係を可視化する「運用代理グラフ(OAG)」を導入し、人間の責任追及を可能にする新たな証拠枠組みを提唱しています。

Anirban Mukherjee, Hannah Hanwen ChangMon, 09 Ma💻 cs

AI Researchers' Views on Automating AI R&D and Intelligence Explosions

2025 年 8 月と 9 月に 25 人の主要 AI 研究者に実施したインタビューによると、AI 研究の自動化がもたらす再帰的改善と知能爆発のリスクは広く認識されているものの、そのタイムラインやガバナンス手法については、産業界と学界の間で認識の隔たりや見解の相違が存在することが示された。

Severin Field, Raymond Douglas, David KruegerMon, 09 Ma💻 cs

Exploring Human-in-the-Loop Themes in AI Application Development: An Empirical Thematic Analysis

本論文は、顧客サポートチャットボットの回顧的日記研究と AI 専門家へのインタビューに基づき、AI 応用開発における人間関与(HITL)の課題を「AI 統治と人間の権限」「HITL による反復的改善」「AI システムライフサイクルと運用制約」「人間-AI チームの協働と調整」という 4 つのテーマに分類し、今後の HITL フレームワーク設計への実証的基盤を提供するものです。

Parm Suksakul, Nathan Kittichaikoonkij, Nakhin Polthai, Aung PyaeMon, 09 Ma🤖 cs.AI

Biometric-enabled Personalized Augmentative and Alternative Communications

本論文は、生体認証技術をコミュニケーション障害者向けの個人化支援技術(AAC)に統合するロードマップを提案し、手話やジェスチャー認識などの現状の AI 精度が実用要件を満たしていないことを示唆するとともに、そのギャップを埋めるための改善策を提言している。

S. Yanushkevich, E. Berepiki, P. Ciunkiewicz, V. Shmerko, G. Wolbring, R. GuestMon, 09 Ma💻 cs

From Risk Avoidance to User Empowerment: Reframing Safety in Generative AI for Mental Health Crises

この論文は、メンタルヘルスの危機において生成 AI が単にリスク回避のために支援を拒絶する現状を批判し、コミュニティヘルパーのモデルに基づき、ユーザーを支援し専門的なケアへつなぐ「エンパワーメント指向」の設計原則を提唱しています。

Benjamin Kaveladze, Arka Ghosh, Leah Ajmani, Denae Ford, Peter M Gutierrez, Jetta E Hanson, Eugenia Kim, Keertana Namuduri, Theresa Nguyen, Ebele Okoli, Teresa Rexin, Jessica L Schleider, Hongyi Shen, Jina SuhMon, 09 Ma💻 cs

The DSA's Blind Spot: Algorithmic Audit of Advertising and Minor Profiling on TikTok

本論文は、TikTok に対するアルゴリズム監査を通じて、未成年者へのプロファイリング広告禁止を定めた EU デジタルサービス法(DSA)第 28 条が「広告」の狭義の定義によりインフルエンサーマーケティングなどの実質的な商業コンテンツを網羅できておらず、未成年者が定義の隙間を突いた高度にパーソナライズされたプロモーションにさらされている実態を明らかにし、規制対象の拡大を提言しています。

Sara Solarova, Matej Mosnar, Matus Tibensky, Jan Jakubcik, Adrian Bindas, Simon Liska, Filip Hossner, Matúš Mesarčík, Ivan SrbaMon, 09 Ma🤖 cs.AI

Measuring Perceptions of Fairness in AI Systems: The Effects of Infra-marginality

本論文は、医療意思決定シミュレーションを用いたユーザー調査を通じて、人々が公平性を単純な統計的平等ではなく、データ分布やパフォーマンス差の原因に関する信念に基づいて評価することを示し、アルゴリズムの公平性指標を人間の期待に合わせるためには分布の文脈を考慮することが重要であると論じています。

Schrasing Tong, Minseok Jung, Ilaria Liccardi, Lalana KagalMon, 09 Ma💻 cs

THETA: A Textual Hybrid Embedding-based Topic Analysis Framework and AI Scientist Agent for Scalable Computational Social Science

この論文は、大規模な社会データにおける従来の研究手法の限界を克服し、ドメイン適応型ファインチューニングと AI 科学者エージェントを組み合わせた「THETA」という新たな計算パラダイムを提案し、大規模データと理論的深さを両立させることで、社会科学における研究の信頼性と再現性を高めることを目的としています。

Zhenke Duan, Xin LiMon, 09 Ma💻 cs

SemFuzz: A Semantics-Aware Fuzzing Framework for Network Protocol Implementations

SemFuzz は、RFC 文書から大規模言語モデルを用いて構造化されたセマンティックルールを抽出し、意図的にルール違反するテストケースを生成してネットワークプロトコル実装の深層的な意味論的脆弱性を検出する新しいフレームワークであり、実装評価において複数の未発見脆弱性と CVE 割り当てを達成したことを示しています。

Yanbang Sun, Quan Luo, Yuelin Wang, Qian Chen, Benjin Liu, Ruiqi Chen, Qing Huang, Xiaohong Li, Junjie WangMon, 09 Ma💻 cs

Human, Algorithm, or Both? Gender Bias in Human-Augmented Recruiting

この研究は、実際の採用プラットフォームにおける定量分析を通じて、AI 単独の採用よりも人間の採用担当者が性別バイアスが少ない候補者リストを作成するものの、AI の推薦候補を最初に確認した後に人間が追加検索を行う「人間と AI のハイブリッド型」アプローチが、最も公平な結果をもたらすことを実証しています。

Mesut Kaya, Toine BogersMon, 09 Ma💻 cs

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

この論文は、大規模言語モデルが英語中心のデータに依存しているため、特に宗教分野においてアジアの多様な世論やマイノリティの視点と乖離し、ネガティブなステレオタイプを増幅する傾向があることを、インド・東アジア・東南アジアを対象とした多言語監査を通じて実証し、軽微な介入ではこの文化的ギャップを解消できないことを示しています。

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan ChakrabortyMon, 09 Ma💬 cs.CL