Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

この論文は、データ拡張や特徴量強化の手法を従来の分類器や大規模言語モデルに適用してヘイトスピーチ検出を評価し、特にオープンソースの gpt-oss-20b が最高性能を示す一方で、手法の効果がデータセットやモデルとの相互作用に依存し、暗黙的なヘイトスピーチの検出がより困難であることを明らかにしています。

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

この論文は、米国最高裁の口頭弁論記録を用いて、AI モデルが模擬裁判における裁判官の質問をシミュレーションできるかを検証し、人間評価と代理指標を組み合わせた二層評価フレームワークにより、生成された質問は現実的かつ実質的な法的論点を捉える一方で、多様性の欠如や同調性といった課題が残っていることを明らかにしています。

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

本論文は、Gemini Deep Think と木探索フレームワークを統合したニューロシンボリックシステムを用いて、宇宙ひもからの重力放射のパワースペクトルに関する未解決問題に対し、数値的フィードバックを駆使して Gegenbauer 多項式展開による厳密な解析解を導出したことを報告するものである。

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

この論文は、飽和や主観性などの問題を抱える従来のベンチマークに代わり、予算制約下での対話的プロセスを通じてモデルの推論能力を評価する「Interactive Benchmarks」という新たな枠組みを提案し、論理・数学の証明や戦略的ゲームにおける実験を通じて、対話的シナリオにおけるモデルの知能評価の重要性と改善余地を明らかにしています。

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

この論文は、統計的データ分布情報を関数メタデータと融合させる軽量な検索モデル「DARE」と大規模な R パッケージ知識ベース「RPKB」を提案し、R 生態系における LLM エージェントのコード生成精度と統計分析タスクの成功率を大幅に向上させることを示しています。

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

本論文は、単一の LLM レイヤーを圧縮器とデコーダーとしてスタックし、マルチスケールの自己注入と木構造に基づく効率的な情報取得を実現することで、8K トークンの学習データから 128K トークンを超える長文脈を高精度かつ高効率に処理する新たなフレームワーク「SharedLLM」を提案しています。

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

本論文は、マルチモーダル大規模言語モデルを汎用埋め込みモデルへ適応させる際に生じるタスク間の競合を、専門家の混合(MoE)と低ランク適応(LoRA)の組み合わせ、および専門家の活性化パターンを利用した新しい負のサンプリング手法(EANS)によって解決し、MMEB ベンチマークおよび実世界の産業データセットにおいて最先端の性能を達成する TSEmbed というフレームワークを提案しています。

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

本論文は、エッジデバイスで生画像を数学的に不可逆な抽象特徴ベクトルに変換し、クラウドで動的輪郭言語を用いて行動認識と意味的再構成を行う「AI Flow」パラダイムに基づく新たなプライバシー保護知覚フレームワーク「Privacy-Aware Camera 2.0」を提案し、プライバシー保護と証拠能力の両立を実現するものである。

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

本論文は、LLM が多ターン対話で過去の推論に固執する「文脈的慣性」の問題を、単一ターンでの優れた推論能力を報酬の基準(アンカー)として活用する強化学習手法「RLSTA」により解決し、外部検証器なしでも安定した対話と分野横断的な汎化性能を実現することを提案しています。

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

本論文は、大規模言語モデル(LLM)を用いた意味フィルタリングにおける逐次評価の非効率性を克服するため、クラスタリング・サンプリング・投票(CSV)という新しいフレームワークを提案し、LLM 呼び出し回数を部分線形に削減しながら高い精度を維持する手法を確立したものである。

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

本論文は、長文脈 LLM と Mem0 などの事実ベースの記憶システムを比較し、長文脈モデルは事実想起で優位だが、記憶システムはペルソナ一貫性で競争力があり、かつ対話回数が一定を超えるとコスト面で優位になるという精度とコストのトレードオフを明らかにした。

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

本論文は、890 の研究結果をメタ分析し、自動短回答採点における LLM の限界(難易度との非相関、デコーダ型とエンコーダ型の性能差、トークナイザーの限界、および教育現場における人種的バイアスなど)を明らかにし、より適切なシステム設計の必要性を提言するものである。

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

本論文は、LLM の学習過程における「未知から既知」への遷移に伴う勾配挙動の系統的差異に着目し、FFN や Attention モジュールにおける勾配プロファイルに基づく軽量分類器「GDS」を提案することで、既存手法の限界を克服し、高い転移性と性能を実現する事前学習データ検出手法を開発した。

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL