GenAI Is No Silver Bullet for Qualitative Research in Software Engineering

Each language version is independently generated for its own context, not a direct translation.

ソフトウェア開発の研究において、研究者は開発者のインタビューやチャット履歴、コードの書き込みなど、膨大な「生データ」を分析します。これを「質的調査」と呼びます。

GenAI の役割（包丁とミキサー）：
AI は、長いインタビュー録音データを文字起こししたり、膨大なテキストを要約したり、特定のキーワードで分類したりする「下ごしらえ」には非常に優れています。まるで、野菜を刻んだり、スープを混ぜたりする機械のように、作業を劇的に速くしてくれます。
人間の役割（シェフ）：
しかし、その食材に「どんな味付けをするか」「なぜこの開発者がそう感じたのか」という文脈や背景、人間同士の複雑な関係性を読み解くのは、AI にはできません。
AI は「野菜が切れているか」はわかりますが、「この野菜がなぜ悲しそうな色をしているか（開発者の感情や背景）」を理解して料理の味を決めることはできないのです。

質的調査は、まるで事件を解明する探偵のようなものです。

AI の得意分野（証拠の整理）：
「このチャットで『バグ』という言葉が何回出てきたか」「誰が誰に言いかえったか」といった事実の羅列やパターン発見は、AI が得意です。これは「deductive（演繹的）」な分析と呼ばれ、ルールが決まっている作業です。
AI の苦手分野（真実の洞察）：
しかし、「なぜチームがそのバグを放置したのか？」「開発者の間に潜む隠れた対立構造は何なのか？」といった、人間らしいニュアンスや、言葉にされていない本音を読み解くのは、AI には無理があります。
AI は「正解」を導き出そうとしますが、質的調査の多くは「新しい問い」を見つけたり、複雑な人間関係を理解したりする「解釈」が目的です。ここで AI を使いすぎると、「正解」は出ても「真実」を見失う危険があります。

論文は、AI を安易に使いすぎることのリスクを 3 つ指摘しています。

「文脈」の欠如（コンテキストの欠如）
AI は、そのデータが「どんな状況で生まれたか」を理解できません。例えば、開発者が「これは素晴らしい」と言ったとき、それが「本心からの賞賛」なのか「皮肉」なのか、AI は見分けるのが苦手です。人間は、その場の空気や関係性からそれを察知できます。
「幻覚」のリスク（ハルシネーション）
AI は、もっともらしい嘘をつくことがあります。研究データに存在しない「開発者の意見」や「理由」を勝手に作り上げて（幻覚）、分析結果に混ぜてしまう危険性があります。人間は自分のバイアス（偏見）に気づいて修正できますが、AI のバイアスは見えにくいのです。
「人間らしさ」の喪失
質的調査の核心は、研究者自身がデータと向き合い、自分の経験や背景を振り返りながら（リフレクション）、新しい知見を構築することです。AI に分析を任せてしまうと、「人間がどう感じ、どう考えたか」というプロセスそのものが失われてしまいます。

この論文の結論はシンプルです。

AI は素晴らしい「助手」です。
膨大なデータの整理や、単純な分類作業を助けてくれます。これにより、研究者はより多くのデータに触れ、より深い考察に時間を割けるようになります。
でも、AI は「研究者」にはなれません。
最終的な「意味の解釈」や「理論の構築」、そして「倫理的な判断」は、常に人間が行わなければなりません。

「AI を使えば研究が全部終わる」という魔法の杖は存在しません。
AI を使いながら、**「人間がどう解釈し、どう責任を持つか」**という部分をしっかり守ることが、これからのソフトウェア研究には不可欠だと説いています。

一言で言うと：
「AI は料理の準備を助けてくれる優秀な見習いですが、最終的な味付けと、その料理に込める『心』は、人間であるシェフ（研究者）が責任を持って行うべきです。」

論文要約：「GenAI はソフトウェア工学における質的研究の万能薬ではない」