Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

Each language version is independently generated for its own context, not a direct translation.

這篇文章介紹了一個專為台灣繁體中文使用者打造的 AI 安全防護系統，以及用來測試它的「考試題庫」。

想像一下，目前的全球 AI 就像是一位**「國際級的大廚」，他精通英語、法語、日語，能做出全世界最棒的料理。但是，如果你請他做一道「台灣夜市小吃」**（比如用台語講的詐騙話術，或是台灣特有的政治梗），他可能會因為沒吃過、沒聽過，而完全無法分辨這道菜裡有沒有「毒」。

這篇論文就是為了解決這個問題，推出了兩樣新東西：

1. 考試題庫：TS-Bench（台灣安全考題）

比喻：一份「台灣在地化」的詐騙與謠言模擬考卷

以前的 AI 安全測試，題目大多是英文的（例如：「如何製造炸彈？」、「如何罵人？」）。但台灣的風險很不一樣，比如：

詐騙：不是「我是王子要給你錢」，而是「蝦皮購物通知，你的訂單異常，請去 ATM 解除分期」。
謠言：不是「吃藥可以治癌症」，而是「蝦子加檸檬汁會產生砒霜」。
歧視：不是通用的髒話，而是像「台女」、「客家人很小氣」這種帶有台灣文化背景的刻板印象。

作者們手動整理了 400 道題目，涵蓋了詐騙、投資陷阱、醫療謠言、性別歧視、族群仇恨和政治操弄。這就像是一份專門針對「台灣生活情境」的模擬考，用來測試 AI 到底能不能看懂這些「在地梗」背後的危險。

2. 新護衛：Breeze Guard（微風護衛）

比喻：一位「從台灣長大」的社區保全

作者沒有從頭訓練一個新 AI，而是選擇了一個已經很懂台灣文化的 AI 模型（Breeze 2）作為基礎，然後請它去「專修」安全課程。

為什麼不直接用國際大廚？
因為國際大廚（全球通用模型）雖然聰明，但他不懂台灣的「潛規則」。比如他看到「客家人」三個字，可能只覺得是族群名稱；但台灣长大的 AI 知道，在某些語境下，這是在罵人「小氣」。
Breeze Guard 怎麼變強？
它就像是一位**「台灣社區保全」。他從小就在台灣長大（預訓練階段），對台灣的語言、 slang（流行語）、詐騙手法有天然的直覺。
接著，研究團隊給他看了大量「台灣特有的危險案例」**（經過人工驗證的合成數據），教他如何識別這些危險。
- 結果：在「台灣安全考題」上，這位社區保全的成績比國際級的大廚（IBM 的 Granite Guardian）好太多了，特別是在識破詐騙和投資陷阱方面，幾乎是壓倒性勝利。

3. 核心發現：文化底蘊比「死背規則」更重要

論文提出了一個很棒的觀點：

想要 AI 懂安全，光靠「背規矩」（安全微調）是不夠的，它必須先「懂文化」。

錯誤做法：給一個不懂台灣文化的 AI 看一堆台灣詐騙案例，強迫它背下來。這就像給一個外國人背「台灣法律條文」，他可能背得下來，但遇到變通的情況（比如用台語講的詐騙）就傻眼了。
正確做法：先讓 AI 在台灣的文化環境中長大（擁有文化底蘊），再教它如何識別危險。這樣它才能「举一反三」，連那些沒背過的新型詐騙也能察覺。

4. 代價與取捨

當然，這位「社區保全」也有點小缺點。因為他太專注於台灣的風險，所以在處理純英文的髒話或攻擊時，表現稍微比國際大廚弱了一點點。

比喻：就像一位專精於防範「台灣夜市扒手」的保全，可能對「倫敦地鐵的扒手」不太熟練。但對於台灣使用者來說，這正是我們最需要的。

總結

這篇論文就像是在說：
「要保護台灣的 AI 使用者，不能只靠通用的國際標準。我們需要一位『懂台灣、說台語、知民俗』的 AI 保全，並用一份『台灣專屬的考題』來訓練和測試他。」

這不僅讓台灣的 AI 更安全，也為其他地區（如日本、韓國、東南亞）如何打造「在地化」的 AI 安全系統，提供了一個很好的範本。

Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

1. 考試題庫：TS-Bench（台灣安全考題）

2. 新護衛：Breeze Guard（微風護衛）

3. 核心發現：文化底蘊比「死背規則」更重要

4. 代價與取捨

總結

1. 問題背景 (Problem)

2. 核心方法論 (Methodology)

A. TS-Bench：台灣安全基準

B. Breeze Guard：台灣安全模型

3. 關鍵貢獻 (Key Contributions)

4. 實驗結果 (Results)

在 TS-Bench（台灣基準）上的表現

在通用英語基準上的表現

5. 意義與影響 (Significance)

Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

1. 考試題庫：TS-Bench（台灣安全考題）

2. 新護衛：Breeze Guard（微風護衛）

3. 核心發現：文化底蘊比「死背規則」更重要

4. 代價與取捨

總結

1. 問題背景 (Problem)

2. 核心方法論 (Methodology)

A. TS-Bench：台灣安全基準

B. Breeze Guard：台灣安全模型

3. 關鍵貢獻 (Key Contributions)

4. 實驗結果 (Results)

在 TS-Bench（台灣基準）上的表現

在通用英語基準上的表現

5. 意義與影響 (Significance)

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models