Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

本文针对现有安全模型在中文台湾语境下的文化盲区,提出了包含 400 个台湾特有风险样本的评估基准 TS-Bench,并发布了基于 Breeze 2 微调的专用安全模型 Breeze Guard,实证表明该模型在识别台湾本地化风险(如诈骗与金融欺诈)方面显著优于通用安全模型,确立了台湾可信 AI 部署的新基础。

Po-Chun Hsu, Meng-Hsi Chen, Tsu Ling Chao, Chia Tien Han, Da-shan Shiu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

這篇文章介紹了一個專為台灣繁體中文使用者打造的 AI 安全防護系統,以及用來測試它的「考試題庫」。

想像一下,目前的全球 AI 就像是一位**「國際級的大廚」,他精通英語、法語、日語,能做出全世界最棒的料理。但是,如果你請他做一道「台灣夜市小吃」**(比如用台語講的詐騙話術,或是台灣特有的政治梗),他可能會因為沒吃過、沒聽過,而完全無法分辨這道菜裡有沒有「毒」。

這篇論文就是為了解決這個問題,推出了兩樣新東西:

1. 考試題庫:TS-Bench(台灣安全考題)

比喻:一份「台灣在地化」的詐騙與謠言模擬考卷

以前的 AI 安全測試,題目大多是英文的(例如:「如何製造炸彈?」、「如何罵人?」)。但台灣的風險很不一樣,比如:

  • 詐騙:不是「我是王子要給你錢」,而是「蝦皮購物通知,你的訂單異常,請去 ATM 解除分期」。
  • 謠言:不是「吃藥可以治癌症」,而是「蝦子加檸檬汁會產生砒霜」。
  • 歧視:不是通用的髒話,而是像「台女」、「客家人很小氣」這種帶有台灣文化背景的刻板印象。

作者們手動整理了 400 道題目,涵蓋了詐騙、投資陷阱、醫療謠言、性別歧視、族群仇恨和政治操弄。這就像是一份專門針對「台灣生活情境」的模擬考,用來測試 AI 到底能不能看懂這些「在地梗」背後的危險。

2. 新護衛:Breeze Guard(微風護衛)

比喻:一位「從台灣長大」的社區保全

作者沒有從頭訓練一個新 AI,而是選擇了一個已經很懂台灣文化的 AI 模型(Breeze 2)作為基礎,然後請它去「專修」安全課程。

  • 為什麼不直接用國際大廚?
    因為國際大廚(全球通用模型)雖然聰明,但他不懂台灣的「潛規則」。比如他看到「客家人」三個字,可能只覺得是族群名稱;但台灣长大的 AI 知道,在某些語境下,這是在罵人「小氣」。
  • Breeze Guard 怎麼變強?
    它就像是一位**「台灣社區保全」。他從小就在台灣長大(預訓練階段),對台灣的語言、 slang(流行語)、詐騙手法有天然的直覺。
    接著,研究團隊給他看了大量
    「台灣特有的危險案例」**(經過人工驗證的合成數據),教他如何識別這些危險。
    • 結果:在「台灣安全考題」上,這位社區保全的成績比國際級的大廚(IBM 的 Granite Guardian)好太多了,特別是在識破詐騙和投資陷阱方面,幾乎是壓倒性勝利。

3. 核心發現:文化底蘊比「死背規則」更重要

論文提出了一個很棒的觀點:

想要 AI 懂安全,光靠「背規矩」(安全微調)是不夠的,它必須先「懂文化」。

  • 錯誤做法:給一個不懂台灣文化的 AI 看一堆台灣詐騙案例,強迫它背下來。這就像給一個外國人背「台灣法律條文」,他可能背得下來,但遇到變通的情況(比如用台語講的詐騙)就傻眼了。
  • 正確做法:先讓 AI 在台灣的文化環境中長大(擁有文化底蘊),再教它如何識別危險。這樣它才能「举一反三」,連那些沒背過的新型詐騙也能察覺。

4. 代價與取捨

當然,這位「社區保全」也有點小缺點。因為他太專注於台灣的風險,所以在處理純英文的髒話或攻擊時,表現稍微比國際大廚弱了一點點。

  • 比喻:就像一位專精於防範「台灣夜市扒手」的保全,可能對「倫敦地鐵的扒手」不太熟練。但對於台灣使用者來說,這正是我們最需要的。

總結

這篇論文就像是在說:
「要保護台灣的 AI 使用者,不能只靠通用的國際標準。我們需要一位『懂台灣、說台語、知民俗』的 AI 保全,並用一份『台灣專屬的考題』來訓練和測試他。」

這不僅讓台灣的 AI 更安全,也為其他地區(如日本、韓國、東南亞)如何打造「在地化」的 AI 安全系統,提供了一個很好的範本。