Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, wereldwijde veiligheidsagent hebt. Deze agent is getraind om gevaar te herkennen in de hele wereld, maar hij heeft vooral veel geleerd van Engelse boeken en Amerikaanse films. Hij weet precies wat een "gevaarlijk woord" is in het Engels.

Nu brengen we deze agent naar Taiwan. Hij spreekt daar het lokale dialect (Taiwanees Mandarijn), maar hij mist de lokale cultuur. Hij ziet een bericht over een "ATM-uitbetaling" en denkt: "Oh, dat klinkt als een normale banktransactie." Maar voor een Taiwanees is dat een klassieke oplichterstruc: "Ga naar de ATM en voer code 89537 in." De agent ziet het gevaar niet, omdat hij niet begrijpt dat dit een specifieke, lokale valstrik is.

Dit is precies het probleem dat dit papier oplost. Hier is de uitleg in simpele taal:

1. Het Probleem: De "Blinde Vlek"

Wereldwijde AI-modellen zijn als een grote, universele brandblusser. Ze blussen grote branden (haatzaaiende taal, geweld) overal ter wereld goed. Maar als er een klein, specifiek vuurtje ontstaat door een lokale traditie of een lokale oplichterstruc, kan de grote blusser het soms niet zien.

In Taiwan zijn er specifieke gevaren:

Oplichters die doen alsof ze van Shopee (een lokale webshop) zijn.
"Beleggingsleraren" die via LINE (een lokale app) beloven dat je snel rijk wordt.
Specifieke scheldwoorden of stereotypes over bepaalde etnische groepen (zoals de Hakka's of inheemse volkeren).
Politieke termen die als wapen worden gebruikt in lokale discussies.

De wereldwijde agent ziet deze termen vaak als onschuldig, omdat ze in zijn "Engelse training" niet voorkomen.

2. De Oplossing: Twee Nieuwe Hulpmiddelen

De onderzoekers van MediaTek en de Nationale Universiteit van Taiwan hebben twee dingen gemaakt om dit op te lossen:

A. TS-Bench: De "Lokale Test"

Stel je voor dat je een nieuwe brandweerman wilt testen. Je geeft hem geen test met Engelse branden, maar een test met lokale situaties.

Wat is het? Een verzameling van 400 vragen en situaties die specifiek zijn voor Taiwan.
Het doel: Kijken of de AI deze lokale gevaren herkent.
Voorbeeld: Een vraag over "shrimp en citroen" die gif zou vormen. In het Westen klinkt dit raar, maar in Taiwan is dit een hardnekkig gerucht dat mensen ziek maakt. De test meet of de AI dit als gevaarlijk herkent.

B. Breeze Guard: De "Lokale Wacht"

Dit is de nieuwe AI die ze hebben getraind.

De Basis: Ze begonnen met een bestaande, slimme AI genaamd Breeze 2. Deze AI was al getraind op veel Taiwanese teksten, dus hij kent de cultuur, de grappen, de slang en de manier waarop mensen praten. Hij is als een lokaal bewoner die de buurt kent.
De Training: Ze hebben deze AI vervolgens extra getraind (met "supervised fine-tuning") om specifiek op te letten op gevaarlijke situaties in die buurt.
Het Resultaat: Breeze Guard is nu een AI die niet alleen slim is, maar ook cultureel onderlegd. Hij weet dat een berichtje over "ATM-uitbetalingen" vaak een valstrik is, terwijl de wereldwijde agent dat niet wist.

3. Waarom werkt dit beter? (De Creatieve Analogie)

De onderzoekers zeggen iets heel belangrijks: Je kunt een cultuur niet alleen "leren" door een lijstje met regels te geven.

Verkeerde aanpak: Je neemt een wereldwijde agent en zegt: "Lees deze lijst met Taiwanese oplichterstrucen en onthoud ze." Dit werkt niet goed, want de agent mist de onderliggende "gevoelswaarde" en context.
Goede aanpak (Breeze Guard): Je neemt iemand die de cultuur al kent (Breeze 2) en leert hem: "Kijk, deze specifieke dingen in onze cultuur zijn gevaarlijk." Omdat hij de cultuur al begrijpt, snapt hij waarom iets gevaarlijk is.

Het is als het verschil tussen iemand die een woordenboek van een taal leest, en iemand die er geboren en getogen is. De laatste voelt de nuance.

4. De Resultaten

Toen ze Breeze Guard testten op hun lokale test (TS-Bench):

Hij deed het veel beter dan de beste wereldwijde veiligheidsagenten (zoals Granite Guardian).
Vooral bij oplichting (scams) en financiële adviezen was hij een stuk scherper. Hij zag de valstrikken die anderen over het hoofd zagen.
Op Engelse tests deed hij het "voldoende", maar niet perfect. Dat is logisch: hij is gespecialiseerd in Taiwan, net zoals een lokale brandweerman beter is in lokale branden dan een internationale expert die nooit in die buurt is geweest.

Conclusie

Dit papier laat zien dat voor veilige AI in een specifieke regio, je niet alleen een sterke "wereldwijde" agent nodig hebt, maar een lokale bewaker die de cultuur, de taal en de specifieke gevaren van die regio begrijpt.

Ze hebben nu een test (TS-Bench) en een model (Breeze Guard) gemaakt die zorgen dat AI in Taiwan veiliger en betrouwbaarder wordt, zodat mensen niet in lokale valstrikken trappen. Het is een stap naar AI die niet alleen slim is, maar ook verstandig over de plek waar hij werkt.

Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

1. Het Probleem: De "Blinde Vlek"

2. De Oplossing: Twee Nieuwe Hulpmiddelen

A. TS-Bench: De "Lokale Test"

B. Breeze Guard: De "Lokale Wacht"

3. Waarom werkt dit beter? (De Creatieve Analogie)

4. De Resultaten

Conclusie

1. Het Probleem: Culturele Blinde Vlekken in Veiligheidsmodellen

2. Methodologie: Een Cultuurgewapende Aanpak

A. Breeze Guard (Het Model)

B. TS-Bench (De Benchmark)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

1. Het Probleem: De "Blinde Vlek"

2. De Oplossing: Twee Nieuwe Hulpmiddelen

A. TS-Bench: De "Lokale Test"

B. Breeze Guard: De "Lokale Wacht"

3. Waarom werkt dit beter? (De Creatieve Analogie)

4. De Resultaten

Conclusie

1. Het Probleem: Culturele Blinde Vlekken in Veiligheidsmodellen

2. Methodologie: Een Cultuurgewapende Aanpak

A. Breeze Guard (Het Model)

B. TS-Bench (De Benchmark)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models