Each language version is independently generated for its own context, not a direct translation.
这篇论文就像是一份**“给自然语言处理(NLP)技术的体检报告”,专门检查这些技术是如何对待LGBTQIA+(酷儿)群体**的。
想象一下,NLP 技术(比如聊天机器人、翻译软件、招聘筛选系统)就像是一个个**“数字世界的图书管理员”**。它们每天阅读海量的书籍(互联网数据),然后试图理解并回答人类的问题。但是,这份报告发现,这些图书管理员在整理关于酷儿群体的书籍时,犯了很多严重的错误,甚至有时候会故意把某些书藏起来或撕掉。
以下是这篇论文的核心发现,用几个生动的比喻来解释:
1. 现状:反应迟钝的“救火队员”
目前的 NLP 研究大多是在**“救火”,而不是“防火”**。
- 比喻:就像社区里总是等房子着火了才去研究怎么灭火,却很少在盖房子时就把防火材料装好。
- 发现:大多数论文只是在指出:“看!这个 AI 又搞错了,它把‘同性恋’这个词当成了脏话!”或者“这个翻译把‘他’和‘她’搞混了!”
- 问题:它们很少真正去解决问题,或者在开发初期就考虑到酷儿群体的需求。它们更多是在“吐槽”现有的系统有多糟糕,而不是创造新的、更好的系统。
2. 主要漏洞:三个巨大的“盲区”
论文通过检查 86 篇相关论文,发现了三个主要的“盲区”(就像戴着眼罩开车):
盲区一:只有英语,没有世界
- 比喻:这就像是一个**“英语霸权”**的图书馆。虽然世界上有几千种语言,但 76% 的研究只关注英语。
- 后果:对于讲西班牙语、中文、阿拉伯语或其他语言的酷儿群体来说,这些技术要么完全没用,要么充满了误解。就像你试图用一本只有英语的字典去解释中文的成语,肯定会闹笑话。
盲区二:缺乏“交叉视角”
- 比喻:现在的研究像是在**“单色眼镜”**下看世界。它们只盯着“性别”或“性取向”看,却忽略了其他因素。
- 现实:一个酷儿群体的人,可能同时还是少数族裔、残障人士或穷人。他们的痛苦是叠加的(比如:既是黑人又是跨性别者)。但现在的 AI 往往把这些身份拆开来看,导致无法理解这种复杂的、交织在一起的痛苦。
盲区三:把“人”当成了“数据”
- 比喻:研究人员像是在**“观察蚂蚁”,而不是“和蚂蚁对话”**。
- 问题:绝大多数研究都没有让酷儿群体的人真正参与进来。他们只是用算法去“猜”酷儿群体想要什么,或者用冷冰冰的数据代替真实用户的反馈。
- 例外:只有极少数研究真正邀请了酷儿社区成员参与设计,就像邀请居民参与社区规划一样。
3. 具体哪里出错了?
论文列举了几个具体的“翻车”现场:
- 翻译软件:当你把英语翻译成其他语言时,如果源语言没有性别(比如用“他们”),目标语言(如法语、德语)往往被迫强行选一个性别,导致跨性别者被“误认”性别。
- 聊天机器人:如果你问关于变性手术或心理健康的问题,AI 可能会给出错误、过时甚至有害的建议,因为它没读过相关的权威指南。
- 仇恨言论检测:这是最讽刺的。AI 经常把酷儿群体自己使用的词汇(比如 reclaim 过的 slur,或者“同志”这个词)误判为脏话并封禁,却放过了那些真正充满恶意的、隐晦的歧视言论(比如“性别批判”者说的话)。
4. 未来的方向:从“修补”到“共建”
论文最后呼吁,未来的工作不能只是“打补丁”,而需要彻底改变思路:
- 邀请“业主”参与:在开发系统之前,先问问酷儿社区的人:“你们需要什么?你们害怕什么?”(参与式行动研究)。
- 拥抱多样性:不要只盯着英语,要去研究那些被忽视的语言和文化。
- 理解“拒绝”的权利:酷儿理论认为,有时候**“拒绝被分类”本身就是一种力量。现在的 AI 总想给每个人贴标签(男/女,直/弯),但未来的技术应该允许人们“不回答”**,或者用模糊、流动的方式存在,而不是强行把活生生的人塞进固定的格子里。
总结
这就好比我们想建一座**“数字家园”。目前的 NLP 技术就像是一个“只懂英语、只懂二元性别、且从不咨询住户意见的建筑师”**。他建的房子虽然很大,但很多房间对酷儿群体来说不仅住不进去,甚至可能很危险。
这篇论文就是一份“整改通知书”,呼吁建筑师们:
- 多听听住户的声音(让酷儿群体参与)。
- 多看看不同的文化(关注非英语世界)。
- 设计更灵活的空间(允许身份的流动和模糊)。
只有这样,技术才能真正变得公正、包容,成为所有人的工具,而不仅仅是部分人的特权。