Queer NLP: A Critical Survey on Literature Gaps, Biases and Trends

这篇论文系统综述了 ACL 文献中关于 LGBTQIA+ 群体与自然语言处理(NLP)技术关系的研究,指出当前工作多侧重于被动识别偏见而非主动构建解决方案,并呼吁未来在利益相关者参与、交叉性、跨学科合作及非英语语言研究等方面采取行动,以推动更公正包容的 NLP 技术发展。

Sabine Weber, Angelina Wang, Ankush Gupta, Arjun Subramonian, Dennis Ulmer, Eshaan Tanwar, Geetanjali Aich, Hannah Devinney, Jacob Hobbs, Jennifer Mickel, Joshua Tint, Mae Sosto, Ray Groshan, Simone Astarita, Vagrant Gautam, Verena Blaschke, William Agnew, Wilson Y Lee, Yanan Long

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“给自然语言处理(NLP)技术的体检报告”,专门检查这些技术是如何对待LGBTQIA+(酷儿)群体**的。

想象一下,NLP 技术(比如聊天机器人、翻译软件、招聘筛选系统)就像是一个个**“数字世界的图书管理员”**。它们每天阅读海量的书籍(互联网数据),然后试图理解并回答人类的问题。但是,这份报告发现,这些图书管理员在整理关于酷儿群体的书籍时,犯了很多严重的错误,甚至有时候会故意把某些书藏起来或撕掉。

以下是这篇论文的核心发现,用几个生动的比喻来解释:

1. 现状:反应迟钝的“救火队员”

目前的 NLP 研究大多是在**“救火”,而不是“防火”**。

  • 比喻:就像社区里总是等房子着火了才去研究怎么灭火,却很少在盖房子时就把防火材料装好。
  • 发现:大多数论文只是在指出:“看!这个 AI 又搞错了,它把‘同性恋’这个词当成了脏话!”或者“这个翻译把‘他’和‘她’搞混了!”
  • 问题:它们很少真正去解决问题,或者在开发初期就考虑到酷儿群体的需求。它们更多是在“吐槽”现有的系统有多糟糕,而不是创造新的、更好的系统。

2. 主要漏洞:三个巨大的“盲区”

论文通过检查 86 篇相关论文,发现了三个主要的“盲区”(就像戴着眼罩开车):

  • 盲区一:只有英语,没有世界

    • 比喻:这就像是一个**“英语霸权”**的图书馆。虽然世界上有几千种语言,但 76% 的研究只关注英语。
    • 后果:对于讲西班牙语、中文、阿拉伯语或其他语言的酷儿群体来说,这些技术要么完全没用,要么充满了误解。就像你试图用一本只有英语的字典去解释中文的成语,肯定会闹笑话。
  • 盲区二:缺乏“交叉视角”

    • 比喻:现在的研究像是在**“单色眼镜”**下看世界。它们只盯着“性别”或“性取向”看,却忽略了其他因素。
    • 现实:一个酷儿群体的人,可能同时还是少数族裔、残障人士或穷人。他们的痛苦是叠加的(比如:既是黑人又是跨性别者)。但现在的 AI 往往把这些身份拆开来看,导致无法理解这种复杂的、交织在一起的痛苦。
  • 盲区三:把“人”当成了“数据”

    • 比喻:研究人员像是在**“观察蚂蚁”,而不是“和蚂蚁对话”**。
    • 问题:绝大多数研究都没有让酷儿群体的人真正参与进来。他们只是用算法去“猜”酷儿群体想要什么,或者用冷冰冰的数据代替真实用户的反馈。
    • 例外:只有极少数研究真正邀请了酷儿社区成员参与设计,就像邀请居民参与社区规划一样。

3. 具体哪里出错了?

论文列举了几个具体的“翻车”现场:

  • 翻译软件:当你把英语翻译成其他语言时,如果源语言没有性别(比如用“他们”),目标语言(如法语、德语)往往被迫强行选一个性别,导致跨性别者被“误认”性别。
  • 聊天机器人:如果你问关于变性手术或心理健康的问题,AI 可能会给出错误、过时甚至有害的建议,因为它没读过相关的权威指南。
  • 仇恨言论检测:这是最讽刺的。AI 经常把酷儿群体自己使用的词汇(比如 reclaim 过的 slur,或者“同志”这个词)误判为脏话并封禁,却放过了那些真正充满恶意的、隐晦的歧视言论(比如“性别批判”者说的话)。

4. 未来的方向:从“修补”到“共建”

论文最后呼吁,未来的工作不能只是“打补丁”,而需要彻底改变思路:

  • 邀请“业主”参与:在开发系统之前,先问问酷儿社区的人:“你们需要什么?你们害怕什么?”(参与式行动研究)。
  • 拥抱多样性:不要只盯着英语,要去研究那些被忽视的语言和文化。
  • 理解“拒绝”的权利:酷儿理论认为,有时候**“拒绝被分类”本身就是一种力量。现在的 AI 总想给每个人贴标签(男/女,直/弯),但未来的技术应该允许人们“不回答”**,或者用模糊、流动的方式存在,而不是强行把活生生的人塞进固定的格子里。

总结

这就好比我们想建一座**“数字家园”。目前的 NLP 技术就像是一个“只懂英语、只懂二元性别、且从不咨询住户意见的建筑师”**。他建的房子虽然很大,但很多房间对酷儿群体来说不仅住不进去,甚至可能很危险。

这篇论文就是一份“整改通知书”,呼吁建筑师们:

  1. 多听听住户的声音(让酷儿群体参与)。
  2. 多看看不同的文化(关注非英语世界)。
  3. 设计更灵活的空间(允许身份的流动和模糊)。

只有这样,技术才能真正变得公正、包容,成为所有人的工具,而不仅仅是部分人的特权。