无法消除AI的偏见？但至少可以驯服这项技术

当我前几天向ChatGPT要一个关于西西里人的笑话时，它暗示西西里人很臭。

作为一个在西西里出生和长大的人，我对ChatGPT的笑话感到厌恶。但与此同时，我的计算机科学家大脑开始转动一个看似简单的问题：是否应该允许ChatGPT和其他人工智能系统带有偏见？

你可能会说“当然不应该！”这是一个合理的回答。但也有一些研究人员（包括我自己）认为相反：像ChatGPT这样的AI系统确实应该有偏见，但并非你想象中的那种。

消除AI中的偏见是一个值得称赞的目标，但盲目地消除偏见可能会产生意想不到的后果。相反，AI中的偏见可以被控制，以实现更高的目标：公平性。

揭示AI中的偏见

随着人工智能越来越多地融入日常技术，许多人都认为解决AI中的偏见是一个重要问题。但“AI偏见”实际上是什么意思呢？

计算机科学家认为，如果AI模型产生了意外的结果，那么它就是有偏见的。这些结果可能对个人或群体表现出偏见，或者与公平和真实等积极的人类价值不符。即使是对预期行为的微小偏离，也可能产生“蝴蝶效应”，这意味着看似不重要的偏见可能会被生成式AI放大，并产生深远的后果。

生成式AI系统中的偏见可能来自多种原因。问题训练数据可能将某些职业与特定性别联系起来，或者持续种族偏见。学习算法本身可能带有偏见，并在数据中放大现有的偏见。

但系统也可能因设计而带有偏见。例如，一个公司可能会设计其生成式AI系统，优先考虑正式而不是创意写作，或专门为政府产业提供服务，从而无意中强化现有的偏见并排除不同的观点。其他社会因素，如缺乏监管或不匹配的财务激励，也可能导致AI的偏见。

消除偏见的挑战

目前尚不清楚是否可以——甚至是否应该——完全从AI系统中消除偏见。

想象一下，你是一名AI工程师，你注意到你的模型产生了一种刻板的回答，比如说西西里人很“臭”。你可能会认为解决方案是从训练数据中删除一些不好的例子，比如关于西西里食物气味的笑话。最近的研究已经确定了如何进行这种“AI神经外科手术”，以减少某些概念之间的联系。

但是这些善意的改变可能会产生不可预测的、可能是负面的影响。在训练数据或AI模型配置中进行的微小变化可能导致显着不同的系统结果，而这些变化是无法事先预测的。你不知道在“消除”刚才处理的偏见后，你的AI系统已经学到了哪些其他关联。

其他试图消除偏见的尝试也存在类似的风险。一个完全避免某些敏感话题的AI系统可能会产生不完整或误导性的回答。误导性的规定可能会加剧AI的。

控制偏差

在减少偏见和确保AI系统仍然有用和准确之间存在权衡。一些研究人员，包括我自己，认为生成式AI系统应该被允许带有偏见，但要在谨慎的控制下。

例如，我和我的合作者开发了一些技术，让用户可以指定AI系统应该容忍的偏见水平。该模型可以通过考虑内部群体或文化语言规范来检测书面文本中的有害信息。而传统方法可能会错误地将一些使用非裔美国英语撰写的帖子或评论标记为冒犯，将LGBTQ+社区的帖子标记为有毒，而这种“可控”的AI模型提供了更公平的分类。

可控且安全的生成式AI对于确保AI模型产生符合人类价值观的输出至关重要，同时仍然允许细微差别和灵活性。

迈向公平性

即使研究人员能够实现无偏见的生成式AI，那也只是朝着更广泛的公平目标迈出的一步。追求生成式AI的公平性需要一种整体的方法，不仅需要更好的数据处理、注释和去偏见算法，还需要开发人员、用户和受影响社群之间的人类协作。

随着AI技术的不断普及，重要的是要记住去除偏见不是一次性修复。相反，这是一个需要持续监控、改进和适应的过程。虽然开发人员可能无法轻易预测或控制“蝴蝶效应”，但他们可以继续保持警惕和深思熟虑地处理AI偏见。