总得来说,这项研究提出了一种能在保护隐私的前提下,在大规模异构的真实对话数据上评估Chatbot偏见的方法。主要研究了与用户名相关的潜在偏见,因为人名往往隐含了性别、种族等人口统计学属性信息。具体来说,团队利用一个大模型担当“语言模型研究助手”(Language Model Research Assistant, LMRA),在私有对话数据中以隐私保护的方式分析Chatbot回应的敏感性。他们还通过独立的人工评估来验证这些标注的有效性。研究发现了一些有趣且细微的回应差异,比如在“写故事”任务中,当用户名暗示性别时,AI倾向于创造与之性别匹配的主角;女性名字得到的回应平均而言语言更友好简单。在不同任务中,艺术和娱乐出现刻板印象的概率更高。通过在不同模型版本中的对比实验,GPT-3.5 Turbo表现出最高程度的偏见,而较新的模型在所有任务中偏见均低于1%。他们还发现增强学习技术(尤其是人类反馈强化学习)可以显著减轻有害刻板印象,体现出后训练干预的重要性。总的来看,这项工作为评估聊天机器人中的第一人称公平性提供了一套系统、可复现的方法。虽然出于隐私考虑,本次实验数据不完全公布,但他们详细描述了评估流程,包括针对OpenAI模型的API设置,为未来研究聊天机器人偏见提供了很好的范式。当然,这项研究也存在一些局限性。比如目前仅关注了英语对话、种族和性别也只覆盖了部分类别、LMRA在种族和特征标注上与人类评判的一致性有待提高。未来研究会拓展到更多人口统计属性、语言环境和对话形式。