LLaMa:一个最初由 Meta AI 训练的语言模型,使用的是直接的语言建模目标。测试中使用的是 7B 版本的模型,以下开源模型采用的也是同等规模版本;
Alpaca:一个基于 LLaMa 的模型,但进行了指令调优;
Vicuna:一个基于 LLaMa 的模型,为基于聊天机器人的应用做了进一步的明确调整;
MPT-Chat:一个以类似于 Vicuna 的方式从头开始训练的模型,它有一个更商业化的许可;
Cohere Command:Cohere 推出的一个基于 API 的模型,进行了指令遵循方面的微调;
ChatGPT(gpt-3.5-turbo):标准的基于 API 的聊天模型,由 OpenAI 研发。
对于所有的模型,测评者使用了默认的参数设置。其中包括温度(temperature)为 0.3,上下文窗口(context window)为 4 个先前的对话轮次,以及一个标准的 prompt:「You are a chatbot tasked with making small-talk with people」。评价指标测评者根据这些模型的输出与人类客服反应的相似程度来评估这些模型。这是用 Critique 工具箱提供的指标完成的: