你不可错过的聊天机器人:CHAT GPT
一、CHAT GPT:人工智能的魔力
CHAT GPT是一种预训练模型,它拥有丰富的知识和能力,可以通过传入1k-10k个输入/输出示例来进行微调,从而实现小规模指令调整。对于领域知识的微调,人们对此存在很多争议。如果你试图通过传入大量非结构化领域规模数据来进行微调,你可能会遇到很多相互矛盾的信息。正如OpenAI所言:那些无法使微调工作的人通常是在向牛要橙汁。LLMs已经预训练了(这也是它们名字的由来:生成式预训练变换器)。它们已经具备了你所需要的所有知识(除了一些例外)。你不能教它任何新东西,你只能教它特定的模式。如果人类无法清楚地理解任务,LLMs也不会是魔法。正如Glean所说:将专有知识融入LLM的一种看似自然的方法是在微调阶段进行。然而,微调阶段旨在改善特定任务的性能,而不是教模型新的知识。当LLM在陌生的知识上进行微调时,它会增加错觉。这是因为我们实际上是在教模型为它没有强大、准确理解的主题生成回答。这就是为什么我们同意OpenAI的观点:“微调更适合于教授专门的任务或风格,对于事实的回忆来说则不太可靠。”但也有人持不同意见。Stochastic AI使用了大约500k个非结构化金融文件和约100k个指令示例对Llama-13B实例进行了微调,并声称在金融任务上的性能优于BloombergGPT。包括Giga在内的许多初创公司声称,对公司数据进行微调的开源模型在检索增强的GPT-4上表现更好。这是非常大胆的说法,因为很多公司并没有那么多非结构化数据(比如<100k个文档?),而且这种说法与Glean/OpenAI完全矛盾。你有什么想法?我是不是漏掉了什么?人们目前如何在非结构化数据上进行微调?
二、CHAT GPT的微调之谜
微调CHAT GPT在非结构化数据上是一个充满挑战的任务。要想成功地微调模型,首先需要明确定义目标,使人类能够理解任务。LLMs并不是魔法,如果人类无法理解任务,LLMs也无法理解。然后,微调阶段应该侧重于提高特定任务的性能,而不是教模型新的知识。当LLM在陌生的领域进行微调时,它往往会产生错觉,生成不准确的回答。因此,微调更适合于教授专门的任务或风格,对于事实的回忆来说则不太可靠。虽然有些人声称在非结构化数据上微调CHAT GPT可以取得更好的性能,但这与Glean/OpenAI的观点完全相悖。
暂无评论内容