Meta 推出 Llama 2,一个允许商业用途的开源 AI 模型
Meta 推出 Llama 2,一个允许商业用途的开源 AI 模型

Meta 推出 Llama 2,一个允许商业用途的开源 AI 模型

上周二,Meta宣布推出全新的开源AI语言模型系列Llama 2,其显著之处在于其商业许可证,这意味着这些模型可以集成到商业产品中,而不同于其前身。这些模型的规模从7亿到700亿个参数不等,并据Meta称,“在我们测试的大多数基准测试中,它们的性能超过了开源聊天模型。”

“这将改变LLM市场的格局,”首席AI科学家Yann LeCun在推特上发文表示。“Llama-v2现已在Microsoft Azure上可用,并将在AWS、Hugging Face和其他供应商上提供。”

据Meta称,其Llama 2“预训练”模型(即基本模型)是基于2万亿个标记进行训练的,其上下文窗口为4,096个标记(单词片段)。上下文窗口决定了模型一次可以处理的内容长度。Meta还表示,为了类似ChatGPT的聊天应用,Llama 2还进行了“超过100万个人类标注”的微调。

虽然Llama 2在性能上无法与OpenAI的GPT-4相媲美,但对于一个开源模型来说,它表现不错。根据Nvidia的高级AI科学家Jim Fan的说法,“70B在推理任务上接近GPT-3.5,但在编码基准测试上存在明显差距。它在大多数基准测试中与或优于PaLM-540B,但仍远远落后于GPT-4和PaLM-2-L。”有关Llama 2的性能、基准测试和构建的更多详细信息可以在Meta于上周二发布的一篇研究论文中找到。

今年2月,Meta发布了Llama 2的前身LLaMA,并以非商业许可的形式开源。虽然官方上只允许拥有特定资格的学术界人士使用,但很快有人将LLaMA的权重(包含训练的神经网络参数值的文件)泄露到了种子站点上,并在AI社区广泛传播。很快,LLaMA的微调版本,如Alpaca,迅速涌现,为一个迅速发展的地下LLM(大型语言模型)开发场景提供了种子。

Llama 2将这一活动更加公开化,因为它允许商业使用,不过潜在的许可证持有者如果“上一个日历月活跃用户数超过7亿”,必须向Meta请求特殊许可,这可能阻止像亚马逊或谷歌这样规模的巨头免费使用它。

开源AI模型的力量与危险

尽管开源AI模型在爱好者和寻找无审查聊天机器人的人中非常受欢迎,但它们也引起了争议。Meta在支持主要的开源基础模型方面是独一无二的,而那些采用闭源技术的公司包括OpenAI、微软和谷歌。

批评者指出,开源AI模型存在潜在风险,比如在合成生物学领域或生成垃圾邮件或虚假信息方面被滥用。可以想象,Llama 2可能被用于这些用途,尽管这些用途违反了Meta的服务条款。目前,如果有人在OpenAI的ChatGPT API上进行受限行为,他们的访问权限可能会被吊销。但对于开源软件来说,一旦权重被发布,就无法收回。

然而,支持开源AI的人通常认为,开源AI模型鼓励透明度(在训练数据方面),促进经济竞争(不将技术限制在巨型公司手中),鼓励言论自由(无审查),并使AI的使用普及化(没有付费限制)。

或许是为了预防可能的批评,Meta还发布了一份简短的《支持Meta开放式AI方法的声明》,其中写道:“我们支持开放式创新的AI方法。负责任和开放式创新让我们所有人都有参与AI开发过程的利益,并为这些技术带来了可见性、审查和信任。开放今天的Llama模型将使每个人都能从这项技术中受益。”

截至周二下午,这份声明已经得到一些高管和教育工作者的签署,包括Drew Houston(Dropbox的CEO)、Matt Bornstein(Andreessen Horowitz的合伙人)、Julien Chaumond(Hugging Face的CTO)、Lex Fridman(MIT的研究科学家)和Paul Graham(Y Combinator的创始合伙人)。

尽管Llama 2是开源的,但Meta并未披露创建Llama 2模型所使用的训练数据来源,Mozilla值得信赖的AI资深研究员Abeba Birhane在Twitter上指出了这一点。缺乏训练数据透明度仍然是一些LLM批评者的症结所在,因为教导这些LLM“知识”的训练数据通常来自对互联网的未经授权抓取,对隐私或商业影响关注较少。在Llama 2的研究论文中,Meta表示“已经努力删除某些已知含有大量私人个人信息的网站的数据”,但未列出这些网站是哪些。

目前,任何人都可以通过在Meta的网站上填写表单来请求下载Llama 2。《Ars Technica》提交了下载请求,大约一个小时后收到了下载链接,这可能意味着列表可能需要手动筛选。