Llama 3 是 Meta AI 推出的最新一代开源大型语言模型,继承并改进了 Llama 2 的功能。Llama 3 包括具有 80 亿(8B)和 700 亿(70B)参数的预训练和指令微调的语言模型,能够支持广泛的应用场景。Llama 3 在一系列行业标准基准测试中展示了最先进的性能,并提供了新的功能,包括改进的推理能力、多语言支持和更长的上下文窗口。
Llama 3官网:https://llama.meta.com/llama3/

Llama 3 主要功能
• 高性能与低成本
• 效率提升:Llama 3.3 模型效率更高、成本更低,能在标准工作站上运行,降低运营成本的同时,提供高质量的文本 AI 解决方案。
• 性能提升:8B 和 70B 参数的 Llama 3 模型在许多基准测试上都取得了先进水平,超过了同规模模型。在多个行业基准测试中表现出色,特别是在推理、代码生成和指令遵循方面,超过同等大小的商业模型。
• 多语言支持
• 广泛语言覆盖:Llama 3 支持 8 种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,能够处理这些语言的输入和输出。
• 多语言能力:预训练数据包括 5%的非英语数据,涵盖 30 多种语言,确保模型在各种应用场景中的良好表现。
• 长上下文窗口
• 支持长序列:模型支持上下文长度为 128K,能够处理更长的文本序列,适用于需要长上下文的应用场景。
• 创新的模型架构
• 改进的 tokenizer:使用 128K 词汇量的 tokenizer,更有效地编码语言,提高模型性能。
• 分组查询注意力(GQA):8B 和 70B 模型采用 GQA,提高推理效率,能够处理高达 8192 个 token 的序列。
• 高质量数据训练
• 大规模数据:预训练数据量比 Llama 2 大 7 倍,达到 15T 个 token,结合不同来源的数据以确保模型在各种应用场景中的良好表现。
• 数据过滤和去重:数据过滤管道包括使用启发式过滤器、NSFW 过滤器、语义去重和文本分类器,确保训练数据的质量。
• 先进的训练技术
• 大规模并行训练:利用定制的 24K GPU 集群进行大规模并行预训练,计算利用率超过 400 TFLOPS,提高训练效率 3 倍以上。
• 创新的微调方法:结合监督微调、拒绝采样、近端策略优化和直接偏好优化,提高模型的安全性和性能。
• 系统级安全可靠
• 信任与安全工具:采用新的系统级方法,包括 Llama Guard 2、CyberSecEval 2 和 Code Shield 等信任与安全工具,确保模型的安全性和责任部署。
• 红队测试:进行广泛的红队演习,生成对抗性提示,评估和降低模型的滥用风险。
• 开放平台与集成
• 多平台支持:Llama 3 将在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 等多个平台上提供,并支持 AMD、NVIDIA 等硬件。
• 第三方工具集成:支持与第三方工具和服务集成,扩展功能和应用场景。
• 评估与优化
• 高质量评估集:开发了包含 1800 个提示的高质量人类评估集,涵盖 12 个关键用例,确保模型在现实世界场景中的强大性能。
• 后训练改进:后训练程序显著减少了模型的拒绝率,提高了对齐度和响应多样性,提供更好的推理能力、代码生成和指令跟随能力。
Llama 3适用人群
• 开发者:希望将 Llama 3 的多模态能力集成到自己的应用程序中的开发者。
• 内容创作者:生成各种类型的内容,如博客文章、社交媒体更新、电子邮件和营销文案。
• 教育工作者:逐步指导学生解决数学问题,生成研究论文摘要、建议研究主题以及从大型数据集中提供见解。
• 医疗专业人员:分析医学图像和患者数据,帮助医生更准确、更快地诊断疾病。
• 企业用户:用于客户支持、数据分析、内容生成和代码审查等业务场景。
