0 0 1 0

AI 模型平台 > AI 大模型

Llama 3

Meta AI 开源大型语言模型，Llama 3 包括具有 80 亿（8B）和 700 亿（70B）参数的预训练和指令微调的语言模型，

模式：限免|会员语言：英文

访问官网

快灵 309

Llama 3 是 Meta AI 推出的最新一代开源大型语言模型，继承并改进了 Llama 2 的功能。Llama 3 包括具有 80 亿（8B）和 700 亿（70B）参数的预训练和指令微调的语言模型，能够支持广泛的应用场景。Llama 3 在一系列行业标准基准测试中展示了最先进的性能，并提供了新的功能，包括改进的推理能力、多语言支持和更长的上下文窗口。

Llama 3官网：https://llama.meta.com/llama3/

Llama 3 主要功能

• 高性能与低成本

• 效率提升：Llama 3.3 模型效率更高、成本更低，能在标准工作站上运行，降低运营成本的同时，提供高质量的文本 AI 解决方案。

• 性能提升：8B 和 70B 参数的 Llama 3 模型在许多基准测试上都取得了先进水平，超过了同规模模型。在多个行业基准测试中表现出色，特别是在推理、代码生成和指令遵循方面，超过同等大小的商业模型。

• 多语言支持

• 广泛语言覆盖：Llama 3 支持 8 种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语，能够处理这些语言的输入和输出。

• 多语言能力：预训练数据包括 5%的非英语数据，涵盖 30 多种语言，确保模型在各种应用场景中的良好表现。

• 长上下文窗口

• 支持长序列：模型支持上下文长度为 128K，能够处理更长的文本序列，适用于需要长上下文的应用场景。

• 创新的模型架构

• 改进的 tokenizer：使用 128K 词汇量的 tokenizer，更有效地编码语言，提高模型性能。

• 分组查询注意力（GQA）：8B 和 70B 模型采用 GQA，提高推理效率，能够处理高达 8192 个 token 的序列。

• 高质量数据训练

• 大规模数据：预训练数据量比 Llama 2 大 7 倍，达到 15T 个 token，结合不同来源的数据以确保模型在各种应用场景中的良好表现。

• 数据过滤和去重：数据过滤管道包括使用启发式过滤器、NSFW 过滤器、语义去重和文本分类器，确保训练数据的质量。

• 先进的训练技术

• 大规模并行训练：利用定制的 24K GPU 集群进行大规模并行预训练，计算利用率超过 400 TFLOPS，提高训练效率 3 倍以上。

• 创新的微调方法：结合监督微调、拒绝采样、近端策略优化和直接偏好优化，提高模型的安全性和性能。

• 系统级安全可靠

• 信任与安全工具：采用新的系统级方法，包括 Llama Guard 2、CyberSecEval 2 和 Code Shield 等信任与安全工具，确保模型的安全性和责任部署。

• 红队测试：进行广泛的红队演习，生成对抗性提示，评估和降低模型的滥用风险。

• 开放平台与集成

• 多平台支持：Llama 3 将在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 等多个平台上提供，并支持 AMD、NVIDIA 等硬件。

• 第三方工具集成：支持与第三方工具和服务集成，扩展功能和应用场景。

• 评估与优化

• 高质量评估集：开发了包含 1800 个提示的高质量人类评估集，涵盖 12 个关键用例，确保模型在现实世界场景中的强大性能。

• 后训练改进：后训练程序显著减少了模型的拒绝率，提高了对齐度和响应多样性，提供更好的推理能力、代码生成和指令跟随能力。