llama 3 震撼来袭 8B 150k 词元 8Ktoken长度 4T token 参与预训练与对齐训练 使用GQA

llama 3 震撼来袭 8B 150k 词元 8Ktoken长度 4T token 参与预训练与对齐训练 使用GQA

    正在检查是否收录...

Meta开发了并发布了Meta Llama 3系列大型语言模型(LLMs),这是一组在8亿和70亿参数规模下预训练和指令调整的生成文本模型。Llama 3的指令调整模型针对对话用例进行了优化,并在常见的行业基准测试中超越了众多开源聊天模型。在开发这些模型时,我们特别注重优化其有益性和安全性。
模型开发者:Meta
变体:Llama 3提供两种大小——8B和70B参数——分别有预训练和指令调整版本。
输入:模型仅输入文本。
输出:模型仅生成文本和代码。
模型架构:Llama 3是一个使用优化变压器架构的自动回归语言模型。调整后的版本使用监督式微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有益性和安全性的偏好保持一致。
训练数据:

Llama 3:混合了公开可用的在线数据。8B参数版本于2023年3月截止,70B参数版本于2023年12月截止。 两个版本都使用分组查询注意力(GQA)来提高推理的可扩展性。
模型发布日期:2024年4月18日。
状态:这是一个在离线数据集上训练的静态模型。随着我们通过社区反馈改进模型安全性,将发布调整后的模型的未来版本。
许可证:可在https://llama.meta.com/llama3/license 获取自定义商业许可证。
如何提供有关模型的反馈或评论:有关如何提供模型反馈或评论的说明可以在模型自述文件中找到。有关生成参数和如何在应用程序中使用Llama 3的更多信息,请访问相关链接。
预期用途: 预期用途:Llama 3旨在用于英语的商业和研究用途。指令调整模型旨在用于类似助手的聊天,而预训练模型可用于各种自然语言生成任务。 不在范围内的用途:任何违反适用法律或法规(包括贸易合规法律)的使用方式;任何违反《可接受使用政策》和《Llama 3社区许可证》的禁止使用方式;在非英语语言中的使用。
注意: 开发者可以将Llama 3模型针对超出英语的语言进行微调,前提是他们遵守《Llama 3社区许可证》和《可接受使用政策》。
如何使用: 使用transformers库:
import transformers import torch model_id = "meta-llama/Meta-Llama-3-8B-Instruct" pipeline = transformers.pipeline( "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device="cuda", ) messages = [ {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"}, {"role": "user", "content": "Who are you?"}, ] prompt = pipeline.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) terminators = [ tokenizer.eos_token_id, tokenizer.convert_tokens_to_ids("<|eot_id|>") ] outputs = pipeline( prompt, max_new_tokens=256, eos_token_id=terminators, do_sample=True, temperature=0.6, top_p=0.9, ) print(outputs[0]["generated_text"][len(prompt):]) 
使用llama3代码库:请遵循仓库中的说明进行操作。
硬件和软件: 训练因素:我们使用了自定义训练库、Meta的研究超级计算集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上执行。 碳足迹:预训练使用了累计770万GPU小时的计算量,使用的硬件类型为H100-80GB(热设计功率为700W)。估计的总排放量为2290吨二氧化碳当量,其中100%由Meta的可持续性计划抵消。 CO2排放:在预训练期间,每个模型的训练所需的GPU时间和功耗以及由此产生的二氧化碳排放量。由于我们公开发布了这些模型,因此其他人无需承担预训练的成本。
训练数据: 概述:Llama 3在超过1500万亿个令牌的公开可用数据上进行了预训练。微调数据包括公开可用的指令数据集以及超过1000万个由人类注释的示例。预训练和微调数据集都不包括Meta用户数据。 数据新鲜度:7B模型的预训练数据截止于2023年3月,而70B模型的预训练数据截止于2023年12月。
基准测试: 在本节中,报告了Llama 3模型在标准自动基准测试中的结果。对于所有评估,我们使用我们内部的评估库。有关方法的详细信息,请参阅相关链接。
责任与安全: 我们相信开放的AI方法可以带来更好、更安全的产品,更快的创新以及更大的整体市场。

llama预训练tokenprompt许可证训练数据transformers数据集安全性transformerchatiragpu开发者tpu语言模型自定义lms云计算2024
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-17087.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

llama.cpp 编译安装@Ubuntu

上一篇

8 款 Stable Diffusion 最新写实风格 SDXL 大模型推荐!

下一篇
  • 复制图片
按住ctrl可打开默认菜单