WAP站长网

2025年6月24日

字数：1105，阅读约4分钟

全屏显示

苹果研究团队揭示WRAP技术：用合成数据进行预训练大模型成本低准确性高

SEO教程

正在检查是否收录...

近几个月来，大型语言模型（LLMs）在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。

然而，LLMs通常在不充分的网络抓取数据上进行训练。这些数据通常杂乱、无结构，表达不清晰。按照现有的扩展原则，即随着模型规模的增加，计算能力和数据量也应该成比例增加，这带来了挑战。

困扰研究人员的主要问题有两个。首先，预训练涉及显着的计算成本和时间。其次，互联网上高质量数据的稀缺性问题迫在眉睫。在最新的研究中，来自苹果和卡内基梅隆大学的研究团队通过引入Web Rephrase Augmented Pre-training（WRAP）的概念，解决了这些问题。

WRAP是一种创新方法，利用已存在的、经过指令调整的LLM。这个LLM用于将在线页面改写成特定风格，包括模仿维基百科的语气或将文本转换为问答格式。WRAP的主要目标是通过添加真实和人工改写的数据来提高LLMs的预训练效果。

图源备注：图片由AI生成，图片授权服务商Midjourney

WRAP的主要特点包括:

- **预训练效率:** 将WRAP应用于嘈杂的C4数据集，显著加快了预训练速度，约为三倍。这种效果对于减少与LLM训练通常相关的高昂费用和时间投入至关重要。

- **模型性能提升:** WRAP在相同的计算预算下使模型性能更出色。使用Pile的不同子集减少了超过10%的歧义，提高了13种不同活动的零-shot问题回答准确性超过2%。

- **网络文档改写:** WRAP使用中等规模的LLM对网络文档进行改写，呈现多种风格。这种方法不同于创建新数据，而是通过改进已有内容，保持原始信息的质量和多样性。

WRAP生成的合成数据有两个主要好处。首先，它包含反映应用中使用的语言多样性的各种风格。有了这种多样性，LLM更好地为更广泛的实际事件做好准备。其次，WRAP改写的合成数据比原始网络抓取的数据质量更高。这种质量的提升源于语言更有序、更连贯，从而促进更有效的模型学习。

WRAP是LLM预训练领域的一项重大进展。通过使用高质量、不同风格的合成数据，WRAP不仅加速了训练过程，还提高了LLMs的整体性能。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性，这种方法提供了一种可能的前进方式。

论文网址:https://arxiv.org/abs/2401.16380

rapllm预训练llmslms合成数据多样性模型性能llm训练网络抓取高质量多种风格性能提升urlwebarxiv代码完成midjourney研究人员互联网人工智能准确性问题回答文本转换文本摘要数据集大型语言模型ai生成内容生成语言模型数据质量

本文作者：WAP站长网
本文链接： https://wapzz.net/post-7469.html
版权声明：本博客所有文章除特别声明外，均默认采用 CC BY-NC-SA 4.0 许可协议。

本站部分内容来源于网络转载，仅供学习交流使用。如涉及版权问题，请及时联系我们，我们将第一时间处理。

文章很赞！支持一下吧还没有人为TA充电

为TA充电

还没有人为TA充电

支付宝扫一扫
微信扫一扫

感谢支持

文章很赞！支持一下吧

关于作者

WAP站长网

2.8W+

WAP站长官方

最近签到
签到排行

WAP站长网
1个月前
+20
kbx991
1个月前
+30
vPNpL7l4
1个月前
+10

WAP站长网
WAP站长官方
57
kbx991
内卷太严重，已躺平...
6
Cr8M6e32
内卷太严重，已躺平...
5

标签云

麒麟9020A性能 1

华为Mate70优享版 1

性能提升 1

麒麟9020A 1

Mate70优享版 1

K90 1

Gen5芯片 1

K90系列 1

X9系列 1

荣耀Magic8系列 1

X300系列 1

小米员工处分 1

王腾被辞退 1

泄露公司机密 1

小米员工违规 1

王腾账号注销 1

YU7防护措施 1

小米YU7电池安全 1

防护措施 1

上市咨询 1

电池安全 1

合约机 1

中国联通 1

小米汽车技术解释 1

小米超强钢项目 1

东北大学 1

项目名称 1

超强钢 1

淘宝团购 1

阿里流量入口 1

团购业务 1

跨界月饼 1

月饼邪修 1

创意月饼 1

年轻人消费 1

中秋礼盒 1

月饼测评 1

抖音鸡排哥 1

鸡排哥语录 1

抖音爆火 1

幽默互动 1

网络走红 1

鸡排哥 1

AI稀疏注意力 1

V3.2 1

API成本 1

稀疏注意力 1

照片在线下载 1

10G文件传输 1

在线预览 1