热点推荐词:

      行业动态

      大模型驱动的数据治理技术展望

      文字:[大][中][小] 手机页面二维码 2024-6-21     浏览次数:    

        近年来,,,,大模型技术热潮中对数据质量的要求提升到了一个新的高度。。。。与此同时,,人们也在探索大模型本身能否助力于数据清洗与数据治理等工作。。。本文将从技术的角度展望大模型驱动的数据治理技术,,,,并分享此领域的一些研究热点。。。。

        主要内容包括以下几个部分:

        1.以数据为中心的人工智能

        2.大模型预训练中的数据工程

        3.大模型驱动的数据治理技术

        4.总结与展望

      01 以数据为中心的人工智能

        以数据为中心的人工智能,,,,这一理念在 2021 年由吴恩达教授提出,,,,强调了在构建 AI 系统时,,对数据的系统化工程处理的重要性。。。。与过去以模型为中心的方法相比,,,以数据为中心的方法更加注重数据的质量、、、、多样性和治理流程。。在早期的机器学习和深度学习时代,,,,我们主要关注特征工程、、模型设计和参数制定等方面,,,,但如今,,,,数据的质量和治理已成为决定 AI 系统性能的关键因素。。在大模型时代,,,,我们不再需要过多关注特征工程和模型层面的变动,,,而是将更多的精力投入到数据的治理上,,,,即如何通过有效的数据管理和迭代,,,,使数据发挥更大的价值。。。

        数据是 AI 的原油,,,,AI 系统的成功在很大程度上取决于数据的质量,,这一点被广泛认同。。一个 AI 系统 80% 的工作量集中在前期的预训练数据准备和后期的数据飞轮迭代上。。对于如何定义优质的数据,,,张博士的论文中提出了几个关键维度:覆盖范围广、、、、维度多样、、时效性强、、精度高以及合规性好。。。这些维度不仅反映了小模型对数据的要求,,,,在大模型预训练时代更是显得至关重要。。。我们需要的是具有多样性和泛化能力的数据,,以确保AI 模型在各种场景下都能表现出色。。。。

        在以数据为中心的 AI 框架中,,,数据开发通常分为三个阶段:训练数据的开发、、推理数据的开发和数据维护。。。训练数据的开发包括数据的收集、、、、标注和预处理等步骤。。推理数据的开发涉及训练样本评估与提示工程等。。。。数据的维护则关注于当后续不断有新数据产生时,,,,对于数据的理解与质量管控,,以及数据的存储和检索等任务。。。以上是以数据为中心的人工智能的整体思路。。。。

      02 大模型预训练中的数据工程

        在大模型的预训练过程中,,,,数据工程的工作量显著增加。。。以 GPT 为例,,实际训练中使用的数据涵盖了多个层面,,,,我们需要收集大量的语料库,,其原始大小为 45TB,,清洗完之后剩下 175GB。。。。此外还融合丰富的代码数据及上万个 Prompt 任务参与训练。。。实际上,,,,成本及创意主要在数据准备上,,对于 Transformer 技术的运用,,,,大家的使用方法都大同小异。。对于某些特定领域的表达与通用领域存在差异时,,,,如专业术语或符号,,,,我们可能需要进行词表的扩充,,以确保模型能够准确地理解这些表达。。

        纵观 GPT 的发展历史,,从 2018 年到 2020 年,,我们不难发现,,,,随着模型参数的逐步增加,,,数据规模也在同步扩大。。。。例如,,GPT-1 虽然只有 1 亿多参数,,,但它已经使用了 4.8GB 的未过滤数据。。。到了 GPT-2,,参数数量增至 15 亿,,,数据规模扩大了 10 倍,,并且这些数据还经过了人工过滤,,,,进一步提升了数据质量。。。到了 GPT-3,,,,算力提升了近百倍,,,,数据量也大幅增加,,,从 45TB 的原始数据中过滤出了 570GB 的数据。。因此,,,,尽管参数庞大和算力强大是 GPT 模型的显著特点,,,但背后的核心在于海量的数据输入。。。没有足够的数据支持,,,,再强大的算力也难以发挥作用,,正所谓“巧妇难为无米之炊”。。。。数据的丰富性和质量对于模型的训练至关重要。。。。另一方面,,,我们观察到整个模型的架构其实并未发生显著变化。。。。真正在起作用的是 scaling law(伸缩法则),,,,即随着模型规模和数据量的增加,,,模型的性能也会相应提升。。。

      转载自公众号数据思考笔记


      返回上一步
      打印此页
      [向上]
      站点地图