高质量数据集建设指南

admin 2025年6月5日15:08:04评论16 views字数 2218阅读7分23秒阅读模式

高质量数据集建设指南

高质量数据集建设应按照生命周期有序展开,包括数据需求、数据规划、数据采集、数据预处理、数据标注、模型验证等6个阶段。其中,各阶段主要按以上顺序逐步开展,同时,各阶段会对其他阶段进行反馈,或者会在其他阶段反馈下进行迭代。
高质量数据集建设指南

数据需求

数据需求阶段主要涉及确定人工智能应用所需要数据,即根据特定人工智能应用,明确数据集在数据内容、规范等方面的需求。数据需求如下:

  • 数据规范方面,需要对数据规格的创建要求加以规定,包括数据格式、统计特性和可分性等;

  • 构建数据集所需的数据质量模型,即实例化一个具有相关数据质量特征(包括但不限于完整性、准确性、一致性)的数据质量模型;

  • 检查数据集建设中数据的可获得性,即验证和确认用于特定人工智能应用的数据是否可获取得到。

数据规划

数据规划阶段旨在确保所用数据满足数据需求阶段的要求,同时为使用这些数据完成人工智能应用的目标提供支持。数据规划要求如下:

  • 设计数据架构,即界定所需数据的全部属性和范围,以及如何使用这些数据;

  • 制定质量计划,即制定涵盖数据采集、数据预处理、数据标注等阶段的数据质量计划,以满足数据规范等方面要求;

  • 预计工作量,即预估获得和准备数据以支持特定人工智能应用所需的工作量,可能包括任何必要的数据重组、数据传输或数据收集的时间,以及为特定人工智能应用构建数据质量模型的时间。

数据采集

数据采集阶段主要是收集用于特定人工智能应用的数据,即从数据规划阶段所确定的数据源收集的实时和历史数据。数据采集要求如下:

  • 确定数据采集方式,即根据所需数据是否已存在并可直接再利用、是否可转化现有数据来满足要求、是否可通过购买或许可获得数据、是否可以生成数据、是否需要采集新数据等情况,确定是以获取和组合现有数据集、生成数据(包括但不限于仿真模拟数据、合成数据)、收集数据(包括但不限于传感器采集、手动输入)等之中何种方式采集数据;

  • 测试并在必要时改进数据收集方法,即测试数据收集方法,在必要时调整相关配置和参数设置、操作条件、传感器规格和安装位置等,以满足相关数据收集规范要求;

  • 进行数据质量度量并在必要时提升数据质量,可能会减少数据使用者的工作量,并针对通过应用不同转换所收集的数据降低引入下游不一致的风险。

数据预处理

数据预处理如下:

  • 数据转换,以最小的内容损失,将数据从一种表示或空间转换为另一种表示或空间;

  • 数据验证,根据验证正确性、有意义、安全性、隐私性等数据质量特征,确保数据是正确的;

  • 数据清洗,检测错误数据或缺失数据,并通过替换、修改、输入或删除等方式修正数据;

  • 数据聚合,将两个或多个数据集以汇总的形式合并为一个数据集;

  • 数据抽样,从数据集中选择数据,抽样可以替换或非替换方式进行;

  • 特征创建,创建比原始特征更能有效捕捉数据中主要信息的新特征;

  • 特征选择,使用可用特征的子集来降低数据的维数;

  • 丰富化,连接各类数据源,并为数据增加额外的上下文语境。

数据标注

数据标注阶段主要是针对有监督机器学习的,其训练、验证和测试数据需要对一个或多个目标变量赋值。数据标注要求如下:

  • 所获取的数据中不包含目标变量,那么数据标注就是为这些目标变量赋值的过程;

  • 数据标注质量是影响数据质量的一个重要方面,相关组织应该明确数据标注规范,并对数据标注过程进行监测和质量管理。

模型验证

在模型验证阶段,所准备好的数据被用于特定人工智能模型训练。在该阶段,要对所训练的人工智能模型进行表现效果评估,以确定数据集是否满足要求。若数据集未能使所训练人工智能模型的表现达到预期,可以采取以下步骤。

  • 对于人工智能模型,确定数据集相比于算法,是否为致使模型表现效果未达到预期的根本原因;

  • 在数据创建者与数据持有者之间,对模型验证阶段所发现的数据质量问题进行沟通,可以将对人工智能模型表现产生不利影响的数据质量问题传达给数据创建者和数据持有者。数据创建者与数据持有者可使用这些信息来改进上游数据的质量,以使下游数据使用者受益;

  • 重复数据规划、数据采集、数据预处理、数据标注等阶段以提升数据质量;

  • 重新训练人工智能模型,对于模型的表现效果进行验证。

长摁二维码图片自动识别并下载本文文档

编码 1748915663
高质量数据集建设指南
回复关键字 1748915663  获取更多文档
推荐的文档
回复 文档编码 或长摁识别二维码查看和下载文档
文档编码
标题
2208474847
数据质量智能监控布防实践之路.PDF
高质量数据集建设指南
2208474846
大数据质量保障体系探索.PDF
高质量数据集建设指南
2208474440
数据采集治理之质量篇.PDF
高质量数据集建设指南
2208474243
医院精细化管理对数据质量的要求.PDF
高质量数据集建设指南
2208472681
平安银行数据质量保障体系建设实践.PDF
高质量数据集建设指南
2208472664
B站数据质量保障体系建设与实践.PDF
高质量数据集建设指南
4236133362
银行核心系统大数据质量保障建设.PDF
高质量数据集建设指南
2208472464
司数据质量管理办法.DOC
高质量数据集建设指南
回复 数据质量 或 数据治理 或 数据建设  获得更多相关的文档

相关文章推荐

数据质量保障体系探索
银行核心系统大数据质量保障建设
基于大数据的软件开发质量与效能分析
数据中台建设方案
政务大数据治理管理规范体系
德邦数据治理之路
大型集团企业数据治理实践
数据架构数据治理设计规划方案
数据治理体系基础

说明:本文部分文字与图片资源来自于网络,分享此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即后台留言通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意。

高质量数据集建设指南

原文始发于微信公众号(CIO之家):高质量数据集建设指南

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年6月5日15:08:04
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   高质量数据集建设指南https://cn-sec.com/archives/4135903.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息