【资料】生成式人工智能和开放数据：指南和最佳实践

2025年2月6日20:32:35评论24 views字数 2225阅读7分25秒阅读模式

本文是一份由美国商务部商务数据治理委员会发布的指南，旨在指导生成式人工智能系统如何使用开放数据。该指南详细介绍了商务部的数据资产、数据发布和检索、数据许可和使用、数据完整性和质量等方面的最佳实践。此外，它还涵盖了数据集和元数据标准、DCAT-US v3.0规范更新、数据格式、发布可理解的开放数据权利和权限、以及提供预写模板和理想响应的提示库等内容。这份指南不仅适用于商务部，也适用于全球的数据发布者，目的是为了提高数据的可用性、可访问性和互操作性，从而促进生成式AI的发展和应用。

文本要点及解释

商务数据治理委员会

成立背景：为履行2018年《基于证据的政策制定基础法案》和管理预算办公室备忘录M-19-23的要求而设立。
使命：最大化商务部数据的战略资产价值，确保与Evidence Act目标的一致性。
职责：指导Act在部门内的实施，协调关键交付成果，向白宫管理和预算办公室及国会提供全面更新和报告。

AI与开放政府数据资产工作组

成立时间：2023年第四季度。
目的：应对生成式人工智能（AI）和其使用开放数据带来的机遇和挑战。
成员构成：来自商务部的数据管理和AI专家，与行业、学术界和其他公共数据生态系统利益相关者合作。

文档目的与版权信息

文档目的：为发布供生成式AI系统使用的开放数据提供指导，适用于商务部，但公开发布供全球数据发布者使用。
版权信息：由美国政府创建，不受美国版权法限制。

商务部的开放数据资产

数据种类：包括文本、表格、地理空间、图像、音频和视频数据。
数据量：超过15万个公开数据集。
主要发布机构：国家海洋和大气管理局（NOAA）、美国人口普查局（Census Bureau）、经济分析局（BEA）、美国专利商标局（USPTO）、国际贸易管理局（ITA）、国家标准与技术研究院（NIST）。

数据发布和检索

一致性格式：压缩大文件或使其易于下载，使用开源且语言无关的文件格式进行压缩，在数据出版物中包含长篇书面文档。
易检索位置：提供多种检索方式，至少包括RESTful API和直接下载，定期更新数据网站并使其易于爬取。

数据许可和使用

许可和使用政策：明确定义和发布机器可读格式的生成式AI相关开放数据使用政策，协调跨部门开发标准化模板，包括与AI相关的具体政策。
robots.txt文件：在商务部网站根目录包含robots.txt文件，以管理爬虫行为。

数据集和元数据标准

文档级与内容级元数据：文档级元数据描述整个数据集，内容级元数据描述数据集中的个体变量、字段或路径。
领域特定标准：使用领域的特定标准如ANSI代码，采用基于标准的元数据模式如DCAT用于数据目录或ISO标准。
内部工作元数据模式：确定一个内部工作元数据模式，以促进数据创建和质量控制工具之间的互操作性和一致使用。

DCAT-US v3.0规范更新

更新计划：截至2024年，联邦政府正在更新DCAT规范，并将引入DCAT-US v3.0模式。
全球标准对齐：DCAT-US v3.0与全球W3C DCAT v3.0标准对齐，并遵循FAIR数据原则。

数据格式

CSV和JSON格式：CSV由RFC 4180定义，适用于表格数据；JSON由RFC 8259定义，轻量级、文本基于、语言独立。
图像和视频格式：使用标准化、广泛支持的开放源码图像和视频格式。
避免使用PDF文件：因其难以自动解析。
不依赖特权特定应用程序的格式：如XLSX。
减少结构歧义的文件结构：如扁平表格。
提供原始数据和派生数据版本。
数据存储和分发：便于访问和检索。
数据许可证和使用：明确且一致，以支持广泛、公平和开放的数据访问。

发布可理解的开放数据权利和权限

明确定义和发布使用政策：商务部各部门应清楚地声明其使用政策，协调跨部门开发标准化模板，所有政策应以机器可读格式发布。
在商务部网站根目录包含robots.txt文件：以管理爬虫行为。

提供预写模板和理想响应的提示库

预写模板和理想响应：商务部提供的提示库包含预先编写好的模板和理想响应，用于训练模型与实时数据交互。
与生成式AI应用程序开发者的合作：与AI开发者合作，以确保权威数据被优先考虑，提高元数据和数据可访问性。

【目录】

首席数据官的信息

摘要

第一部分：背景

美国商务部及其开放数据资产

人工智能与生成式人工智能的发展

制定准则和最佳做法

第二部分：指导方针和最佳实践

1.0文档

1.1在文档中提供有关数据资产的全面背景

1.2最大限度地提高文件的可用性和可及性准则

2.0数据和元数据格式

2.1发布全面、结构化的数据和元数据

2.2最大限度地提高数据和元数据的可用性和可访问性准则

3.0数据存储与传播

3.1以一致的格式传播开放数据准则

3.2将开放数据存储在易于检索的位置

4.0数据许可和使用

4.1以可理解和可接受的格式发布可理解的开放数据权利和许可指导原则

4.2协同开发和更新数据许可和使用政策

5.0数据质量和完整性

5.1为高质量的数据检索准备开放数据

5.2持续评估公开数据的准确性

未来工作

结论

附录

A1.词汇表和附加背景信息

A2.RFI受访者、人工智能和开放政府数据资产工作组以及人工智能就绪数据研讨会经常推荐的技术

A3.Schema.org、Croissant和hug Face的交互作用

上述资料原文及机器翻译已上传知识星球

长按识别下面的二维码可加入小编知识星球

里面有万余篇资料可供下载

越早加入越便宜

续费五折优惠

【资料】生成式人工智能和开放数据：指南和最佳实践

原文始发于微信公众号（丁爸情报分析师的工具箱）：【资料】生成式人工智能和开放数据：指南和最佳实践

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【资料】生成式人工智能和开放数据：指南和最佳实践

文本要点及解释

开源情报技巧：解构环境犯罪背后的金融网络

美国议员批评英国对苹果的后门命令，并警告网络犯罪风险

TransparentTribe针对阿富汗监狱管理局的鱼叉式钓鱼邮件攻击

以色列NSO集团因攻击WhatsApp用户被判赔偿逾1.67亿美元

美国警告：黑客瞄准油气行业工业控制系统与监控数据采集系统

美政府最高层通信存档工具被黑，通信记录形同裸奔

41个国家参加北约锁盾2025网络防御演习

受无人机袭击威胁，俄罗斯 30 多个城市的移动互联网关闭

游戏公司出海数据安全的法律合规分析（东南亚篇）

美国对涉嫌网络犯罪的缅甸军阀和民兵实施制裁

发表评论

在线咨询

微信