AI Safety与AI Security：探索共同点和差异（上）

2024年4月19日23:33:01评论62 views字数 8993阅读29分58秒阅读模式

AI safety和AI security是在人工智能系统的开发和部署中扮演着独特但相互关联角色的基本方面。 AI security主要围绕着保护系统以确保机密性、完整性和可用性，包括防范未经授权访问、数据泄露以及与C.I.A.三元原则一致的干扰。

另一方面，AI safety涉及更广泛的考虑，涉及人类福祉、伦理影响和社会价值观等问题，超越了技术安全措施的限制。

CSA 人工智能安全倡议（AI Safety Initiative）的建立标志着解决围绕AI Safety存在的多方面挑战迈出了重要一步。尽管最初重点放在通过即将推出的成果来关注AI security上，但 CSA人工智能安全倡议（AI Safety Initiative）的长期目标是同时涵盖 AI safety和AI security。

本文针对safety和AI security的差异化进行了阐述。通过众多对话，明显地看到澄清这些领域之间微妙差异对于促进人工智能社区内形成深入理解至关重要。

AI Security：

人工智能生态系统的中央情报局

AI security解决了与受损的人工智能系统相关的潜在风险。为了解决这些风险，C.I.A.三元概念——机密性、完整性和可用性——作为AI security的基础框架。

1.1

AI生态系统中的保密性

保密性指的是保护敏感信息免受未经授权的访问或披露。在人工智能生态系统中，保密性涵盖了各个方面，包括数据隐私、模型安全以及防止信息泄漏。

数据隐私

人工智能系统在训练和推理过程中严重依赖数据。这些数据通常包括个人信息、敏感商业数据或其他机密信息。确保这些数据的保密性对于防止隐私泄露、身份盗窃或滥用敏感信息至关重要。

差分隐私、安全多方计算和同态加密等技术可用于保护训练数据的隐私性。此外，强大的访问控制机制和安全的数据存储实践对于在整个生命周期中维护数据的保密性至关重要。

模型安全

AI 模型本身可以被视为知识产权，可能包含敏感信息或专有算法。保护这些模型免受未授权访问、盗窃或逆向工程是维护 AI 生态系统机密性的关键。

可以采用模型混淆、水印技术和安全隔离区域（如 GPU 中的可信执行环境）等技术来保护 AI 模型免受未授权访问或篡改。此外，安全部署和执行环境以及强大的访问控制机制对于维护模型安全至关重要。

防止信息泄漏

人工智能系统可能会通过其输出或交互无意中泄露敏感信息。例如，训练在敏感数据上的语言模型可能会在生成的文本中无意中透露机密信息，或者计算机视觉模型可能会无意间从图像中暴露个人信息。

诸如输出过滤、差分隐私和安全多方计算等技术可以帮助降低人工智能系统信息泄漏的风险。此外，强大的监控和审计机制可以帮助检测和减少潜在的信息泄漏。

1.2

AI生态系统中的完整性

完整性指的是AI生态系统中数据、模型和输出的可信度和准确性。确保完整性对于维护AI系统的可靠性和信任度至关重要，同时可以预防与受损或被篡改的AI组件相关的潜在风险。

数据完整性

AI系统在训练和推理过程中严重依赖数据的质量和准确性。数据的损坏、篡改或中毒可能导致错误或有偏见的AI输出，从而破坏整个AI生态系统的完整性。

诸如数据采集同意管理跟踪、安全数据来源、数据验证和完整性检查机制等技术可以帮助确保数据在其生命周期内的完整性。此外，强大的访问控制和审计机制可以帮助检测和防止对训练数据的未授权修改或篡改。

模型完整性

AI模型本身可能会受到各种形式的攻击，例如对抗性示例、模型提取或模型反演攻击。这些攻击可能会损害AI模型的完整性，导致错误输出或敏感信息泄漏。

对抗性训练、模型水印和安全隔离等技术可以帮助减轻模型完整性攻击的风险。此外，强大的监控和审计机制可以帮助检测和减轻潜在的模型完整性违规行为。

输出完整性

即使AI生态系统中的数据和模型是安全的，AI系统生成的输出仍可能受到损害或篡改。这可能导致下游后果，如误传信息、基于错误输出的决策制定，或注入恶意内容。

输出验证和调节、安全溯源跟踪和数字签名等技术可以帮助确保AI输出的完整性。此外，强大的监控和审计机制可以帮助检测和减轻潜在的输出完整性违规行为。

1.3

AI生态系统中的可用性

可用性指的是在AI生态系统内可靠且及时地访问AI系统、数据和资源。确保可用性对于维护AI系统的持续运行和功能性至关重要，同时可以预防与系统停机或拒绝服务攻击相关的潜在风险。

系统可用性

AI系统必须在需要时保障授权用户和流程的可用和可访问。尤其是中断或停机会产生严重后果的关键应用领域，如医疗保健、交通运输或金融系统。

负载均衡、冗余和故障转移机制等技术可以帮助确保AI系统的可用性。此外，强大的监控和事件响应流程可以帮助检测和减轻潜在的可用性问题。

数据可用性

AI系统严重依赖训练和推理数据的可用性。数据不可用或无法访问可能严重影响AI系统的性能和功能。

数据复制、安全备份和分布式数据存储等技术可以帮助确保AI生态系统内数据的可用性。此外，强大的访问控制和数据恢复机制可以帮助在面临潜在的中断或攻击时维持数据的可用性。

资源可用性

资源可用性是构建成功AI系统的绝对基础。AI模型（特别是深度学习）对专用硬件的需求需要访问GPU、TPU或类似的高性能计算资源。同时，用于训练和优化AI模型的大型数据集需要大量的存储容量，并提供快速数据检索以保持高效的工作流程。云计算在这个领域提供了灵活性，能够扩展或缩减资源以满足AI工作负载经常波动的需求。

资源池、负载均衡和自动扩展等技术可以最大程度地提高了现有硬件的效率和可靠性，而积极的监控和容量规划可以确保未来资源需求被预测和解决。忽视资源可用性的任何方面都会使AI计划陷入危机；计算限制会增加模型训练时间，系统超载会降低准确性，当AI系统无法访问必要资源时，会导致增长停滞。通过战略性地资源管控，组织可以使其AI系统发挥最大潜力，最大化创新，并释放AI系统的真正价值。

AI Safety的一些热门话题

与相对更为成熟和明确定义的术语和分类相比，AI Safety在过去相对较少被探讨，缺乏共同的定义、分类或术语。要全面理解其复杂性，我们必须从审视几个关键话题开始。因此，第三部分将深入探讨当代文献中关于AI safety的一些热门话题。

2.1

专家提出的担忧

像Geoffrey Hinton这样的知名人士已经强调了人工智能系统的存在风险、意外后果、价值一致性挑战、缺乏透明度以及偏见等问题。这些问题突显了在AI发展中解决安全方面问题的重要性。

人工智能带来的生存风险杰弗里-辛顿（Geoffrey Hinton）等专家提出的主要担忧之一是，人工智能系统可能会给人类带来生存风险。超级智能人工智能超越人类智能并以危害人类生存的方式行事的概念一直是人工智能界争论的话题。要应对这些生存风险，就必须认真考虑人工智能发展的设计、控制机制和伦理框架

意外后果

另一个值得关注的重大问题是，部署人工智能系统可能会产生意想不到的后果。随着人工智能算法变得越来越复杂和自主，有可能出现意想不到的结果，从而产生深远的影响。开发人员必须通过严格的测试、验证过程以及在现实世界场景中对人工智能系统的持续监控来预测和减轻这些意外后果。

价值一致性挑战

确保AI系统与人类价值观和伦理原则保持一致是AI发展领域面临的关键挑战。价值一致性问题涉及AI系统能够做出符合社会规范、道德标准和人类偏好的决策。解决价值一致性挑战需要AI研究人员、伦理学家、政策制定者和利益相关者之间的多学科合作，以建立清晰的伦理AI设计准则和标准。

缺乏透明度

AI算法和决策过程缺乏透明性一直是专家和普通公众关注的问题。操作没有明确解释或问责机制的黑盒算法引发了人们对AI系统中公平性、问责制和信任的质疑。提高AI发展的透明度包括推广可解释的AI技术、对数据来源开放访问以及算法审计实践，以确保在决策过程中的问责制和公平性。

AI系统中的偏见

AI系统中的偏见是一个普遍存在的问题，可能在医疗保健、金融、刑事司法和招聘等各个领域中延续歧视、不平等和不公正。在训练数据、算法设计或决策过程中存在偏见可能导致不公平的结果，并加强现有社会不平等。减轻AI系统中的偏见需要采取积极措施，如收集多样化数据集、偏见检测工具、关注公平性的算法以及持续监测来识别和解决与偏见相关的问题。

2.2

一些实例

招聘中的算法偏见、面部识别错误以及涉及自动驾驶车辆的事故等真实世界案例突显了积极应对AI safety挑战的迫切需要。这些例子揭示了与人工智能技术相关的潜在风险，并强调了采取措施确保负责任和道德人工智能部署重要性。

招聘中的算法偏见

招聘过程中存在的算法偏见引发了人们对招聘实践中的公平性和平等性的关注。用于筛选求职者的AI系统可能会无意间延续历史数据中存在的偏见，导致歧视性结果。解决这个问题需要开发没有偏见的算法，确保多样化培训数据集，并实施透明度措施来减轻偏见并促进招聘过程中机会均等。

面部识别错误

由于面部识别技术出现误认和不准确情况，特别是涉及隐私和公民自由的问题而受到严格审查。面部识别系统误认可能带来严重后果，包括错误逮捕或侵犯个人权利。为解决这一挑战，需要提高面部识别算法精度、对数据使用进行严格监管以及制定指导原则管理面部识别技术的应用。

涉及自动驾驶车辆事故

涉及自动驾驶车辆事故突显了围绕AI驱动交通系统展开争论时所关注到的安全问题。自主行驶算法复杂性以及系统故障的可能性可能给乘客和行人带来风险。确保自动驾驶汽车安全需要进行严格测试、验证流程，并建立监管框架以最小化事故并增强公众对自主行驶技术信任感。

2.3

过度信任中央集权的风险

人工智能领域虽然有着巨大的潜在好处，但也变得高度集中。少数几家大型科技公司对先进人工智能模型的开发和部署拥有重要控制权。尽管这些公司已经采取了措施来解决公平性和道德考量问题，但过度信任它们自我调节可能是不明智的。

历史上充满了强大实体并非总是为社会利益行事的例子。建立强有力的监管框架和监督机制以确保安全和合乎道德地使用人工智能的必要性正变得越来越明显。人工智能开发的去中心化，有可能通过开源计划和合作研究社区来实现，这有助于降低与集中式权力结构相关的风险。

去中心化的诱惑在向我们招手，它提供了一种打破中心化权力结构束缚的方法。区块链技术具有分布式分类账和透明度原则，可为去中心化人工智能生态系统的发展提供支持。去中心化自治组织（DAOs）可以促进合作研究社区和开源计划，削弱任何单一实体的影响力。通过接受去中心化，我们或许有可能将人工智能的发展转向更加民主的模式，优先考虑公共利益，并保护人工智能免受不受控制的潜在滥用。

2.4

AI一致性：问题的核心

AI safety的核心挑战在于一致性问题。我们如何确保日益强大的AI系统中嵌入的目标和价值与人类最大利益相一致？即使是意外的不一致也可能带来灾难性后果。如果我们承认在道德原则上缺乏全球性的绝对共识，这项任务的复杂性就会变得难以承受。不同的道德哲学、文化差异和相互竞争的政治意识形态，使得创建完全一致的人工智能系统成为一项艰巨的任务，甚至是不可能完成的任务。

在这种情况下，探索去中心化的方法可能很有价值。也许基于区块链的共识机制可以帮助逐渐形成人工智能治理的集体价值观。由不同观点驱动的去中心化社区可能会更好地驾驭人工智能协调的复杂性，降低由一个小团体甚至个人来定义驱动强大人工智能系统的伦理框架所带来的风险。

2.5

AI与核武器类比

埃隆·马斯克在2018年对AI的危险性超过核武器的警告突显了这种强大技术固有潜在风险。专家们已经对AI和核武器技术进行了比较。两者都具有巨大的潜在好处，但如果被滥用，也会带来毁灭性后果。核扩散的历史作为对强大技术不稳定影响的鲜明提醒。

虽然AI与核武器相比有局限性，但它有助于强调围绕这项技术开展国际合作和建立强有力的治理框架的迫切需要。要确保人工智能始终是一股善的力量，就需要全球合作，防止其被用于战争或其他恶意目的。

AI和核武器技术之间的一个关键区别在于AI的自我复制潜力。如果不加控制，强大的AI系统可能会以难以管理或控制的方式传播。这种不受控制的传播给负责任的AI发展增加了一层独特的紧迫性。

2.6

机器人、主体行为和存在风险

“机器人”或具有主体性的AI的概念——即能够自主设定目标并采取行动实现这些目标的系统——引发了关于自主权和监督的深刻问题。随着AI的进步，具备自主学习和适应能力的系统，确保这些系统始终受限于安全协议并在适当的人类监督下运行显得至关重要。假设中的“回形针最大化器”是对风险的鲜明提醒：一个被赋予最大化回形针生产任务的AI可能会不懈地追求这一目标，最终将所有可用资源（包括对人类至关重要的资源）转化为回形针。

OpenAI与Q*算法的合作加剧了人们对AGI（人工通用智能）和主体行为发展的担忧。该算法整合了规划、反思、基于奖励函数的过程选择和自主性，表明AI系统正朝着不仅仅是对环境做出反应的方向发展。它们可以主动制定计划并调整自己的行为，潜在地模糊了人类控制的界限。埃隆·马斯克最近对OpenAI提起的诉讼进一步突显了这些担忧的严重性，引发了关于OpenAI是否已经拥有可能带来未知风险的AGI能力的问题。

重点必须转向在AI开发的早期阶段开发强大的安全机制和监督框架。这应包括能够中断潜在有害的AI行为，并将对人类价值观的深入理解融入这些新兴系统中。

OpenAI最近发布了AI准备框架，旨在增强前沿AI模型的安全性。这一框架涉及各种安全和政策团队合作，以应对与人工智能相关的风险。安全系统团队专注于防止当前模型的滥用，如ChatGPT，而SuperAlign则专注于确保未来超智能模型的安全。准备小组强调以科学和事实为基础的准备，通过严格的评估评估新出现的风险，并超越假设情景，转向数据驱动的预测。该框架的关键要素包括跟踪灾难性风险水平，寻找未知风险，建立安全基线，以及主动改进技术和程序安全基础设施，确保只有风险水平可接受的模型才能进一步发展。此外，透明的研究实践和整个人工智能界的开放合作对于应对这些复杂的挑战至关重要。如果做不到这一点，就有可能将控制权拱手让给越来越强大的人工智能系统，而这些系统所追求的目标可能与我们自身的福祉相冲突。

2.7

开放式与封闭式人工智能模型

在高级人工智能模型发布的开源与闭源方法之间做出选择，是一个复杂的两难选择。一方面，开源模型促进了透明度、协作和快速创新。更高的可访问性使研究人员和开发人员能够识别偏差、改进技术，并为不同领域的有益用例量身定制。另一方面，封闭式模型提供了对潜在滥用更大的控制权。通过限制访问权限，开发者和公司可以更好地监控使用情况、实施保障措施，并有可能降低人工智能被恶意行为者武器化的风险。然而，如果知识和资源没有共享，则封闭式方法也可能会减缓进展并在人工智能研究社区内创建障碍。

最终，在混合模型或分层访问系统中可能存在平衡解决方案。这些将鼓励负责任的研究与开发，并根据需求、信誉以及与特定项目相关联的潜在风险允许各种级别的访问权限。在负责任地推动人工智能发展过程中找到公开性与安全性之间正确平衡仍然是一个持续挑战。

2.8

人工智能生态系统中的保密性

本小节列举了前沿模型中解决AI safety问题的三种突出新方法。这是一个快速变化的领域，新的创新将不断涌现。以下仅为例子：

Meta JEPA方法

Meta JEPA方法，特别是通过V-JEPA和I-JEPA模型，以多种方式增强了AI safety。首先，I-JEPA模型对语义特征学习和内部世界模型的强调增强了系统对复杂数据结构的理解，增强了系统检测数据中异常或恶意模式的能力。此外，I-JEPA模型的计算效率确保了可以实施安全措施而不会带来显著的性能开销，简化了安全协议的无缝集成。最后，通过将I-JEPA模型开源，Meta鼓励AI社区内的合作，进一步加强安全措施，并共享有效保护AI系统的最佳实践。

Geoffrey Hinton的Forward-Forward算法

由Geoffrey Hinton开创的Forward-Forward算法代表了与传统反向传播方法的重要分歧，提供了一种对神经网络学习的新方法，对加强AI安全措施具有重要意义。这种创新技术通过用两次前向传递（一次处理真实或正数据，另一次包含由网络本身内部生成的负数据）取代传统的前向和后向传递，简化了学习过程。网络中的每一层都有自己的目标函数，对正向数据强调高优，对负向数据强调低优。

这种方法不仅通过消除对每一层内部运作的精确知识的需求简化了学习，而且在缺乏详细信息的情况下增强了适应性，从而减轻了与不完全理解相关的潜在风险。此外，该算法的效率体现在它能够简化正向传递中的学习，并通过网络进行视频管道处理，而无需存储活动或传播导数，从而降低了计算开销。

此外，在无法获得完美的前向传递知识的情况下，前向算法作为强化学习的可行替代方案，扩展了人工智能训练方法的工具箱。虽然该算法在某些任务上的泛化效果可能不如反向传播算法，但它能够提供对生物学上可信的学习机制的见解，这为推进AI safety方面的考虑带来了希望。通过提供高效训练模型的替代方法，Forward-Forward 算法有助于建立一个更强大的框架，确保人工智能系统在各种应用中的安全性和可靠性。

机械可解释性

AI中的机械可解释性涵盖了理解机器学习系统如何做出决策以及设计具有人类可理解决策的系统，这是AI safety的关键方面。这一概念至关重要，因为它赋予了人类操作员验证AI系统按照预期运行的能力，并为意外行为提供解释。

随着机器学习系统在各个领域越来越多地用于自动决策，可解释性的缺失构成了一个重大挑战，特别是在医学诊断、招聘流程和自动驾驶等高风险环境中。现代机器学习系统的复杂性使得对其决策过程进行分析和理解变得困难，引发了对问责和透明性的担忧。通过增强AI中的可解释性，人类操作员可以更有效地监督和验证AI系统的决策，确保与伦理标准和期望结果的一致性。这种透明性不仅培养了对AI技术的信任，还有助于迅速识别和减轻潜在的偏见或错误，从而通过促进负责任地使用人工智能系统来加强AI safety。

2.9

前沿模型论坛

前沿模型论坛（Frontier Model Forum，FMF）是由Anthropic、Google、Microsoft和OpenAI共同努力建立的协作项目，旨在确保安全、负责任地推进人工智能前沿模型的发展。这个由行业领导的倡议旨在推动AI safety研究向前发展，为负责任地开发和部署前沿模型探索最佳实践，并与政策制定者和学术界建立伙伴关系，传播关于信任和安全风险的见解。此外，该论坛致力于支持利用AI解决气候变化减缓、早期癌症检测和网络安全等紧迫社会挑战的努力。

论坛通过成立咨询委员会来指导其战略和优先事项，促进有关人工智能安全和责任的跨组织对话和倡议。通过制定标准化的最佳实践、促进跨部门合作以及与利益相关方接触等努力，FMF旨在通过倡导负责任的人工智能发展和应对与先进人工智能技术相关的潜在风险，在加强人工智能安全方面发挥关键作用。虽然FMF的长期成效还有待观察，但其合作方法和促进负责任的人工智能发展的承诺，为人工智能走向更安全、更可信的未来提供了一条充满希望的道路。

2.10

地缘政治竞争

在全球舞台上争夺人工智能主导地位的激烈竞争增加了一层紧迫性，可能会危险地盖过安全和道德。各国在保持或获得技术和战略优势的驱动下，可能会优先考虑快速发展。这种压力可能会导致在开发和测试阶段走捷径，导致过早部署缺乏足够安全措施或未经充分审查潜在偏见的人工智能系统。这种仓促开发的风险很大。未经充分测试的人工智能可能会表现出意想不到的有害行为，造成从社会混乱到基础设施瘫痪等意想不到的后果。此外，争夺人工智能至高无上的地位可能会助长保密气氛，阻碍解决该技术复杂的伦理问题所需的国际合作。这种各自为政的做法可能会加剧风险，使预测和管理人工智能在全球范围内的深远影响变得更加困难。

2.11

人工智能在军事领域的应用

将AI整合到军事行动中变得越来越普遍，引发了人们对不同派别可能将其武器化的担忧。随着AI技术渗透到军事能力的各个方面，加剧冲突和引发战争的风险也随之增加。这些决策可能超越人类的认知能力，使得在军事环境中有效监督和监管AI的使用变得具有挑战性。这一演变强调了制定强有力的伦理框架和国际协议的必要性，以管理AI在战争中的开发、部署和利用，从而减轻与其不受控制传播相关的风险。

2.12

呼吁谨慎

业界重要人士也呼吁人工智能研究要谨慎和暂停。包括科学家和研究人员在内的 1100 多名知名人士签署了一封公开信，敦促所有人工智能实验室至少暂停六个月，以反思其工作对社会的影响。如此突出而统一的要求突出表明，人们日益认识到，不加控制的人工智能发展可能会导致意想不到的后果。最近，《时代》杂志也提到了呼吁美国政府“果断行动”，以避免来自AI的“灭绝级”威胁。这份报告是由美国国务院委托的。报告建议包括实施政策行动，如限制用于AI模型训练的过度计算能力，加强对AI芯片制造和出口的严格控制，以增强safety和security，尽管这些措施可能会对AI行业造成重大干扰。关于这些限制的必要性引发了争论，人们担心这可能会扼杀创新，巩固少数公司的权力，但也需要防止在军事应用中滥用AI，并减轻与不受控制的先进AI系统相关的灾难性风险。在监管和进步之间找到平衡对于确保未来安全和有益地使用AI技术至关重要。

由于篇幅过长，本文将分为上下两部分，明天将继续介绍AI Safety究竟是什么？AI Safety和AI Security之间的共同点/区别,带你更加深入了解AI Safety与AI Security。

文章来源：CSA官网

https://cloudsecurityalliance.org/blog/2024/03/19/ai-safety-vs-ai-security-navigating-the-commonality-and-differences

本文翻译来自AI安全工作组成员：

张坤

CSA大中华区专家

杨喜龙

CSA大中华区专家

黄家栋

CSA研究协调员

原文始发于微信公众号（国际云安全联盟CSA）：AI Safety与AI Security：探索共同点和差异（上）

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

AI Safety与AI Security：探索共同点和差异（上）

漏洞预警|多家主流蓝牙耳机曝出可被监视漏洞

印度 Max 金融公司数据泄露

韩国重拳出击！Kimsuky APT黑客团伙遭制裁，加密地址首度曝光，美日火速跟进！

澳航遭遇重大网络攻击数百万客户信息恐遭泄露

新的 FileFix 攻击可运行 JScript 并绕过 Windows MoTW 警报

澳航遭史诗级黑客入侵！百万客户信息遭泄露

俄罗斯大型国防承包商遭入侵，黑客声称海军机密文件外泄

近半数遭勒索软件攻击的企业选择支付赎金

MCP工具链首个严重漏洞？一个钓鱼网页，远程劫持开发者电脑

微软关停密码管理功能倒计时，医院勒索案已致两死——网络安全双重危机

发表评论

在线咨询

微信