人工智能指的是计算代理的开发,这些代理可以执行与人类智能相关的任务,包括语音识别、视觉感知和一般问题解决,其发展高度依赖数据的流通和使用,例如在数据收集、数据准备、模型开发和部署等重要环节均需要利用数据进行训练、测试以及评估等。伴随自然语言处理、搜索引擎、智能生成应用等人工智能技术和产品在日常生活中的深度融合与广泛应用,数据使用规模增长,流动性增强,暴露面增多,由此带来的数据泄露、数据被盗用或数据投毒等安全风险值得进一步关注。目前,美国、英国、欧盟、新加坡等国家和地区已通过发布国家战略、行政命令、规范指南和研究报告等手段,对人工智能技术和产品在实际应用中涉及的数据安全问题进行规制,以控制和减轻人工智能技术的应用所带来的数据安全风险。
本文旨在探讨人工智能面临的数据安全风险,梳理和分析国外人工智能数据安全规制现状并有针对性地提出我国人工智能的发展路径。
人工智能面临的数据安全风险
技术脆弱性容易导致数据泄露或被盗用
人工智能技术自身的脆弱性和复杂性等特点容易造成数据泄露或被盗用。一方面,深度学习、大模型等人工智能技术本身仍处在发展阶段,容易出现重要结构丢失等问题,引发数据泄露。例如,2023年12月,DeepMind的研究人员联合美国华盛顿大学、康奈尔大学等高校研究人员利用分歧攻击等方法,发现了ChatGPT的数据泄露漏洞,利用该漏洞可以提取出大约1GB的训练数据。另一方面,人工智能在开发和应用过程中需要大量接入应用程序接口(ApplicationProgrammingInterface,API),API自身的漏洞和安全隐患以及不同API之间不同的数据安全防护能力和要求进一步提升了数据在收集、流动和处理过程中的安全防护要求,也从侧面加剧了数据泄露和被盗用的风险。
人工智能技术实际应用过程中容易过度收集数据
人工智能技术从本质上是一种通过数据驱动的方法,因此允许人工智能系统在日常应用场景中访问、收集和处理个人信息等数据是合理且不可避免的。然而,目前智能音箱、智能摄像头、智能门锁、智能网联汽车等智能设备广泛应用于家庭、交通、办公、娱乐等场所,容易出现相关设备在未经授权或超出授权的情况下收集个人信息、超出业务功能实现所需数据范围收集信息等问题,可能违反个人信息保护相关法律对于数据收集合法、正当、必要和最小化等要求,进而引发识别和暴露数据主体行为的风险,损害数据主体的相关权益。
算法模型透明度有待加强
在没有用户参与的情况下,通过自动化手段使用事实数据或经过推断做出决策的过程被称为自动化决策(AutomatedDecisionMaking,ADM),这是人工智能技术应用的重要场景之一。例如,日常购物、新闻和短视频浏览、广告推送等很多活动都涉及到通过特定算法对用户的日常行为、偏好、个人习惯、经济状况等信息进行收集、整合、处理分析、评估和判断,对人们的日常生活乃至社会发展产生了很大的影响。根据大多数国家和地区的数据安全立法和建议,自动化决策应该是透明、可解释、不带有偏见和歧视的,但实际情况却不容乐观。伴随着人工智能技术的不断发展,特别是近十年来深度学习技术、大模型技术等普遍呈现“黑箱”特征,并且通过在网络中使用复杂的非线性关联和连接,算法的复杂化发展造成了目前自动化决策容易缺乏透明性和可解释性,进一步增加了个人隐私泄露的风险和侵犯个人合法权益等问题。
训练数据遭受攻击后可能引起决策失误
准确性是人工智能系统的核心要求之一。人工智能算法做出的不准确的决策可能会导致有害于用户乃至社会的严重后果。例如,对交通情况的不准确判断可能导致交通拥堵甚至车祸发生;对健康状况的不准确判断可能影响用户的就诊时机。人工智能的决策失误往往是因为训练数据遭受了“投毒”“欺骗”等外部攻击,例如数据投毒通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性,进而导致训练的算法模型决策出现偏差,造成相关数据被伪造或者被篡改,或者潜在攻击者通过向计算模型注入无效数据,利用潜在漏洞破坏计算结果或者引导输出隐私信息等,潜在危害很大。
国外人工智能数据安全规制现状
美国:多方参与,协同推进人工智能数据安全落地
美国白宫、联邦行政部门、科研机构等多方主体通过发布行政命令、实践指南和研究报告等方式尝试给出解决人工智能数据安全问题的路径,以维护其在人工智能领域的全球领先地位。
2023年10月30日,美国总统拜登签署颁布了《关于安全、可靠、值得信赖地开发和使用人工智能的行政命令》,该命令明确了美国政府对待人工智能的政策法制框架,涉及人工智能技术的技术研发、安全保障、全球合作等关键议题。该命令专门设置了“保护美国民众的隐私”章节,详细阐述了白宫应对人工智能数据安全问题的3条措施。一是针对人工智能技术在实际应用中对个人隐私的威胁,要支持并加快加密技术等隐私保护技术的研发和资金投入,保护用于人工智能的训练数据以及普通用户的个人信息的安全。二是推动开展机构评估工作,评估各机构如何收集和使用商业可用信息,包括从数据代理那里获得的信息,并加强对联邦机构的指导。三是制定实施指导方针,以评估人工智能技术中使用到的隐私保护技术的有效性。
在此基础上,2024年4月,美国国家安全局发布了《安全部署人工智能系统:部署安全、弹性人工智能系统的最佳实践》,该实践建议采取强密码策略、内部网络分区、访问控制和加密。另外,还可以使用数据伪装等方法来混淆数据,使得攻击者无法对数据进行分析从而防止针对人工智能系统中的数据进行外部或内部攻击。
此外,美国斯坦福大学也在同一时期发布了《反思人工智能时代的隐私问题——针对“以数据为中心”世界的政策建议》白皮书,该白皮书谈到了3项人工智能数据安全保护措施。一是进一步调整数据收集规则,将数据收集的“默认状态”从“统一收集”改变为“不同意收集”,充分实现数据收集最小化。二是持续关注人工智能下数据全生命周期的安全,增强数据处理活动的透明度,确保数据从收集、存储到加工、处理等各个环节的安全。三是优化个人信息的管理模式,持续更新技术保护手段并建立新的数据治理机制。
英国:包容审慎,温和规范人工智能发展与数据流通共享
在人工智能数据安全规制方面,英国政府一方面提出“基于原则”的人工智能治理方法,兼顾“监管”与“创新”,为行业提供了具备确定性、一致性的监管方法。另一方面不断促进数据流动与共享,持续赋能人工智能健康发展。
在治理方面,2023年3月,英国政府发布了《促进创新的人工智能监管方法》。该方法明确提出,人工智能在使用过程中存在隐私和代理风险,具体来说就是家中连接的设备可能会不断收集数据,包括对话,这可能会对个人的家庭生活进行近乎完整的描述。访问这些数据的各方主体越多,隐私风险就越大。对此,可以通过利用“适当的透明度和可解释性”原则来加强用户和监管人员对于人工智能系统实际运行情况的了解,从而解决相应的隐私风险。
在促进数据流通共享方面,2023年12月,英国《数据保护和数字信息法案》在上议院进行了二读,该法案提到,要减少数据流动的障碍,并与提供足够数据保护能力水平的国家(如美国、阿联酋等)建立“数据桥梁”,促进数据流通,从而从侧面间接推动人工智能的发展。
在技术方面,2022年9月7日,英国信息专员办公室发布了《匿名化、假名化及隐私增强技术指南草案》,介绍了隐私增强技术的基本概念、传统隐私增强技术和新型隐私增强技术的类型定义和应用场景,并通过3项具体场景给出了隐私增强技术的应用指南。
欧盟:严格规制,有效防范人工智能数据安全风险
欧盟在人工智能数据安全规制方面保持了一贯的强势姿态,通过禁止或限制高风险应用来监管人工智能,从而解决或缓解正在面临的数据安全风险。2024年5月,欧洲理事会正式批准《人工智能法案》。作为专门针对人工智能的综合性立法,该法案明确提出了3项保护人权和隐私的具体措施。一是透明度和可解释性。要求人工智能系统的开发者提供关于算法工作原理的足够信息,确保用户和系统之间的互动是透明的。这一举措有助于用户理解系统的决策过程,从而避免因为不可预测的行为而侵犯人权。二是数据保护。强化了数据保护要求,包括对个人数据的收集、处理和使用进行严格监管。开发者必须遵循数据最小化原则,只收集完成任务所必需的数据,并采取措施保护数据的机密性、完整性和可用性。三是禁止滥用。明确禁止利用人工智能系统侵犯人权和隐私的行为,如歧视、侵犯隐私、操纵个人数据等。违反者将面临严厉的法律制裁。
除此之外,《通用数据保护条例》《算法问责及透明度监管框架》以及《数字服务法案》等已经颁布和生效的法律规范也不同程度涉及了算法解释权的设立、算法透明度和可解释性的监管以及算法透明审计等内容,进一步提升了人工智能数据安全。
新加坡:灵活开放,明确人工智能数据安全原则和方向
新加坡政府对人工智能发展的监管始终秉持开放和学习的态度。2018年,新加坡金融管理局发布了《促进新加坡金融业公平、道德、可问责和透明地使用人工智能和数据分析的原则》,对金融机构合理、准确使用人工智能和数据分析工具并建立有效的问责机制等进行指引。
2023年12月,新加坡发布了《国家人工智能战略2.0》,明确提出在合成数据生成、数据注释、联邦学习和同态加密等领域加强隐私增强技术的研发,并且明确将为企业和个人提供安全工具包,以应对人工智能安全风险。
2024年3月,新加坡个人数据保护委员会发布了《关于在人工智能推荐和决策系统中使用个人数据的咨询指南》。该指南明确了人工智能系统在数据收集和准备、模型开发和部署等环节对个人信息的保护要求,明确数据收集最小化、数据匿名化等注意事项,同时给予了相关服务提供商最佳案例指导,为实践工作有序开展提供参考。
对我国的启示及借鉴
为充分解决人工智能数据安全风险,促进人工智能技术健康发展,要从强化顶层设计、强化安全监管、加快技术创新等方面着手,构建全方位、多元化的解决方案。
强化顶层设计
全面的顶层设计是支撑人工智能数据安全的基础。目前,国内针对算法和生成式人工智能已经出台了《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等法律规范,明确提出了人工智能服务提供者应当建立数据安全和个人信息保护管理制度并采取技术措施,实施算法备案、分类分级管理等。面对人工智能数据安全监管的顶层设计已初步构建,但与美欧等发达国家和地区覆盖多行业多领域的监管策略相比,仍存在重点行业重点领域顶层设计缺失等问题。为进一步强化人工智能数据安全顶层设计,建议尽快制定医疗、教育、通信、新能源、智能网联汽车等人工智能技术普遍应用的重点行业重点领域人工智能数据安全规范指引,合理扩大监管范围,进一步明确相关行业主体在人工智能数据安全方面的责任和义务,规范技术应用和管理措施,确定违规罚则,确保相关行业人工智能数据安全。
加强实践指引
明晰的实践指引是确保人工智能数据安全的关键核心。近年来,欧美等发达国家和地区均发布了人工智能的实践或实践指引,用以引导行业企业合理处理人工智能数据安全风险,提升安全能力。目前为止,国内针对人工智能数据安全的实践指引较为缺乏,企业经常面临“如何做”“做到什么程度”的困惑。为解决上述问题,一方面,建议重点行业重点领域适时发布人工智能数据安全行业实践指引,明确本行业本领域人工智能数据安全防护重点难点,指导企业建立健全人工智能数据安全技术和管理体系,帮助企业快速有效处理数据安全风险。另一方面,建议适时开展行业人工智能数据安全典型实践遴选工作,充分挖掘典型经验做法,树立安全防护标杆,有效促进相关从业人员切实提升数据安全防护能力。
加快技术创新
有效的安全技术手段是实现人工智能数据安全的重要保障。英国、新加坡、欧盟等国家和地区均提出了加强安全多方计算、联邦学习等隐私增强技术的研究和应用,以应对人工智能数据安全风险,加强数据安全防护。目前国内在类似技术的研究和应用方面仍处在起步阶段,相关技术发展时间较短,与国外相比仍有一定差距。因此,应当尽快推动隐私计算、合成数据生成、数据质量管理等与人工智能数据安全紧密相关的前沿技术稳定发展,明晰技术应用范式,进一步优化技术架构,提升技术性能和效率。推动相关技术在重点行业应用,引导相关技术落地实践。另外,应当进一步探索和开发人工智能数据安全保障框架,明确数据安全保障机制、流程和达到的效果,进一步指导安全技术应用实施。
总结与展望
人工智能作为新兴领域正处在快速发展时期,对于社会生活产生了显著影响。例如,ChatGPT、文心一言等生成式人工智能不仅深度赋能政务、金融、交通、购物等生活的方方面面,成为日常生活的得力助手,并且有力推动了数据、算力、算网等深度融合,赋能新质生产力的发展。然而,人工智能技术的广泛应用所带来的数据泄露、被盗用、被篡改等问题也日益严重。我国作为人工智能和数据安全领域的先行国家,要始终秉持既严肃认真又审慎包容的态度,发挥相关优势,在顶层设计、实践指引、技术创新等方面不断发力,有效提升人工智能数据安全保护能力,更好推动社会高质量发展。
扫一扫在手机上查看当前页面