【摘 要】 随着两化融合不断深入和工业互联的加速发展,工业领域开放互联程度不断提高。工业控制系统、生产信息系统等工业领域重要信息基础设施产生的数据潜藏着大量敏感信息,具有巨大价值,一旦发生数据安全事件将可能造成难以估量的损失。为提高工业数据安全,保障敏感信息不被泄露,本文分析了当前工业数据脱敏现状,研究提出工业数据脱敏方案,为企业保障工业数据安全提供借鉴。
【关键词】 工业数据 敏感数据 数据脱敏
1 引言
新一代信息技术与工业领域的融合发展,推动了工业数据的流通共享。但敏感的工业数据若遭到篡改、窃取等,将会威胁工业生产、社会稳定乃至国家安全。因此,迫切需要针对当前工业数据脱敏现状,研究提出工业数据脱敏方案,对工业数据进行脱敏、审计和管理,支撑构建“可识别、可防护、可处置、可管理”的工业数据安全防护体系。
2 工业数据脱敏难点
2.1 工业数据脱敏现状分析
在数据脱敏实践方面,目前国内重点行业企业已意识到工业数据安全的重要性,但在数据采集、传输、存储、处理、交换共享等环节,存在未进行有效的数据脱敏、直接使用原始敏感数据等现象。
在脱敏技术方面,工业企业使用的数据脱敏工具虽然具备一定的数据脱敏功能,但在技术细节方面仍有不足。一方面,内置的数据脱敏算法较为单一,支持的数据源类型较少,无法满足多种场景下多类型工业数据脱敏后的开发和测试使用;另一方面,数据脱敏工具在工业数据分类分级、敏感数据自动识别等方面的应用尚不成熟,脱敏算法、脱敏效率、脱敏机制等都有待提高。此外,部分数据脱敏工具不具备多维可视化功能,相关技术人员无法通过任务状态、任务进度条、脱敏报告等自动获取工业数据脱敏的即时情况。
2.2 工业数据脱敏难点分析
工业数据脱敏存在以下难点:一是工业数据种类多、格式多,导致工业数据脱敏需针对性解决海量、多源、异构等问题;二是工业数据间逻辑关系强,数据从产生到使用与产品生命周期密切相关,关联分析准确性要求较高等,增加了工业数据脱敏技术难度;三是工业数据实时性、连续性等特点,以及工业时序数据的高维度、关系依赖性强特征使得工业数据的动态脱敏难度大。
3 工业数据脱敏方案
3.1 数据脱敏业务流程
数据脱敏业务流程主要包括敏感数据梳理、敏感数据识别、脱敏算法选择、脱敏任务执行、脱敏结果输出5个步骤,如图1所示。
3.1.1 敏感数据梳理
为使工业数据能够安全共享使用,充分发挥其价值,首先需要梳理出其中的敏感数据,并进行有效脱敏后再流通共享,确保敏感数据不被泄露或篡改。
3.1.2 敏感数据识别
敏感数据识别是数据脱敏的前提和关键。本文研究提出基于机器学习的工业敏感数据识别框架,如图2所示。该识别框架通过从已标注的数据集中提取特征属性,利用机器学习的方法构建识别模型,从而达到识别未知数据集的目的。相比传统的数据识别方法而言,该识别框架可支持多种机器学习算法,具有性能卓越、兼容性强等优势。
3.1.3 脱敏算法选择
依据不同的工业数据的类型、特征及脱敏需求,选取不同的数据脱敏算法,所采用的数据脱敏算法一般包括泛化、变形、遮蔽、随机、替换、强加密和格式保留加密等。
3.1.4 脱敏任务执行
脱敏任务执行过程应支持任务的启动、暂停、中断、延续、终止等操作。
3.1.5 脱敏结果输出
依据上述脱敏流程,输出工业数据脱敏结果。
3.2 数据脱敏步骤
基于工业数据具有实时产生及动态增加等特征,相较于传统的数据脱敏技术而言,批量数据脱敏技术可支持多种类型数据库,且能一次性轻量级处理数据,更能满足工业数据脱敏需求。因此,本文选择Sqoop技术对工业数据进行脱敏处理。具体脱敏流程可分为3个步骤,如图3所示。
(1)数据抽取:工业数据可利用Sqoop技术从Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等常用数据库,TimescaleDB、KairosDB等时序数据库,以及文件、FTP等接口进行抽取。数据抽取过程可保证原始数据的完整性,还可保证数据之间的逻辑关系完整。
(2)数据脱敏:通过数据脱敏算法库中的脱敏算法实现对敏感数据的转换,在脱敏过程中要保持数据的关联性和完整性,确保数据在同一系统中的一致性。
(3)数据分发:工业数据脱敏后,通过数据库、文件、FTP等接口进行分发。
3.3 数据脱敏规则
数据脱敏规则主要包括可恢复规则和不可恢复规则。可恢复规则是指可通过某种方式恢复原始数据的规则,如各类加解密规则。不可恢复规则是指使用任何方法都无法恢复原始数据的规则。对于工业数据而言,需要从数据的重要程度、用途、影响范围等多种维度综合确定数据脱敏规则。
3.4 数据脱敏系统
3.4.1 数据脱敏系统总体架构
工业数据脱敏系统通过采集SCADA、PLC、DCS、ERP等系统,以及工业主机、数据库等软硬件设备的数据,经过数据清洗、转换等预处理过程,利用敏感数据识别与数据脱敏引擎实现对敏感数据的深度分析和脱敏处理。该系统通过设置脱敏算法选择和脱敏任务执行子模块,可以实现灵活配置的目的。无论是针对已有还是新上的工业数据脱敏业务,该系统都能提供一套合适的数据脱敏方案。
3.4.2 数据脱敏系统功能
数据脱敏系统功能包括敏感数据梳理、敏感数据识别、脱敏算法选择、脱敏任务执行及安全管理5个模块功能,如图4所示。
(1)敏感数据梳理
数据脱敏系统应内置完善的敏感数据特征库,支持包括
Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等主流数据库、TimescaleDB、KairosDB等时序数据库的接入,并可支持自定义数据库类型。
(2)敏感数据识别
数据脱敏系统应支持敏感数据的自动发现和识别,并且应配置多种识别策略。
(3)脱敏算法选择
数据脱敏系统应支持多种脱敏算法并应具备完善的脱敏规则,以实现对不同业务系统、不同数据库的脱敏操作。数据脱敏系统应设置专门的脱敏算法管理模块,内置包括数据替换、泛化、有损、混洗等常用的数据脱敏算法,基于机器学习、神经网络等方法的智能化脱敏算法,以及自定义脱敏算法,便于新业务应用或系统升级。此外,数据脱敏系统还应具备相对独立的脱敏规则管理模块,包括可恢复性规则和不可恢复性规则等。
(4)脱敏任务执行
数据脱敏系统应具备完善的任务调度功能,包括状态监控、调试配置、参数管理、进度执行、时间调用、命令行调用等。
(5)安全管理
数据脱敏系统应具备完善的安全管理模块,包括系统安全管理、用户权限管理和安全审计等。
4 结语
工业数据脱敏技术是数据脱敏与制造业相结合的技术产物,是工业企业、平台企业等保护工业数据安全的重要技术手段。工业数据不仅包含工业生产图纸、机理模型文件、指令代码等,还包括大量的时序数据。如何面向工业时序数据进行脱敏处理成为工业数据脱敏技术须解决的难题。期待在不远的将来,工业数据脱敏技术在现有工业数据脱敏方案的基础上,可实现针对性更强、扩展性更好的功能。
(原载于《保密科学技术》2021年4月刊)