通过隐写术保护云中的健康数据:一种使用神经网络和位模糊算法的表驱动盲方法

https://doi.org/10.1016/j.jnca.2023.103689获取权限和内容

摘要

由于现代网络威胁,保护云中存储的健康数据(包括DNA序列、患者信息和治疗历史)变得越来越困难。为了应对这一挑战,一种方法是使用隐写术,一种隐藏的方法敏感信息将其与其他数据合并。最近的研究探索了在DNA序列中隐藏秘密信息,但这些方法有缺点。它们要么无法从修改后的序列(称为stego DNA序列)中生成合适的覆盖物,要么导致需要添加到原始DNA序列中的数据显著增加。有些方法甚至在无意中包含了原始秘密信息或隐藏在隐秘DNA序列中,从而产生了安全风险。为了克服这些局限性,本文提出了一种表驱动的盲法隐写技术专门为存储在云中的DNA序列设计。我们提出的技术提供了卓越的嵌入能力,减少了DNA扩展,并将安全风险降至最低。该方法引入了两个独特的建议:雇佣机器学习技术用于秘密加密,并利用比特模糊增强消息保护,从而提高对网络攻击的抵抗力。此外,该方法支持隐藏各种类型的消息。与现有方法相比,该方案实现了较低的隐写扩展速率。此外,一种新引入的奇偶校验方法通过防止对隐写DNA的修改来加强安全性,例如人在中间攻击、选择隐写攻击和修改攻击。这些创新增强了系统的整体安全能力。实验结果验证了所提出方法的有效性,证明了覆盖物、医疗保健数据和DNA序列的准确无误重建。提出的技术在所有性能指标上都优于竞争方法,从而确立了其在云中保护健康数据方面的优势。

介绍

安全计算机网络的使用,包括虚拟专用网络(VPN)、强大的安全措施和分布式云服务的集成,极大地促进了医疗信息和通信技术的快速发展。云已成为未来医疗保健的基础元素,提供了增强患者护理、简化操作和推动创新的好处。每天,利用云存储的应用程序范围都在扩大,包括各种类型的数据,包括个人健康记录、临床和业务信息。其中许多数据具有私人和关键意义,例如医疗和法医记录、患者和罪犯的DNA序列(Chenthara等人,2019年,Kundalwal等人,2018年)以及患者病理数据。未经授权披露此类敏感信息可能会对个人、政府或整个社会造成不利后果。

这有时可能是一种国家安全风险,也是一种羞辱性的情况。然而,为了使用远程医疗,患者必须将病历保存在在线位置,因为医生必须能够从任何位置快速访问病历。不过,出于安全考虑,这些信息不应该提供给所有人。换句话说,许多应用程序依赖于基于云的数据的安全性。

即使加密、水印、信息融合和隐写术是数据安全的常用方法,隐写术也是抵御攻击者的一个很好的选择。通过在封面媒体下隐藏内容,隐写术实施了这种欺骗行为。常用的封面媒体有图像(Shyla等人,2021年,Subramanian等人,202一年,Shah和Bichkar,2021),音频(AlSabhany等人,2020年,Manjunath等人,2022年),视频(Karthika和Vidhya Saraswati,2021,Dalal和Juneja,2021https://www.overleaf.com/project/645f2378220961dbaa131d21(Rahman等人,2020年),肌电图(EMG)(Rahmon等人,2020),心电图(ECG),脑电图(EEG)(Gupta和Mittal,2019,Bhalerao等人,2019),电子存储文件(Cho,2018)。

数据隐藏器和数据提取器是隐写系统的两个重要组成部分。通常,数据提取器在接收方操作,而数据隐藏器在发送方操作。使用数据隐藏器应用的编码方法,将秘密消息插入到封面媒体中,如DNA序列。然后,该媒体被称为stego媒体。为了让目标用户使用stego媒体,它要么被发送到目标端,要么存储在指定的存储中,例如云或独立机器的内存设备。然后,目标用户使用适当的解码算法对该隐秘媒体进行解码,以检索机密(Peng等人,2020年,AlKhaam等人,2019年)。

许多应用程序使用隐写技术来隐藏多种信息。然而,在与卫生保健相关的应用中,隐写术经常用于隐藏患者的私人数据,例如DNA序列、人口统计数据、患者和家族史、药物和共病信息、电子病历(EPR)和电子健康记录(EHR)。与此类似,隐写术有助于在法医应用中隐藏许多政府机密,包括犯罪DNA序列、法医相关音频、视频和图像中的各种个人信息、犯罪现场信息等(Parah et al.,2017,Kadhim et al.,2020,Ahmad et al.,2020)。隐藏在DNA序列中的数据是云和离线应用程序日益关注的方法之一。

DNA链由称为核苷酸的简单亚单位组成。核苷酸有四种碱基-腺嘌呤(A)、鸟嘌呤、胞嘧啶和胸腺嘧啶(T)(Alberts等人,2002年,Alhabeeb等人,2021年,Namasudra等人,2020年)。从DNA序列中提取的三个核苷酸的组合称为密码子。有64个不同的密码子。密码子分为20个氨基酸(Abdullah等人,2019年,Sabry等人,201九年,Wang等人,2019,Lee,2018年)。数据植入是在核苷酸(Abd El-Latif and Moussa,2019,Moussa et al.,2019;Na,2020,al-Khateeb and Jader,2020)、其转换系数(Shyla et al.、2021,Subramanian et al.和2021,Shah and Bichkar,2021,AlKhamain et al..,2019、Lee,2018)、核苷酸的转换值(例如数字、ASCII、,二进制值(Rahman等人,2019年)、互补值(Namasudra等人,2020年,Abdullah等人,201九年)或密码子(Abdullah-等人,2019-Sabry等人,2019/Wang等人,2019.)。

图1显示了核苷酸的互补方法及其一对一映射功能(f):X(X)Y(Y),其中X(X)Y(Y)分别表示图1左侧和右侧圆盘的元素,以及X(X),Y(Y) {A、C、G、T}。在这里,Y(Y)是的补充值X(X)例如,{A、C、G、T}的补码值分别为{C、G,T、A}。这种互补作用用于DNA预处理以增加脆弱性,其中双向线显示了去互补方法。因此Y(Y)X(X)核苷酸的二进制转换如表1所示。这两条规则的应用如下。

基于密码的嵌入方案通过使用歧义表(Abdullah et al.,2019,Sabry et al.、2019,Wang et al.和2019)、密码子交换政策(Abdulah et al..,2019)和密码子到字母替换策略(Wang et al,2019、Na,2020)或重组DNA技术(Wang等人,2019年)植入秘密。从密码子到氨基酸的分类生成了歧义表。每个类都包含几个类似的密码子。也就是说,类标签不能唯一地定义密码子。为此,该表被称为歧义表。2019年,Abdullah等人(2019)提出了一种基于密码子的技术,其中提出了两个步骤——加密和数据植入。首先,使用替换规则将秘密消息转换为二进制形式的BM,创建BMI时使用Toffoli量子门对BM进行加密,这是一种通用可逆逻辑门,以其发明者Tommaso Toffoli.命名。在第二步中,通过一次取一个密码子,将加密信息BM1的每一位依次植入DNA序列。在这种情况下,考虑氨基酸的生物功能。然而,由于他们在密码子中植入了一点,跳过了没有配对的密码子,并且嵌入容量小于1/3.Wang等人(2019年)于2019年引入了基于密码子模糊度的DNA隐写术,他们使用密钥和密码子模糊表植入秘密比特。他们还使用了一个额外的位来简化计算。DNA序列的生物学特性被成功保存,但在1/2.此外,尝试添加新位会导致编码失败和传播问题。2019年,Wang等人(2019年)提出了一种利用DNA密码子和重组技术的DNA隐写模型。这种生物学方法包括创建虚拟细菌,将秘密信息转换为DNA密码子,并生成一个虚构的DNA序列。然后使用四个可逆内射规则表将假序列嵌入到覆盖DNA序列中。随后,用质粒连接stego DNA,生成了一些假细胞。虽然该方法提供了很强的安全性,但嵌入容量限制为1/3并且只适用于文本消息,具有较高的隐藏扩展率。2020年,Na(2020)引入了DNA隐写技术。在该方法中,通过替换SNP热点区域的核苷酸,将秘密信息转换为DNA密码子并嵌入到覆盖DNA中。SNP(单核苷酸多态性)是指用一个核苷酸替换另一个核苷酸的过程。在1千碱基区域内有35个以上SNP的区域称为SNP热点。这种方法保留了DNA序列的生物学特性,提高了安全性。然而,由于仅嵌入SNP热点区域的限制,嵌入容量相对有限,为1/三。

2018年,Lee(2018)提出了一种基于多级直方图移动技术的DNA隐写模型。Suk-Hwan使用数字顺序将DNA的核苷酸序列编码为基于整数值的四个字符符号。基于核苷酸的方法通过替换核苷酸、尝试其二进制值、移动核苷酸直方图(Peng等人,2020年,Lee,2018年)、应用椭圆曲线加密系统(Abd El-Latif和Moussa,2019年,Moussa等人,2019)和执行简单的排他或(XOR)运算来隐藏数据(Rahman等人,2019.)。然后使用循环和非循环直方图进行多级直方图平移,在每个整数值中嵌入多个秘密位。虽然该方法是可逆的,并且增加了安全性,但嵌入容量相对较低,并且过程复杂。Abd El-Latif和Moussa(2019)于2019年提出了一种人工DNA序列的数据隐藏方案。该方案应用椭圆曲线密码(ECC)系统和高斯核函数生成两个加密密钥和覆盖DNA序列中的一组位置。然后,处理后的秘密被植入封面DNA序列中的这些选定位置。stego DNA没有扩增,该方法提高了安全性。然而,该方法是不可逆的,加密密钥也是随机选择的,如果加密密钥的长度大于或小于机密消息的长度,则该方法将失败。2019年,Moussa等人(2019年)通过定义加密密钥长度和更改消息加密阶段修改了Abd El-Latif和Moussa(2019)模型。他们将密钥大小设置在160位到512位之间,并将秘密信息转换为DNA密码子。该方案增加了安全性,但仍然是不可逆转的。Rahman等人(2019年)为基于云的移动医疗系统引入了一种基于DNA序列的数据隐藏方法。作者计算了秘密消息、一次性密钥和码字三个值之间的异或运算。从DNA序列中选择的特定核苷酸的二进制值作为密码。在此选择之前,DNA序列被转换为2D矩阵。最后,stego DNA是通过使用替换规则将异或运算的结果转换为其等效核苷酸并将其隐藏在覆盖DNA序列中来产生的。嵌入容量为2,但由于隐写密钥包含秘密消息和覆盖DNA,因此隐写扩展非常高,安全性很差。2022年,Namasudra(2022)提出了一种隐写方法,使用基于DNA的加密和互补对规则技术将加密数据隐藏在覆盖介质中。该过程包括将封面图像转换为DNA序列,嵌入加密数据和密钥,并将序列重新组织为二进制和ASCII值。然而,该方法的嵌入容量较低,为1/嵌入后改变像素会降低安全性和图像质量。

我们提出的方案既适用于分布式云环境,也适用于独立设备。我们还研究了一些与云环境相关的文献,以了解它们与我们的工作的相似之处。Wani和Khaliq(2021)于2021年推出了基于深度学习的软件定义网络(SDN)入侵检测系统。为了检测入侵者,作者将系统分为三个阶段。活动监视器用于监视网络中的流量和异常行为。分析器根据数据包长度和流量使用特征提取来分析可疑行为。分类器通过学习检测可能的入侵者。2022年,Verma等人(2022年)提出了一种更好的凯撒密码。为了提高和加强机密数据的安全性,作者使用了带加法逆的模块化算法将明文转换为密文。作者还通过结合可除性测试和算术模,创建了一种与加密完全无关的解密方法。Pavithran等人(2022年)在2022年提出了一种方法,用DNA计算、超混沌系统和摩尔机器来提高加密算法的随机性并降低时间复杂性。产生伪随机数以改善密码系统扩散特性的超混沌系统。为了产生四个随机数序列,系统使用四个状态变量和五个系统参数。本文还讨论了动态DNA编码原理。在DNA密码术中,数据被编码为DNA碱基,使用八条编码规则。该过程包括获取明文的二进制值,并用相应的DNA碱基替换每个2位。该系统由数据所有者、数据用户和摩尔机器组成,涉及数据加密和解密的几个阶段。2023年,Pavithran等人(2023年)使用DNA编码规则和有限状态机修改了上述加密方案,以增强密文的随机性。使用DNA转换表(DNACT)将明文转换为DNA序列,并在二进制字符串和密钥之间执行许多EXOR操作。Abdullayeva(2022)于2022年提出了一种架构,用于通过移动设备、身体传感器、云计算和医护人员的计算机实时监测患者的慢性病和新型冠状病毒感染。该布局使用机器学习分类器进行初始诊断,并结合雾计算层来处理传输问题。2022年,陈(2022)提出了一种以径向基函数(RBF)神经网络为主要研究对象的方案,利用模拟退火(SA)算法和混合层次遗传算法(HHGA)对RBF进行优化,建立了基于SA-HHGA优化的RBF神经网络预测模型,并进行相关实验,考察智能学习算法的应用效果。

表2总结了现有方法的特性。这些方案都有其局限性。有些人嵌入容量低,而其他人可能无法处理所有消息格式,例如文本。有些方案需要大量内存空间,以便只隐藏消息的一小部分。此外,还有一些方法通过将封面DNA序列与隐秘DNA序列一起传输来增加安全风险。某些技术显示出隐藏DNA的显著扩展速度,有些技术仅为独立应用而设计。现有方法也不足以处理要嵌入的大量数据。

在这项研究中,我们提出了一种利用DNA序列的新型安全数据隐藏技术。我们提出的方法旨在在各种环境中有效工作,包括独立设备和云等网络物理系统(CPS),旨在克服前面提到的限制。我们的方法涉及一种表驱动的数据植入技术,该技术允许将分类数据集成到DNA序列中。表3总结了我们提出的计划的重要性,以及它在应对现有挑战和提高现有知识方面的贡献,并概述如下:

  • 1

    该系统通过引入位模糊技术和机器学习相关的加密机制,提高了机密数据的安全性。该方案还建议了一种独特的表驱动数据植入方法。所有这些策略都提高了该方法的鲁棒性。该系统被破解的可能性很小。因此,任何未经授权的访问都将更加困难。

  • 2

    该方案能够处理任何类型的消息,例如文本、图像、二进制等,并且在独立设备和网络物理系统(CPS)(例如云)中同样适用。

  • 三。

    新引入的奇偶校验方法可防止隐写DNA发生变化,即人在中间攻击、选择隐写攻击和修改攻击。

  • 4

    相比之下,在植入相同数量的数据的同时,该方案降低了隐藏序列的DNA扩展速率。

本文分为七个部分。第二节介绍了相关工作。第3节讨论了提议的方案。第四节给出了实验结果,并对方案进行了性能分析。第5节描述了安全分析。最后,第6节对本文进行了总结。

节代码段

相关工程

2019年,Rahman等人(2019)提出了一种基于DNA的数据隐藏方案。该方案的目标是检查移动云中的数据真实性,其中云仅为医疗系统建模。该方案通过在封面DNA序列中植入一条秘密信息来实现。在植入任务的第一阶段,该方案任意生成密钥E类长度与消息位相同的二进制值。在嵌入数据之前,它根据主题重新排列核苷酸

拟议方案

该方案在覆盖DNA序列中植入信息。如果消息不是二进制格式,则将其转换为二进制。例如,文本消息、图像和DNA序列分别从ASCII值、十进制值和表1转换为二进制。M(M)B类是原始消息的二进制流M(M)该方案的工作过程包括三个阶段:预处理任务、数据植入和数据提取。各阶段的详细信息如下

绩效评估和结果分析

在基于DNA序列的隐写术方法中,通常使用一些常见的性能评估矩阵。本节将讨论这些参数作为我们提出的方法的性能评估器和结果分析。

系统安全性分析

在本节中,将分析所提出的DNA隐写方法的安全强度。DNA隐写技术的质量取决于几个因素,包括破解概率、失明、植入前加密秘密信息以及保留DNA序列的生物功能(Al-Harbi等人,2020年)。

结论

该方法提高了基于DNA序列的数据挖掘技术的嵌入强度。该方法的开裂概率低于竞争方法,接近于0。该方案还显示出较高的平均密码子偏差。与现有方法相比,这两种方法为封面DNA序列和秘密信息提供了更强的安全性。实验结果表明,该方案提取消息时没有产生任何错误,错误率为0%。这个

道德认可

这篇文章的作者中没有人使用人类或动物进行过任何实验。

CRediT作者贡献声明

马布布恩·纳哈尔(Mahbubun Nahar):概念化、方法论、软件、写作——初稿。A.H.M.卡马尔:概念化、方法论、写作——审查和编辑。加汉吉尔·侯赛因:写作–审查和编辑。

竞合利益声明

作者声明,他们没有已知的竞争性财务利益或个人关系可能会影响本文所报道的工作。

致谢

Mahbubun Nahar是孟加拉国政府邮政、电信和信息技术部信息和通信技术司的博士研究员。因此,我们要感谢上述部门的支持。

马布布恩·纳哈尔是孟加拉国迈门辛Jatiya Kabi Kazi Nazrul Islam大学计算机科学与工程系助理教授。目前,她正在休学习假,继续攻读博士学位。她在工作大学的同一个系攻读博士学位。她的研究领域是生物信息学、信息安全、DNA隐写术、机器学习和图像处理。

参考文献(45)

  • 帕维思兰第页。等。

    基于DNA密码、超混沌系统和网络物理系统随机生成摩尔机的新型密码系统

    计算。Commun公司。

    (2022)
  • F、。等。

    基于RSBEMD编码和自适应多段左右直方图移位的可逆数据隐藏

    信号处理。,图像通信。

    (2020)
  • 拉赫曼医学硕士。等。

    基于移动云的医疗系统中用于数据真实性的无损DNA数据隐藏方法

    国际期刊信息管理。

    (2019)
  • 沙阿P.D.公司。等。

    基于灵活染色体结构遗传算法的秘密数据修改图像隐写技术

    工程技术、。,国际期刊。

    (2021)
  • 希拉米。等。

    基于遗传算法的图像隐写覆盖图像选择和嵌入

    软计算。莱特。

    (2021)
  • 年。等。

    基于DNA序列和重组DNA技术的信息隐藏

    IEEE传输。纳米技术。

    (2019)
  • 阿布德·埃尔拉蒂夫E.I.公司。等。

    基于高斯核函数的人工DNA序列信息隐藏

    J.信息优化。科学。

    (2019)
  • 阿卜杜拉答:。等。

    基于DNA序列生物功能的数据隐藏新方法

    科学。扎科大学

    (2019)
  • 阿卜杜拉耶娃F.J.公司。

    基于物联网的健康4.0患者人口统计数据医疗系统

    CAAI事务。智力。Technol公司。

    (2022)
  • 哈尔比O.A.公司。等。

    基于DNA的隐写技术的安全性分析

    序号申请。科学。

    (2020)
  • 阿尔·哈提卜Z.编号。等。

    使用DNA编码和超混沌系统加密和隐藏文本

    印尼J.Electr。工程计算。科学。

    (2020)
  • 阿尔伯茨B。等。

    整合素家族

  • 引用人(0)

    马布布恩·纳哈尔是孟加拉国迈门辛Jatiya Kabi Kazi Nazrul Islam大学计算机科学与工程系助理教授。目前,她正在休学习假,继续攻读博士学位。她在工作大学的同一个系攻读博士学位。她的研究领域是生物信息学、信息安全、DNA隐写术、机器学习和图像处理。

    A.H.M.卡马尔是孟加拉国Jatiya Kabi Kazi Nazrul Islam大学计算机科学与工程系教授。他获得了孟加拉国工程技术大学的博士学位,该大学是孟加拉国排名第一的大学。他的研究领域集中在图像隐写术、信息安全、医学成像、电子商务和机器学习。他在不同的知名和良好的影响力期刊上发表了大量文章。目前,有两名博士生和几个硕士生在他的监督下工作。

    Gahangir Hossain博士是美国德克萨斯州丹顿市北德克萨斯大学信息科学系数据科学副教授,邮编:76203-5017,他曾在普渡工程学院以及位于金斯维尔和峡谷校区的德克萨斯农工大学工作。在他的职业生涯中,侯赛因从微软、能源部(DoE)、国土安全部(DHS)和海军研究办公室(ONR)等著名机构获得了200多万美元的研究资金。除了他的研究成果外,侯赛因博士还积极参与了一系列与信息系统设计、信息安全、决策科学和智能交互相关的课程的教学。他在指导和辅导硕士和博士研究生方面拥有丰富的经验。他的研究兴趣广泛,包括人工智能、机器学习应用、数据科学、认知神经科学、网络安全管理和网络-人类交互。侯赛因博士的专业知识在学术界得到了广泛认可,他在著名期刊和会议记录上发表的众多同行评审的研究文章就是证明。此外,他还撰写了两本IT书籍和几章书籍,进一步确立了他在该领域的权威。除了学术贡献外,侯赛因博士还积极担任各种国际会议项目委员会成员、编辑委员会成员、副编辑,并担任计算机科学和数据科学项目的ABET项目评估员。这些活动展示了他对推进该领域和确保优质教育的承诺。

    在这项工作中,我们展示了b条在氧化亚铜平板和放置在平板上的聚苯乙烯微球之间的界面上形成了一种新型的极化子Y_1。

    查看全文