基于区块链技术结合联邦学习技术的安全医疗5.0系统 论文分析

发布时间 2023-08-03 21:53:13作者: 逆世混沌

名词解释:

IOMT(Internet of Medical Things):

医疗物联网,是将IOT技术应用到医疗保健领域的产物。其重点是连接医疗设备与系统,实现医疗信息和数据的可连接和交换。

ML(Machine Learning):机器学习

- 典型的机器学习任务包括分类、回归、聚类等。常用算法有线性回归、决策树、支持向量机等。
- 机器学习可以分为监督学习、无监督学习、半监督学习、强化学习等。
- 机器学习重要的挑战包括泛化能力、性能提升、模型解释等。

BC(BlockChain):区块链

- 区块链的关键技术包括分布式账本、加密算法、共识机制、智能合约等。
- 常见的共识算法有工作证明、权益证明、准入证明等。
- 区块链的主要应用领域包括加密货币、供应链溯源、保险等。

FL(Federated Learning):联邦学习

- 联邦学习可实现跨组织、跨区域的分布式协作模型训练。
- 联邦学习面临数据泄露、模型有毒、不公平性等安全与隐私挑战。
- 联邦学习广泛应用于医疗、金融等领域。

IDS(Intrusion Detection System):入侵检测系统

- 根据检测方式,可分为异常检测和签名检测两类。
- 根据部署位置,可分为主机入侵检测与网络入侵检测。
- 应用深度学习技术提高检测系统的效能也是重要趋势。

医疗保健4.0

(4.0是数字化医疗的开始):
- 引入了物联网、云计算、大数据分析等信息技术。
- 实现医疗数据的数字化采集、传输和存储。
- 构建区域医疗信息平台,部门和机构可以共享医疗大数据。
- 初步应用人工智能,辅助医生决策。

医疗保健5.0

5.0代表了智能化医疗的深化与扩展,使医疗保健更加智能化和隐私化):

- 在4.0的基础上引入更多前沿技术如 VR/AR、机器人、区块链等。
- 智能可穿戴设备实现医疗监测的常态化。
- AI诊断、治疗、健康管理全面介入。
- 实现患者中心的精准医疗和持续健康管理。
- 强调保护患者隐私安全的同时提高数据利用效率。

实时深度极限学习系统(RTS-DELM):

Real-Time Deep Extreme Learning System,

是一个实时检测的的深度学习系统,其中最基础的架构有:

  1. CNN特征提取:

    • 将预处理后的数据输入到卷积神经网络(CNN)中,以提取高级的特征表示。
    • CNN作为特征提取器,可以从图像、文本或时间序列中学习有用的特征表示。
  2. OS-ELM训练

    • 使用在线Sequential Extreme Learning Machine(OS-ELM)算法对CNN提取的特征进行增量式学习和模型训练。
    • OS-ELM是一种快速的单层神经网络学习算法,能够处理大量数据并实时更新模型。
  3. 多层OS-ELM结构

    • 将OS-ELM构建成多层结构,每一层负责检测不同类型的异常。
    • 这样的层次化结构可以更好地处理复杂的异常情况,并提高异常检测的准确性。
  4. 概念漂移检测:

    • RT-DELS能够持续从数据流中学习,并及时检测数据分布的变化。
    • 当数据的分布发生变化时,RT-DELS可以适应这些变化并检测概念漂移,即异常行为的变化。
  5. 实时检测:

    • RT-DELS的训练和检测过程都可以实时进行,无需复杂的调参和预处理。
    • 它适用于对低延迟有要求的场景,能够在快速变化的数据流中进行异常检测

 MDVP/jitter/shimmer/NHR

MDVP 是 Voice Performance Analysis (VPA) 的统称,代表多维发声参数(Multiple Dimension Voice Program)。它通过对人声进行声学分析,可以提取出许多能够定量描述声音特征的参数,主要包括:- 基本频率(F0)相关参数
- 音强相关参数
- 声音瓶颈相关参数
- 声带闭合不全相关参数
- 声音稳定性相关参数
- 语音速率相关参数

jitter 表示声音的周期性变动,是一种用来描述声音特征的参数。在语音分析中,jitter 主要指声音基频(pitch)的周期变异。它通过计算相邻声音周期之间的差异来量化声音的周期稳定性。正常情况下,人声的jitter值很低,表示声音基频稳定。如果jitter值升高,表示声带震动不稳定,这通常预示着存在声带问题或神经系统疾病。

常见的jitter 参数包括:

- Jitter percent (Jitt%):相邻周期差异的平均相对变化量

- Pitch perturbation quotient (PPQ):基频周期变异的大小

- Relative average perturbation (RAP):相对平均周期扰动量

shimmer 表示语音中的振幅变动,是描述声音特征的一个参数。在语音分析中,shimmer 用来评估声音振幅(loudness)的周期性变化。它通过计算相邻声音周期之间的振幅差来量化声带振动的不稳定性。正常情况下,人声的 shimmer 值很低,表示声音振幅稳定。如果shimmer值升高,表示声带振动和声音产生不稳定,这可能是某些声带疾病或神经系统疾病的信号。常见的 shimmer 参数有:- Shimmer percent (Shim%): 相邻周期振幅差异的平均相对变化量- Amplitude perturbation quotient (APQ): 振幅周期变异的大小- Relative average perturbation (RAP): 相对平均周期扰动量

NHR 在语音分析中代表 Noise Harmonic Ratio,表示噪声与谐波比值。它是一种用于描述声音噪声成分的参数。NHR的计算方法是:NHR = 声音的非周期成分功率 / 声音的周期成分功率其中:- 非周期成分功率:反映了声音中的噪声
- 周期成分功率:反映了声音中的谐波成分NHR值越大,表示声音中的噪声成分越多,声音质量越差。正常人的发音NHR值很低,但在声带疾病或神经系统如帕金森病患者中,NHR值会升高。

 

提出问题

1.在当今世界,将患者从家中转移到医院进⾏例⾏检查极其困难。存在⼀些挑战,包括排队、旅⾏ 时间以及患者在这个污染环境中旅⾏时感染各种病毒的可能性。因此我们考虑另一个方向,也就是在家庭医疗保健服务上,让患者能够在舒适的家中进⾏医疗检查。可以使用智能健康监测系统跟踪⼼率、⼼电图 (ECG)、⾎压、体温以及⼈是否跌倒等⽣命体征。系 统收集这些数据并通过⽆线连接将其发送到应⽤程序以进⾏进⼀步分析。

2.基于第一点的智能健康检测系统,我们需要引入有效的算法解决相关的数据分析,为解决这一问题,我们可以使用机器学习(ML),其在图像识别、语⾔处理和医疗保健等多个领域有着优秀的作用。

3.基于第二点的机器学习,我们还需要知道:机器学习模型只有通过⼤量的训练集才能获得 很⾼的准确性,这在医疗保健中⾄关重要,因为精度有时可能意味着挽救或失去患者的⽣命。而面对着大量的数据集,可能存在导致严重的消费者隐私侵犯。因此为解决这一问题,我们考虑使用区块链解决这一问题

4.对于IOMT,存在对医疗记录和医疗设备的⿊客攻击;它们不仅是医疗保健系统的智能设备组件,它们也可⽤于恶意⽬的——发送⽹络钓⻥和垃圾邮件。由于⽆线密钥未加密,智能医疗设备通常成为 DDoS 攻击的中⼼⽬标,特别是因为它们会⽴即打开以提供更智能的解决⽅案,例如患者医疗记录和虚假医疗报告的⾃动更新,这种攻击造成的相应的信息挑战源自IOT系统的中心化。相应的,这一问题仍然可以用区块链解决。

以下是区块链的基础架构:

 5.前文提到了医疗数据相当隐私,我们不希望进行机器学习时受到隐私泄露的影响,因此使用了FL解决这一问题。

FL使众多设备能够协作学习机器学习模型,⽽⽆需交换实际数据

以下是FL的基本架构

 

在使用了上述技术后,仍然存在一些还无法解决的问题:

 

1. 保存在区块链中的模型参数仍然可以被攻击者用来推断原始的机密临床数据。(逆向推理攻击)

2. 来自医疗器械的一些临床数据可能被伪造以欺骗FL过程。(数据篡改攻击)

3.医疗设备没有动力向FL提供数据和处理能力(缺少激励)

本文最主要的目标就是解决以上三个问题,于是提出了以下几点贡献:

1. 本文提出了一个基于区块链的第五代医疗保健FL框架,该框架不仅构建了基于各种边缘设备的正确协作模型,而且还管理了整个培训过程。

2. 提出的方法为基于区块链的FL提供了额外的安全性,我们提出了一种RTS-DELM方法,该方法通过根据训练过程调整噪声来平衡隐私和模型准确性。

3.所建议的系统在所建议的模型中考虑了多个医疗组织,因为其他医疗组织的本地训练模型可以通过共享全局模型来增强医疗保健5.0系统的能力。

4. 在医疗保健 5.0中实现联邦学习方法,通过局部训练模型改进临床数据的学习过程

5。提供智能混合方法,以增强安全通信和有效的医疗保健监测。

6. 本文在医疗保健5.0系统中设计了一个入侵检测系统(IDS),通过检测入侵和攻击模式来提高安全性和隐私性。

了解相关研究

本文在第二节进行了相关领域的文献综述

区块链层面

Aggarwal等人探讨了医疗保健的几个方面,如交易整合、家庭医疗保健和投资分配。智能家居行业有几个潜在的区块链应用。M. Andoni等人[21]对P2P资源共享网络的许多区块链应用进行了全面分析。

该报告深入介绍了几个智能家居网络的部署和能力,包括智能电网安全问题、大数据分析、人工智能和支付服务。他们的结论是,这项研究没有充分考虑到与智能家居相关的挑战,比如智能城市的财务规划和智能家居安全。

G. Li等人提出了一种基于用户的区块链结构,以保证物联网中信息通信的安全。

Zhou等人研究了各种区块链技术,预先调查和分散计算,以实现对特定汽车的重新定位控制并提高其有效性。

Du等人提出了一项研究,其目标是调查区块链技术在智能医疗中的实施,为智能医疗开发一种集中的概念方法,定义区块链对智能医疗的影响,并最终为智能医疗开发一个基于利益相关者的先进应用框架。

机器学习层面

Ihnaini等人提出了一种基于深度机器学习和信息融合概念的糖尿病疾病智能预测方法。通过结合信息,所提出的技术可以减少系统计算资源的不必要压力,同时也提高了所提出系统在正确预测和推荐这种危及生命的情况时的效率。最后,采用集成机器学习方法建立糖尿病预测模型。

Khan等人[27]建议针对老年人的实际需求和问题,设计新颖的老年人医疗保健设施。为了更好地满足老年人医疗保健的基本需求,研究人员应用了机器学习方法。

Xu等人[28]概述了联邦学习技术,重点介绍了生物医学中使用的技术。回顾并解释联邦学习中固有的统计挑战、系统挑战和隐私问题的广泛解决方案,同时强调其对医疗保健的影响和潜力。Li等[29]利用文献计量可视化和Web of Science (WOS)概述了机器学习和生物信息学技术在智能医疗业务中的应用。本综述重点介绍了该领域开展研究最多的国家、主要研究课题、资金来源和研究热点。此外,该研究概述了在医疗保健行业中使用机器学习和深度学习方法的主要困难和未来的研究目标。

Siddiqui等[30]在深度学习模型中应用数据融合技术预测乳腺癌分期。他们应用基于决策的融合来提高建议方法的准确性。Medjahed等[31]提出了一种基于数据融合方法的智能医疗监测系统。所提出的系统是基于一个多传感器平台,可以实现完全控制智能家居。

作者列出了一张表总结了近年来联邦学习用于智能医疗的研究:  

 提议方法

本文实现了一个系统,可以分为以下几个方面的实现:

1.区块链模块实现

2.RTS-DELM模块实现

3.联邦学习模块实现

4.数据融合模块实现

5.入侵检测系统(IDS)模块的实现

6.数据集描述 

 

 从图中我们可以看到首先是联邦学习-区块链的框架,用户使用本地数据训练模型对链上更新,之后使用更新后的模型继续训练。

接着图中介绍了对本地数据的训练 ,对本地数据进行预处理之后进入训练层,训练层包括机器学习模型和模型评估,接着进行判断,符合训练的标准则输出给本地的用户。

下面一个部分针对在实际操作流程上的解释:首先从IOMT层获取数据进入服务存储库,数据进入存储库后将进行预处理,并从云端导入学习模型进行疾病预测训练,之后进入评估阶段,通过评估阶段后进行预测与健康识别,用户的健康信息会进入健康记录,当用户的身体状况不符合健康模型后,进入紧急情况,信息传递给医院,由验证过身份的医生进行查看。

对于用户隐私信息的查看,还加入了IDS:用户访问时进行实时监测与评估,通过计入RTS-DELM模型进行检测,当出现异常时会进行异常检测,并将该异常记为新攻击与标记且标记攻击的数据库进行实时检测

基于ids系统的理解,我们可以首先设定一个数据库,里面存着被标记的攻击,在实时检测的时候就是调用这个数据库,没有检测到数据库内的操作后进行

以上的是基于对图片的解释,接下来是细化了每个工作后的部分

具体实现与细化

数据集描述

 本文接着对自身使用数据集进行描述

首先对于NSL-KDD,列举了该数据集的41个特征:

 这项研究包括31个人的195个延长的元音发音,其中23人被诊断患有帕金森病,想表达的关联性为罹患帕金森病患者会有相似的延长元音发音。

 

于是我们产生了fig5这样的有关实验对象的发音情况的特征描述共23个
 

 联邦学习

有关联邦学习的部分

•医院确定培训任务并将其分配给本地模型,随后将其上传到中央服务器,在那里将其作为全球模型分发给所有IoMT设备。

•此外,训练阶段包括三层:感知层、预处理层和应用层。

•IoMT设备获得的医疗数据可能包含丢失或错误的数据。

•为了减少噪声数据,预处理层使用移动平均和归一化来处理缺失值。

•临床数据在准备后传输到应用层。此外,应用层被分为两个部分:预测层和性能层。

 接着结合RTS-DELM的伪代码展示流程(服务器端)

 由上述伪代码可以分析流程,

首先初始化W和V,w表示在服务器端上输入层和y个隐藏层之间的权重,v表示在服务器端上连接y个隐藏层和(y+1)个隐藏层之间的权重。

第二步

  进行每一个从I到K的循环,Sk代表n个客户的随机集合

  对在算法中对一个包含多个客户端的集合Sk进行并行处理。进行训练并输入到wnk+1,和vnk+1

第三步进行平均聚合,将第二步计算的wnk+1,和vnk+1计算为w,v

 

 这段伪代码为智能FML- RTS-DELM伪代码(客户端)。

  1. 开始:算法开始执行。

  2. 将本地数据拆分成大小为S的小批量:数据被拆分成多个小批量,每个批量包含S个训练样本。

  3. 初始化:初始化神经网络的权重(ωij和υjk),设置误差E为0,将训练轮数£设为0。

  4. 对于每个训练样本p: a) 进行前馈过程:

    • 使用方程(1)计算隐藏层神经元的输出ȹj。
    • 使用方程(2)计算输出层神经元的输出ȹk。
    • 计算输出和隐藏层的误差信号:
      •   根据训练样本的实际输出和神经网络的预测输出,计算输出层的误差信号。
    • 使用反向传播算法,通过方程(8)和方程(9)来计算隐藏层的误差信号,并根据误差信号来更新权重ωij和υjk。
  5. 更新训练轮数£:训练轮数£加1,以继续下一轮训练。

  6. 测试停止准则:检查是否满足停止训练的准则,如果没有满足,则回到步骤4,继续训练。

  7. 返回优化的本地训练模型权重:将经过训练的权重ωij和υjk返回给服务器端。

  8. 停止:算法结束

这里的输出返回给服务器端,在服务器端为一个客户的两个权重值

接下来给出几个方程流程:

1.计算隐藏层神经元:

 其中ri为输入数据,b1为偏置,m为输入神经元总数,j为隐藏层神经元总数。

2.计算输出层神经元

 其中,y表示隐藏层

3.反向传播误差计算:

 上式E表示反向传播误差,其中τk和ȹk表示预期输出和预计输出

4.输出均值匀速变化:

 基于链式法则技术将(4)转化为(5)

 (5)中的值可以带入后得(6)

 

 

 

 最后公式(8)是用于更新输出层与隐藏层之间的权值

而下面的(9)用于更新输入层与隐藏层之间的权值

 仿真结果

Miss rate:漏检率

accuracy:准确性
specificity:特异性

sensitivity:敏感性

True Positive Rate (TRP):真阳性率

True Negative Rate(TNR):真阴性率

Positive Prediction Value (PPV):阳性预测值

Negative Prediction Value(NPV):阴性预测值

TP(True Positive):真正例,指被模型正确地识别出来的正例样本。

TN(True Negative):真负例,指被模型正确地识别出来的负例样本。

FP(False Positive):假正例,指被模型错误地识别为正例的负例样本(即误报)。

FN(False Negative):假负例,指被模型错误地识别为负例的正例样本(即漏报)。

 我们使用的4个客户端的记录基于RTS-DELM的医疗保健5.0系统得出了如下的数据:

在培训阶段预测系统中的入侵:

 可以看出,H1客户端准确率为93.75%,灵敏度为98.25%,特异性为82.61%,阴性预测值为95%,假阳性率为17.39%,假发现率为6.67%,假阴性率为1.75%。H2客户端准确率为94.72%,灵敏度为98.95%,特异性为84.07%,阴性预测值为96.94%,假阳性率为15.93%,假发现率为6%,假阴性率为1.05%。H3客户端准确率为97.75%,灵敏度为98.99%,特异性为94.17%,阴性预测值为97%,假阳性率为5.83%,假发现率为2%,假阴性率为1.01%。H4检出准确率95.72%,灵敏度99.30%,特异性86.36%,阴性97.94%

用于在验证级别期间预测系统中的入侵:

 

H1客户端给出的准确率为95%,灵敏度为97.30%,特异性为88.64%,阴性预测值为92%,假阳性率为11.54%,假发现率为4%,假阴性率为2.7%。H2客户端准确率为93.50%,灵敏度为95.75%,特异性为86.27%,阴性预测值为88%,假阳性率为13.73%,假发现率为4.67%,假阴性率为4.03%。H3客户端准确率为96.50%,灵敏度为98.64%,特异性为90.57%,阴性预测值为96%,假阳性率为9.43%,假发现率为3.33%,假阴性率为1.36%。H4诊断准确率为94.50%,灵敏度为96.64%,特异性为88.24%,阴性预测值为90%,假阳性率为11.76%,假发现率为%,假阴性率为3.36%。

利用联邦学习预测帕金森疾病:

在验证阶段,H1客户端准确率为92.50%,灵敏度为96.97%,特异性为71.43%,阴性预测值为83.33%,假阳性率为28.57%,假发现率为5.88%,假阴性率为3.03%。H2客户端在验证阶段的准确率为93%,灵敏度为96.43%,特异性为75%,阴性预测值为80%,假阳性率为25%,假发现率为4.71%,假阴性率为3.57%。

而H3客户端在验证阶段的准确率为95.50%,灵敏度为97.63%,特异性为83.87%,阴性预测值为86.67%,假阳性率为16.63%,假发现率为2.94%,假阴性率为2.37%。而H4客户端在验证阶段的准确率为94.50%,灵敏度为96.49%,特异性为82.76%,阴性预测值为80%,假阳性率为17.24%,假发现率为2.94%,假阴性率为3.51%。

最后,在服务器端,与联邦学习方法相结合的拟议医疗保健5.0系统与每个客户端相比实现了最大的准确性。该方法在验证阶段的准确率为97%,灵敏度为98.24%,特异性为90%,阴性预测值为90%,假阳性率为10%,假发现率为1.76%,假阴性率为1.76%。

与其他模型做对比:

所提出的模型与先前发表的研究的比较。Chang等[38]使用CNN达到了84.5%的准确率。Sheibani等[46]使用10倍交叉验证,准确率达到90.6%。Tracy等[47]使用l2正则化逻辑回归、随机森林达到90.1%的准确率。Sztaho等人[48]使用KNN、SVM-linear、SVM-RBF、ANN和DNN实现了89.3%的准确率。Yaman等[49]使用KNN、SVM进行10倍交叉验证,准确率达到91.25%。Kuresan等[50]使用HMM、SVM达到95.16%的准确率。提出的医疗保健5.0系统与联邦学习方法模型相结合,准确率达到97%。如表7所示,所提出的方法在准确性方面优于其他方法。

总结

本文提出了一个基于区块链技术与联邦学习技术相结合的安全医疗5.0系统,目的为了解决实时的医疗监测,以及安全隐私层面的问题,使用联邦学习+区块链,同时引入IDS防止入侵保证安全性,并利用数据结果给出了支撑,不论在预测模型还是防止入侵都有较良好的效果。

存在的问题可能在于文章并没有给出IDS使用的数据流数据集以供参考,可能有其的考量,安全方面的东西一般是不公开的

论文类型:研究型

论文推荐:3.5