“联”音 | 联邦学习——破解智能医疗数据安全隐私难题

2020-07-16

医疗人工智能的最大挑战是：医疗机构之间的数据无法互通，任何一家医院（或数据中心）数据量都是有限的，形成了大大小小的很多“数据孤岛”。本文将介绍如何利用联邦学习技术在数据不出数据中心的情况下，进行模型的学习，达到或接近数据集中情况下的效果？

医疗领域的不可能三角

在很多领域都存在不可能三角（Impossible trinity）。不可能三角可以理解为在其他外部因素不变的情况下，有三个目标无法同时满足，决策中需要彼此权衡。在金融政策上有蒙代尔－弗莱明模型，资本自由流动、汇率稳定和货币政策独立性三者不可能兼得。医疗领域的不可能三角的三个目标分别为降低医疗费用（Cost）、增加医疗可及性（Accessibility）和提高医疗服务质量（Quality），我们可以称之为CAQ模型。其中，CAQ模型中的医疗费用比较好理解，不再赘述；可及性可以理解为患者在地理、物质和经济上能得到医疗保健的程度，比如说到医院的距离、排队挂号的难度、报销的比例等；服务质量也可以进行量化，如用再入院率、治愈率、存活时间等这些指标衡量。

AI技术有望打破医疗不可能三角

在2016年世界卫生组织（WHO）发布的报告中，美国医疗占GDP的比例为16.9%，中国仅为6%。在成本差距巨大的前提下，如何在可及性和服务质量上形成弯道超车？在所有新技术中，人工智能有潜力打破医疗不可能三角。AI可以通过技术路径把专家的智慧标准化、程序化、智能化，提高诊断、治疗的准确性和工作效率。以脑部影像分割任务为例，影像科医生通常需要花3天以上，不一致性为16%；经过训练的AI算法可以在10分钟内完成，同时保证不一致率小于1%。

法律对隐私的保护对获取数据造成巨大障碍

一个鲁棒性高、性能好的AI模型往往需要大规模数据的训练。但在如GDPR等一系列涉及用户隐私保护的法律出台后，医疗AI遇到一个最大的问题是医疗数据很难出院、出机构、出市、出省、出国。

在国外，1996年，克林顿政府签署了经过参议院和众议院通过的医疗保险改革法案：HIPAA/1996；2000年，HIPAA公布了个人健康信息的隐私保护标准和实施指南；2016年，欧盟发布并于2018年实施的GDPR是目前最全面、应用最广的隐私保护法规，界定了数据主体权利、数据控制方、处理方的权利和义务，向第三国转移个人数据法规，独立检察机关角色，关于合作原则等；美国加州在2018年颁布，2020年执行了CCPA，授予消费者了解收集了什么信息以及与谁共享了信息的权利。

HIPAA：Health Insurance Portability and Accountability Act/1996，Public Law 104-191

GDPR：General Data Protection Regulation

CCPA：California Consumer Private Act

我国有关保护患者隐私权的法律规定对医疗人工智能获取患者数据同样有很多限制。2010年施行的《中华人民共和国侵权责任法》规定，医疗机构及其医务人员应当对患者的隐私保密，要求泄露患者隐私或者未经患者同意公开其病历资料，造成患者损害的，应当承担侵权责任。保护每一个人数据安全的法律体系的逐渐完备对医疗人工智能产品落地变得更加艰难。

国内外公司数据泄露事件频发遭受处罚或股价受累

2017年7月，英国皇家NHS信托基金会在没有征得患者同意的前提下，向合作公司——DeepMind人工智能创业公司，提供了超过160万名患者的数据，违反了数据隐私法。

2018年3月17日，Facebook上超5000万用户信息在用户不知情的情况下，被政治数据公司“剑桥分析”获取并利用。在截至2018年3月23日当周，Facebook股价累计跌13.89%。

2018年，我国科技部公布国内某基因科技服务有限公司违规“通过网络将基因信息传递到境外”造成了基因数据泄露，可能会对国家安全造成严重的伤害。

2019年1月22日，法国监管机构对google开出了首笔GDPR罚款，金额达5000万欧元（约3.85亿元人民币）——这是自2018年GDPR法规生效以来首次对美国科技巨头实施的重大处罚。

联邦学习重塑医疗数据生态

一方面，医疗服务走到数据驱动年代，数据开放共享需求强；另一方面，医学数据具有强私密性，需采取高度保护措施。医疗数据管理方往往要求医疗数据不离国/省/市/机构。因此，在医疗数据利用方面不得不面对一个不可避免的问题：单一组织缺乏足够可用样本用于人工智能算法的训练。

联邦学习是一种有效打破“数据孤岛”的技术途径。联邦学习是一种具有以下特征的用来建立机器学习模型的算法框架。具有以下几个特点：

多方参与：有两个以上参与协作构建一个共享的机器学习模型。每个参与方都拥有若干能够用来训练模型的数据
数据不动：联邦学习模型相关信息能够以加密方式在各方之间进行传输和交换，并保证任何参与方不能推测出其他方的原始数据
性能无损：联邦学习模型性能能够充分逼近理想模型（数据集中训练）的性能

联邦学习的概念最早由Google提出。Google在一个针对Android/ target=_blank class=infotextkey>安卓系统中预测下一个输入词的应用中设计了联邦学习模型，用来更新数据联合建模方案：在单个用户使用安卓手机时，不断在本地更新模型参数并将参数上传到云上，从而使特征维度相同的各数据拥有建立联合模型的能力。联邦学习这一概念在2018年后被广泛应用于计算机视觉、自然语言处理和推荐系统中。开源生态逐渐萌芽，业内推出了基于Tensorflow和PyTorch的一系列联邦学习开源平台，并于2019年成立IEEE 联邦学习工作组开展相关标准的制定。

横向联邦 VS 纵向联邦

横向联邦学习适用于联邦学习的参与方的数据有重叠的数据特征，即数据特征在参与方之间是对齐的，参与方数据样本不同。

上图为横向联邦学习的数据结构。比如多家医院希望联合开展一项某项疾病的因素分析。每家医院的数据都不足以完成这个任务，但合起来的病历足够丰富，且每家医院采集的因素相似度较高。这种情况非常适横向联邦学习的应用。

纵向联邦学习适用于联邦学习参与方的训练数据有重叠的数据样本，即参与方之间的数据样本对齐的，但数据特征上不同。

上图为纵向联邦学习的数据结构。比如医保局在分析医保欺诈的时候，支付数据不足以支撑欺诈识别的准确性，希望利用同样用户群的医院就诊数据和金融信用数据，但这两部分数据无法完全共享。这种情况非常适纵向联邦学习的应用。

联邦学习在医疗场景的应用

数据不足和标注不足是实现医疗AI的瓶颈。各医疗机构希望按照约定好的隐私保护条例共享各自的数据，并获得相应的收益，联邦学习是实现这一目标的非常重要的解决方案。作者Kim Y等人在论文《Federated Tensor Factorization for Computational Phenotyping》中在保证无数据离开本地医院的情况下，利用多医院的数据联合分析发现特定患者人群的表型。研究表明，单独使用UCSD医院1的数据或UCSD医院2的数据与联合利用两家医院的数据分析得出的结果差异较大，如果利用联邦学习的方式，在数据不出医院的情况下，仍然可以得到令人满意的结果。在联邦学习的情况下，算法可以找到单独利用一家医院无法找到的表征“镰刀型细胞/慢性疼痛”，避免由于人群差异和样本过小对结果产生的偏差。

作者Huang L等人在论文《Patient Clustering Improves Efficiency of Federated machine Learning to Predict Mortality and Hospital Stay Time Using Distributed Electronic Medical Records》中研究通过利用特征自编码器、患者聚类的方式提高联邦学习用来预测死亡率和住院时间的性能。聚类后的患者群映射到二维空间后的分布如图所示。患者聚类的操作可以大大降低在联邦学习梯度传输的通信负载。

另外一个经典案例是Intel支持的多个医疗组织联合开展的脑部肿瘤分割任务，利用多家机构的头部MRI数据，在数据不出院的情况下，训练影像分割模型，达到集中训练的效果。性能的收敛曲线见下图。

总结与展望

联仁健康非常重视在医疗人工智能方向的自主研发与产业合作，致力于医疗大数据的价值的深度挖掘。公司利用累积的海量医疗数据训练并对外发布业界具有影响力的中文电子病历预训练模型、医学专业术语特征向量，在命名实体识别、关系抽取、医疗知识图谱构建等方面形成突破，打造电子病历结构化、智能搜索、相似病历查询等核心能力，全面赋能临床、医药、保险等行业。

医疗人工智能和大数据的发展涉及对人类社会的社会责任，需要兼顾算法性能、经济利益和对隐私和安全的严格要求。面对这一挑战，联仁健康致力于提供一个隐私安全计算的环境，使得各方在保护用户隐私和信息安全的前提下提升系统效率。

参考文献：

https://federated.withgoogle.com/

Qiang Yang, et. al, Federated Learning, Publisher: Morgan & Claypool. 2019

Kim Y , Sun J , Yu H , et al. Federated Tensor Factorization for Computational Phenotyping, the 23rd ACM SIGKDD International Conference. ACM, 2017.

Huang L , Shea A L , Qian H , et al. Patient Clustering Improves Efficiency of Federated Machine Learning to Predict Mortality and Hospital Stay Time Using Distributed Electronic Medical Records[J]. Journal of Biomedical Informatics, 2019, 99:103291.

https://www.intel.ai/federated-learning-for-medical-imaging/