• 产品与服务矩阵
  • 资源中心
  • 易观之星奖项
  • 关于我们

聚焦开源之势,兼顾全局与细节——易观分析持续关注联邦学习开源生态研究

趋势预测分析 数字技术研究院 2022-04-05 1111
目前,联邦学习开源技术形成两大发展方向:专注于开发联邦学习算法模型;专注于开发融合安全协议。以所属机构业务出发,商用为主的联邦学习开源项目仅在某类机器学习功能中引入安全协议实现安全联邦学习,更加关注结合机构技术生态结合而非多样化的技术应用。FATE与Rosetta以联邦学习安全性与性能出发,注重联邦学习的整体解决方案。研究为主的联邦学习开源项目则从联邦学习的各个层面探讨技术实现的可能性。通过对开源与技术特性的研究,易观分析认为,CTO在选择开源项目时,要基于自身业务发展阶段和自有开发团队实力,选用具有相应功能、安全性、可扩展性的开源项目。

开源特性对比

 


联邦学习开源项目整体发展良好,但项目之间存在较为明显的差异性。协议方面,除PySyft & PyGrid外均采用对商业化影响较小的协议。代码开源度方面,PySyft&PyGrid、TF-Federated和FedML等研究型开源项目相对较高,能够对底层算子、算法和安全协议等代码实现开源开放。FATE、MindSpore Federated、TF-Federated、PySyft&PyGrid等文档完整性较高的项目普遍活跃程度也较高。

表1:联邦学习开源项目之开源特性对比




总体来看,研究型项目的开源社区建设优于商业项目,但FATE作为国内开源商业项目的代表,从开源社区Pull Request情况、commits数量、版本迭代速度、代码更新频率、贡献者数量和影响力等指标来看,均呈现出良好健康的态势。

技术特性对比

 
在技术实现上,聚焦于商用化的联邦学习项目更加注重功能的封装,实现联邦学习的快速应用;聚焦于研究领域的开源项目则通过拓展AI框架底层接口,实现功能高度自定义。

表 2:联邦学习开源项目之技术特性对比




注重结合自身技术生态且聚焦商用的联邦学习开源项目普遍在部署应用方面给予较强的支撑,为联邦学习的应用快速落地做出了有效的尝试,但实现的联邦学习功能较为单一。FATE在开源技术上为联邦学习大规模应用提供了很好的范例,Rosetta也为联邦学习前沿技术商业化提供了很好的支撑,但其开源的1.0代码版本尚不能支持联邦学习,其自研Helix协议具有较高参考价值。

研究为主的联邦学习开源项目普遍从技术的快速实现与高度自定义两方面出发,对高层接口进行封装并对底层接口进行扩展,并注重对模型性能的评价。同时,在技术路线上,研究为主的开源项目更加注重从算法策略与算子维度加强模型性能,仅PySyft注重安全协议的应用。在部署方面,FedML在边缘设备上的部署较有参考价值。

给CTO的提示

 
功能集成度高的商用型开源项目利于快速部署与应用

以FedLearner与EFLS为代表的厂商可以快速实现云部署;FATE功能全面,且给予多场景的部署支持;以MindSpore,PaddleFL为代表的项目,高度集成于自研AI框架中,可以实现快速部署,且支持在移动端部署。

商用型项目的安全协议支持度、功能全面性与学习成本互为掣肘




安全协议支持方面,商用为主的联邦学习开源项目普遍支持差分隐私,但在模型训练方面差分隐私对模型造成的影响不可控。多方安全计算与同态加密对计算资源与通信资源的要求较高,实现成本高。

功能方面,除FATE外,商用为主的联邦学习开源项目普遍实现功能较为单一,难以满足复杂或多样化产品的应用。但是,尽管FATE给予较强的部署支持,但学习成本高,部署存在一定难度,且在云部署方面目前对Spark的支持还在开发中。

研究型开源项目的高度自定义特性可以满足自身业务发展需求




研发能力较强的团队可以采用研究为主的联邦学习开源项目,实现底层技术研发,达到功能的高度自定义,满足更加多元的业务应用场景需求。

开发成本与安全性是选择研究型项目的关注重点




对研发能力较弱的团队而言,研究型项目的开发成本较高。同时,从安全性角度出发,研究型项目有复杂的技术供应链,存在安全漏洞与恶意攻击的风险。