联邦学习,AI的第四次崛起?

人工智能于1956年被设立为一门学科,然而尽管它已有60年的历史,但其发展仍面临很多障碍。其中,由数据隐私所带来的道德压力或许最为致命,这也给AI界带来了数据饥荒。特别是在医疗领域,这个问题显得格外严峻。

作者: DeepCare前线 来源: DeepCare前线 2019-11-06 13:44:24

人工智能于1956年被设立为一门学科,然而尽管它已有60年的历史,但其发展仍面临很多障碍。其中,由数据隐私所带来的道德压力或许最为致命,这也给AI界带来了数据饥荒。特别是在医疗领域,这个问题显得格外严峻。


面对数据饥荒,AI发展的下一步该怎么走呢?联邦学习或许是答案。作为新兴的人工智能技术,联邦学习有望解决这次AI热潮的数据隐私问题和信任危机,并引领AI的第四次崛起。


人工智能的第三次崛起


2016年,在AlphaGo打败李世石后,人工智能的热潮达到了顶点。这成为AI在历经两起两落后第三次崛起的标志性事件。纵观AI发展史,每一次的AI热潮都会受到人们的热切关注:它会如何改变工业和人们的生活,与之相关的安全和道德问题也接踵而至。于是,每一个新的AI观点可能会因为饱受争议而被搁置。


AI为何能得如此热议,或许是因为它给出的承诺要比实际能实现的多。目前,真正智能的机器还是十分少见的,已实现的AI大都只适用于特定场合,要想让AI像营销人员那样识别潜在客户,我们还有很长的一段路要走。但在这一领域,我们并不缺乏远见,越来越多的人想知道AI可以帮助他们实现什么。


眼下正值AI的第三次热潮,未来充满很多的不确定性,历史会将其导向何处,仍未可知。


数据饥荒即将到来


第三次AI崛起很大程度上都是由大数据驱动。大数据推动了深度学习在人脸识别等领域的发展,然而,在更复杂的领域,比如疾病诊断,AI仍然需要弥合商业愿景和技术方法之间的差距。


在这些领域,AI面临的主要问题是数据的可访问性。数据是可得的,但会由于一些原因而无法对其评估。一个企业会因其各部门之间的相互独立而产生数据孤岛,即各部门数据是各自存储和定义的,数据之间缺乏关联性和兼容性,从而增加了数据的沟通成本。


因此,很难获得到大量系统性的数据喂给深度学习模型。基于云架构的数据中心一度被认为是解决数据孤岛的潜在可行方案,但事实证明,大量的数据会使得云计算费时而耗财。同时,越来越严密的数据隐私法规(比如《通用数据保护条例》)也使得数据变得难以访问。AI要在数据隐私和高效率的机器学习的夹缝中求生存。


联邦学习,AI的第四次崛起


联邦学习作为新兴的人工智能技术,有望解决这次AI热潮的数据隐私问题和信任危机并引领AI的第四次崛起。


联邦学习(Fedarated Leaning)是一种机器学习架构,在保护用户数据不泄露并遵循数据保护法规的前提下允许多方企业参与,并利用各方数据集来训练模型。根据不同的数据分布特征,联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习。


横向联邦学习根据用户特征来划分数据集,即当不同数据集之间的用户特征重叠多于用户重叠时,采用横向划分数据集,取出各数据集中用户特征相同而用户不完全相同的数据进行训练。


举个栗子,有三家物流公司分布在不同的地域,它们的业务是相似的,因此三家数据集拥有相同的用户特征,但其用户并不完全相同,拥有相同用户特征的用户数据可被提取出来以训练模型。


纵向联邦学习适用于数据集之间的用户重叠多于用户特征重叠的情况。比如位于同一地域的两家性质不同的机构:医院和外卖公司,它们的用户群体可能因为地域相近而交集很大,但医院记录的是用户的健康特征,外卖公司记录的是用户的消费特征。纵向联邦学习便利用用户来划分数据集,它可以汇集所有的用户特征以增强双方的模型。


当数据集之间的用户重叠和用户特征重叠都交较少时,可使用迁移联邦学习来克服单边数据规模小和标签样本少的问题。好比中国制造厂和美国物流公司的数据集,无论是在用户特征还是在用户上数据集的交集都很小,此时,引入迁移学习来定义数据集之间的通用表述便可提升联邦学习的性能。 


尽管联邦学习的能力是十分出色的,但并不意味着一劳永逸。联邦学习须被开发成商业应用程序,针对特定的用户制定灵活、双赢的商业模式。在保证各方数据隔离的前提下,联邦学习可以联合各机构之间的数据孤岛来建立更完美的模型以实现共享经济。各机构凭借其分享的数据获益,而应用程序开发者则凭借其对模型的贡献而获益。


本文转载自其他网站,不代表大健康派观点和立场。如有内容和图片的著作权异议,请及时联系我们(邮箱:scarlet.s@djkpai.com)

人工智能 联邦学习 第四次崛起 大数据

关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯