当AI遇到生物-深度学习在生物研究中的应用案例列表
深度学习究竟将如何改变未来,一个具有光明前景的领域就是其在医疗以及生物学相关问题上的应用,在相关论文预印本网站bioRxiv上,可以找到很多相关的文章。由于这个领域的进步很快,这篇一年前写的文章,现在看来已有些过时。本篇文章列出了部分现有的应用深度学习技术处理医学和生物学问题的工具,从这个列表中,可以看出当前深度学习在该领域的挑战和局限,也可以全面的了解深度学习在计算生物学,医学影像及生物信息等学科所具有的广泛应用场景。
深度学习+生物的论文发表数量
发表的论文中所用的模型的比例
1>药物研发类
1)药物研发中需要预测不同结构的分子相互作用的情况,这可以大幅节省研发的时间和金钱成本。通过使用实验验证的数据,Ryan Adams将分子中的原子看成图中的点,将原子间的化学键看成是图的边,使用卷积神经网络预测全新的分子的性质,这项技术又被称为分子指纹,具体参考https://github.com/HIPS/neural-fingerprint。
药物分子间相互作用的示例图
2)ORGAN 使用强化学习和对抗神经网络来自动化的指导新药的研发过程,该模型能够按照指定的目标,去寻找符合要求的药物的分子结构。这种方法本来是一个通用的框架,适合各种类型的离散型数据,包括文本,乐谱,而这里针对药物研发的问题进行了针对性的优化,参考https://github.com/gablg1/ORGAN
3)使用强化学习来从头开始生成药物序列,上述的两个工具,还只是辅助药物的研发,而通过RNN和强化学习的结合,https://github.com/MarcusOlivecrona/REINVENT中介绍的工具,可以从一个分子开始,生成只在特定的受体被激活的分子序列,例如针对多巴胺2型受体,这个工具生成的序列经过实验验证,95%都满足需求。
4)DeepChem,这是一个python库,应用了LSTM和卷积神经网络,作为一个可以从小样本中学习的计算化学工具DeepChem不止可以应用在药物的研发,还可以用在材料科学,量子化学的研究中。
2>基因组学
1)DeepVariant,这是一个2016年由谷歌的Deep Mind团队推出的工具,通过将基因数据转化成图像,再通过图像识别的模型,找出基因中有差异的部分,如下图所示,该工具在升级之后,在多项标准的检测指标中表现的和传统方法相差不多。https://github.com/google/deepvariant
DeepVariant的原理示意图
2)ADAGE ,这是一个用降噪自编码器来分析基因表达数据的工具,所谓的基因表达量数据,就是针对每个基因,在不同的细胞中检测有多少RNA从其中转录,从而得出对应的基因产生了多少影响。通过对高纬度的基因表达量数据进行降维,ADAGE可以识别出不同样本间的相互关系,相比于传统的PCA或ICA的方法,ADAGE能够更准确在表达量都较低的情况下识别出具有生物学意义的基因。https://github.com/greenelab/adage,类似的工具(使用相近的模型,实现相似的目地)还包括https://www.biorxiv.org/content/early/2017/11/05/214122 , http://biorxiv.org/content/early/2015/11/16/031906 ,https://github.com/uci-cbcl/D-GEX 等,这里就不一一列出了。
3)DanQ,DNA序列中编码蛋白质的区域被称为基因区,然而这只占序列总长度的2%,其他的序列有些作用是调控基因的表达,例如让一些基因多翻译一些,让另一些少翻译一些,而更多的部分,则不明确有什么功能。通过深度学习中的RNN或CNN等模型,可以预测基因中那一段是有调控作用的。类似的工具还有BassetDeepSEADeepBindDeepMotifPEDLAFIDDLE, 从工具的数量上可以看出,这个领域的研究是相对容易出成果,也是具有较大潜力的。
4)DeepCpG,这是一个用来预测不同细胞的基因组上那些未知会被甲基化的工具,甲基化意味着通过(点击查看表观遗传学是什么)改变了基因的表达,而基因上会发生甲基化的位置,和其附近的序列有关,因此可以进行预测。类似的还有针对单细胞测序开发的工具,参考http://www.nature.com/articles/srep19598
3> 其他应用