博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【NIPS挑战赛优胜解】用机器学习判断基因变异所属类别
阅读量:5925 次
发布时间:2019-06-19

本文共 2304 字,大约阅读时间需要 7 分钟。

在刚刚结束的 NIPS Challenge on Predicting the Genetic Variants to Enable Precision Medicine (organized by MSKCC)中,康奈尔大学威尔医学院助理教授王飞所带领的实验室在1300多个参赛队伍中脱颖而出,获得前三的成绩。王飞教授特为新智元撰写此文,介绍研究成果。

2017年11月8日,国家会议中心,王飞教授将在AI WORLD 2017世界人工智能大会AI Industry论坛进行以《人工智能与智慧医疗》为题的主题演讲。

一年一度的神经信息处理大会(NIPS)将于今年12月在加州长滩召开。由于近些年来机器学习以及人工智能的兴起,NIPS更是成为了一年一度相关方向学者不容错过的盛会。今年的NIPS更是门票早早便已售罄,连赞助商的席位也都已经soldout。

NIPS Competition是今年新增的环节,旨在吸引众多的机器学习爱好者来用他们所知道的方法来解决实际问题。由于我本人从事医疗健康方面的研究,就鼓励我实验室的人员参加其中的基因变异分类(Classifying Clinically Actionable Genetic Mutations)挑战。经过调研,大家也都感兴趣,所以一拍即合,一做就是四个月。

该挑战是由著名的Memorial Sloan Kattering Cancer Center (MSKCC)组织。众所周知在强调精准医疗的今天,理解不同的基因变异是一个核心问题。这个挑战就是根据基因的名字以及其出现的变异来预测该基因变异所属的类别,在竞赛中一共有9类,但并没有对这9类有明确的描述。也就是说,我们只有类别代号,没有类别信息。除此之外,对于每一个基因和对应的变异,还有一篇相应的学术文章,正是该学术文章提到了这个特定的基因变异对。

因此这个挑战实际上是一个9个类别的多分类问题,可以用到的信息有基因名字,变异描述以及提到的文章。在实际当中,对基因变异的分类由分子病理(MolecularPathologist)学家完成,这通常需要长时间的专业训练。即便如此,他们也经常会有不同的意见,从而有分类不一致的现象,因此这是一个非常困难的问题。挑战的组织者将竞赛设成两个阶段,第一阶段有大约三个月,而第二阶段只有一周。第一阶段与第二阶段的测试数据完全不一致。竞赛的组织者为了获得第二阶段的数据,重新组织了专家进行标注,而且这些专家与第一阶段的略有不同。并且第二阶段有新的变异出现,这些变异从未在第一阶段的数据中出现过。这是一个费时费力的过程,两个月之内只能得到150个新的标注。

显然该挑战涉及自然语言处理和机器学习,但又有些独特的挑战。比如竞赛数据中包含的文章通常都很长,是整片的学术文章,而其中只有很小一部分提到基因和变异。这就使得训练数据中有大量的噪声。不仅如此,基因和变异还有有别名,我们试图在文章中匹配基因和变异时经常匹配不上。还有就是一篇文章中经常会多次提到不同的基因和不同的变异,这给预测带来了更多的难度。

为了解决这一问题,我们提出了如下图所示的框架。输入包括基因以及变异本身的名字以及相应的文章。我们从中提取三个级别的特征,第一是它们的名字本身,第二是提到它们的整篇文章,第三是从整篇文章中提取的包含提到基因和变异的句子。这些特征中既包括了相对直接的特征,例如文本长度以及某些关键词的词频,又包括间接特征,例如通过LatentDirichlet Allocation (LDA)以及非负矩阵分解(NMF)降维得到的特征,以及通过词嵌入(word2vec)和文本嵌入(Doc2Vec)得到的特征。我们花费了非常大的功夫在特征工程上,测试了各种深度学习和非深度学习的方法,最终确定了20类特征(如表格中所示)。随后这些特征通过不同的组合输入到分类器当中,我们也测试了很多种分类器,最终根据效果选定了GradientBoosting Decision Tree (GDBT)。不同分类器的预测结果又被集成(Ensemble)起来,从而得到最终的预测。在特征工程的过程中,为了解决别名的问题,我们还利用了额外的数据,包括PubMed上相关文章的题目和摘要,以及一些额外的基因和变异的名称库。我们后面会写一篇学术文章详细介绍各个环节。

189741f2daddb86d1f4d68733071589e5f7ce95b

该竞赛吸引了全球超过1300个队伍参赛,最终我们的方法被选为最顶尖的解决方案之一,并获邀在NIPS的Competition Workshop上进行报告。我们会通过这个竞赛建立与MSKCC的合作,从而继续完善我们的方法并希望能最终应用在临床医学当中,为医学研究作出贡献。

8acc65f5cad56cff094e8effb04ded2be4aa653f

AI World 2017 世界人工智能大会(11月8日,北京国家会议中心)上,我们邀请到了本文作者、康奈尔大学威尔医学院助理教授王飞,为我们现场解读人工智能技术在医疗应用中的常见误区及挑战,并展望发展趋势。

3eaccd3d11760ccb8e2861392163a67692d51031

王飞,博士,康奈尔大学威尔医学院助理教授,IBM沃森研究中心顾问,法国液空集团研究顾问。曾任职于康涅狄格大学以及IBM沃森研究中心。他于2008年在清华大学自动化系获得博士学位,其博士学位论文“图上的半监督学习算法研究”获得了2011年全国优秀博士论文奖。主要研究方向包括数据挖掘,机器学习技术在医疗信息学中的应用。王飞博士已经在相关方向的顶级国际会议和杂志上发表了近190篇学术论文,引用超过5000次,H指数39。

原文发布时间为:2017-11-4

本文作者:王飞

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:

转载地址:http://ctovx.baihongyu.com/

你可能感兴趣的文章
Troubleshooting JDK
查看>>
Spring整合数据源Druid
查看>>
猜数字游戏(基础)
查看>>
Linux分区,格式化概念理解
查看>>
试制品
查看>>
js合并单元格
查看>>
办公室政治的问题
查看>>
计算两点间的距离
查看>>
多线程下载(基础)
查看>>
apose和spire操作word
查看>>
Python的介绍及Pycharm软件的安装
查看>>
飞行员配对方案
查看>>
ThinkPHP 5 验证码
查看>>
Eclipse c++环境搭建 并加载OpenCV库 2015最新
查看>>
Js学习(3) 数组
查看>>
触发器
查看>>
重载和const形参
查看>>
二进制 八进制 十进制 十六进制之间的转换
查看>>
Python菜鸟之路:Django 分页
查看>>
在Win10系统中使用照片查看器
查看>>