把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行

栏目:旅游资讯  时间:2023-08-11
手机版

  1.理论上是否可行

  2.现在算力是否可以达到,训练样本充足吗?

  这么多答案,都没有人提相关文献,忍不住了,来答一发。毕竟,我们可是要去割施一公韭菜的( @纳米酱 ),拿一个已经有人尝试过的点子恐怕连韭菜尖尖都薅不到(六小龄童式战术后仰)。

  用DNA序列预言人的长相,听起来是一个很牛的主意,对吧?感觉可以分分钟发 Science 的节奏。这么牛的主意,我们想到了,大佬们肯定也早想到了。第一个摘到桃子的大佬是谁呢?是克莱格.凡特(Craig Venter),那个曾经以一己之力单挑人类基因组计划所有科学家的男人。

  在介绍用DNA序列预言人的长相的具体进展之前,先看看这位老兄的光辉事迹吧。克莱格.凡特

  1998年,人类基因组计划正如火如荼地进行着。这个计划由美国能源部和国家卫生研究院投资,先后联合了英国、法国、德国、日本、中国和印度等国的科研力量,形成了一个国际基因组测序联盟。整个计划前期的领导者是大佬中的大佬,詹姆斯.沃森(James Watson),就是和克里克一起解出DNA双螺旋结构的那位。但是人类基因组计划采用的测序手段是“分级鸟枪测序法”,也就是先将基因组分成相对较大的片断,测序前将每一个片段定位到每条染色体对应位置。然后再对每一个这样的片断分别应用“鸟枪法”进行测序。1997发表的一篇很有代表性的论文,标题就是“反对全基因组鸟枪法”

  克莱格深感这个方法的效率低下,代价昂贵,于是想使用更加高效的“全基因组鸟枪测序”。但是这个想法因为精度太低,太过激进遭到了排斥。于是,克莱格决定索性单干。你们不是嘲笑我的方法吗,那就看谁先完成人类全基因组测序!其实,克莱格心中还有一个更加疯狂的想法,他想成为人类全基因组测序的第一人,并且对人类的200多个重要基因申请专利!这下,人类基因组计划的那批科学家们慌了,因为整个计划的初衷就是人类基因组数据是人类共同财富,一定要赶在克莱格这个狂人之前完成测序。

  最后的结果是双方打了个平手。在2001年2月15号,Nature 上发表了人类基因组初步测序结果。仅仅一天之后,克莱格的测序结果在 Science 上发表。2001年2月15号,Nature, 人类基因组初步测序结果2001年2月16号,Science, Craig Vetor公布测序结果。作者太多,只截取了其中一部分。

  最后,在克林顿总统的协调下,双方握手言和。克林顿宣布人类基因组计划完成,其所有人类基因组数据,不允许专利保护,且必须对所有研究者公开。虽然克莱格没能对那200多个人类基因申请到专利,但是克莱格的强力挑战客观上推动了人类基因组计划的进展。

  所以,克莱格.凡特这位老兄到底有多厉害呢?荣誉和头衔什么的就不多提了,只说一项,他曾经在2007和2008连续两年被时代杂志评为影响世界的100人。

  好了,回到正题。用DNA序列预言人的长相并不是天方夜谭,已经被克莱格.凡特这位超级大佬盯上了。这篇文章以克莱格.凡特为通讯作者,发表在2017年的PNAS上。2017年发表在PNAS上的论文,声称可以用全基因组数据预测人的物理性状,例如外貌。

  在这项研究中,克莱格.凡特和他创立的公司Human Longevity 对1061名不同年龄和种族的被试者进行了全基因组测序,并且获取了他们的高清晰三维脸部数据。使用机器学习的方法,他们发现DNA序列上的一些微小差异,例如单核苷酸多态性(SNP,single-nucleotide polymorphism),和人的面部特征有很强关联。他们也找到了另外一些SNP,与人的身高、体重、声音特征、肤色等相关联。

  基于这些,他们根据个体的基因组,预言出一些人的正脸,结果如下。每一组左边是实际长相,右边是机器学习给出的预言。

  这个预言的准确率有多高呢?这么说吧,给训练好的AI一个基因组,AI在一群人脸中找到那个正确的脸的成功率是74%。

  听起来很好,对吧。但故事还没完。正如我们之前提过的,这个主意这么好,完全可以发 Science, 但为什么只发表在 PNAS 上呢?

  实际上,克莱格.凡特这个工作尝试的第一个期刊就是 Science,但是被拒稿了!打回这篇论文的,是Science 的审稿人之一,来自哥伦比亚大学的 Yaniv Erlich 。他评论到,要实现 74% 的"辨脸准确率",压根就不需要用到基因组数据,实际上,只要知道被试者的年龄、性别和种族这三项,就足以实现75% 的"辨脸成功率"。此外,他还说到,你AI 根据基因组重构出来的人脸,并不像被试者的实际长相,反而更像是一个种族的平均样貌(看看上图,你觉得呢)。

  于是克莱格只好把这篇文章转投美国国家科学院院刊 PNAS。关于PNAS有意思的一点是,作为美国科学院院士的克莱格可以自己选择由谁来进行同行评审,于是克莱格“精心”选择了三位信息安全和生物伦理方面的专家,文章得以在PNAS顺利发表。

  不过,还有后续。Yaniv Erlich 这哥们挺有意思,把人家的稿给拒了还不够。克莱格的文章发表之后,Yaniv 把他的反对意见也写成论文,发在了biorxiv上,标题就是“论克莱格这篇文章中的重大错误”。Yaniv Erlich的文章标题(biorxiv)

  然而,克莱格也是针锋相对,随后也在biorxiv发表了一篇文章,标题就是“劳资没错!”他们指出,"辨脸成功率"不高只是因为用来训练数据样本不够大,并且,AI不仅可以预言相貌,还可以预言身高、体重、声音特征、肤色!克莱格等人对Yaniv Erlich的回应

  我本人是相信可以用DNA序列来预言人的长相的。已经有一些公司在提供DNA phenotyping服务了。例如Parabon公司,据称就曾经多次与警方合作,根据犯罪分子的遗留在现场的DNA合成出了犯罪分子的样貌,协助找到了凶手。

  其它有趣有料回答:MATLAB 能做什么?尿液其实是无菌液吗?地球上最成功的基因有哪些?未来噬菌体能否用于对抗细菌?中国人不爱读书吗

  参考文献:

  [1] Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA, Gocayne JD. The sequence of the human genome. science. 2001 Feb 16;291(5507):1304-51.

  [2] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. nature. 2001 Feb;409(6822):860.

  [3] Lippert C, Sabatini R, Maher MC, Kang EY, Lee S, Arikan O, Harley A, Bernal A, Garst P, Lavrenko V, Yocum K. Identification of individuals by trait prediction using whole-genome sequencing data. Proceedings of the National Academy of Sciences. 2017 Sep 19;114(38):10166-71.

  [4] Erlich Y. Major flaws in “Identification of individuals by trait prediction using wholegenome”. bioRχiv.

  [5] Lippert C, Sabatini R, Maher MC, Kang EY, Lee S, Arikan O, Harley A, Bernal A, Garst P, Lavrenko V, Yocum K. No major flaws in" Identification of individuals by trait prediction using whole-genome sequencing data". BioRxiv. 2017 Jan 1:187542.

上一篇:《红楼梦》的精气神 与新版《红楼梦》的得与失
下一篇:2023年河南省农村宅基地补偿新标准是怎样的