2015年3月22日,新智能时代论坛在北京举行,华大基因董事长汪建作开场演讲。
近几十年来基因生命科学飞速发展,汪建董事长在演讲中对未来生命大数据治疗、防控疾病的前景作了展望,并强调了生命大数据的重要性。他指出,近几年,我国的肿瘤发病率和心脑血管疾病的死亡率直线上升;环境和其他原因带优艾设计网_设计LOGO来的健康问题日益增多;出生缺陷、恶性肿瘤、心脑血管病等重大疾病都与基因有关,没有大数据和人工智能,这些问题都无法得到解决。
汪建董事长认为,健康和疾病防控是每个人的需求,也是人类最重大的目标,科学技术是实现这一目标的最主要手段,从基因到疾病的全部数据分析,全部人工智能化,这是未来我们面临的最大挑战。
据了解,“新智能时代论坛”是一个由微信群发展起来,以人工智能和大数据为主要探讨主题的社群,由“静·沙龙”主办,汇聚了人工智能研究领域的一批学者及业界人士。
附:汪建董事长开场演讲全文
主持人:各位群友,各位嘉宾,今天非常高兴大家来到了机械工业出版社,跟我们一起共享这个可以说是令人感动的时刻,静·沙龙一周年,暨《机器人革命》新书的发布会。
今天特别荣幸的邀请到华大基因董事长汪建先生,下面有请汪建先生致词。
汪建:11点钟的时候跟我说要来讲点东西,策划一个想法,本来名字叫做智慧人生,“惠”我改成了实惠的惠,最近在商量智惠城市,我说城市这个东西是干巴巴的,围绕着社会发展、工业革命,对财富的追求变成了主流了。那玩意儿生不带来,死不带去,大家把生命的重要性往往都遗忘了。特别是最近几年来,我们国家的肿瘤发病率直线上升,心脑血管的死亡率直线上升,加上环境等各种各样的问题。
人生一个很重要的问题就是对生命负责,对自己负责。在工业的大潮中,人工智能的开放发展中,把一些人生根本的东西都忘记了。
首先我想讲一下生命大数据的重要性。现在人类已知的疾病,大概有1万种,各国批准的临床诊断标准,有标准的诊断的方法,全球批准了大概3000种,中国批准的上市的药物是2600种,美国人批准的药物是4600种。粗粗的算了一下,中国是3000种,中国有3万-4万家医院,近1千万的医务人员。这几个数字列在一起,3000种,3-4万,1千万,最后的结论就是三个字,就是不靠谱,到医院去不靠谱。我们为了工业发展,人为财死天经地义,我们的生老病死就是听天由命了。特别是中关村这一带,没有人把生命科学研究、把生命放在最重要的位置,这几个数字一说,如果不把自己当回事,到医院去,就这一组大数据就蒙了,不可能解决问题。现在我们所有的疾病都是倒着走的,生病了到医院去,给你谈谈,估计一下,你是感冒了,咳嗽了,拉肚子,分科,分系统,做个X光,抽血检测就给药了,对不对你自己看着办吧。
其实现在重大的疾病,所有的出生缺陷是不是就是一个基因病呢?所有的肿瘤是不是就是一个基因病呢?今天我们的医院没有手段对这方面进行检测,也没有手段闹明白。为什么弄不明白?我讲了很多次了,一个人全身有10的14次方的细胞,每个细胞携带的基因数,ATCG四种碱基的数目是6乘10的9次方,15年前为了破译这个6乘10的9次方,美国政府牵头30亿美元,6个国家参与,我们有幸代表中国,那个时候我还在中国科学院,也参与这个计划。人类花30亿美元做一个人的基因组,而且花了13年的时间。所以我们的医学科技,中关村没有一个人敢碰这个领域。当时我们比较猛,就干了个事,参与了人类基因组计划的1%,到了10年以后,我们再做一个人类基因组,就花了几百万,到今年这个时候,对外的市场价格,用一个大家好记的数字就是3800美金。我在科技部表态,争取在明年做到几千人民币,从30亿美元做到今天,看得见,摸得着的几千块钱的话,这种变化速度是三到五倍的摩尔定律的发展速度,我们叫超摩尔定律,是一个摩尔定律的“变种”。华大基因有幸最早,一做这个项目就和曙光超算合作,后来和总参的神州超算,后来又跟天河超算。我们现在使用了天河一号一半的运算量,天河二号的30%-40%。我个人的健康数据是4个Tb,我们过去每年是10-30Pb的速度产出,或许明年会10倍的速度增长。可能要不了一两年,按照国家的要求,2017年我们自己产出的原始数据是1个EB,就是10的18次方,今天的天河二号承载不了,今天的存储也承载不了,财政的压力非常大。这样的数据靠医学界和生物界是没有办法承载的。现在大家都往三甲医院跑,都去协和,它也没有办法回答,心脑血管病很多是最后发病的时候才发现,肿瘤也是这样的。没有大数据,没有人工智能,是不可能解决这些问题的。所以说今天有机会到这里来跟大家交流一下,第一点是10的9次方个基因,10的14次方个细胞,我们人身上是20种氨基酸,排列组合是10的19次方,小分子,各种元素周期表100多元素,在我们身上有85种,跟蛋白质,其他分子的排列组合和作用是多少?不知道。我们的细胞是10的14次方,绿色的线是摩尔定律,华大存储和计算能力的实际增长,这不是模拟的,是把过去的10年实际的增长画了一条线。几倍的摩尔定律,但是很遗憾的是除了刚才碰到的杨强在跟我合作,在座的诸位都没有跟我们合作。当年我们在北京的时候还和计算所李老师有一些合作,我们离开了以后和计算所的合作也基本上断了。今天来这里就是请大家注意这块(基因、蛋白质、小分子),这些数字,是生命真正的大数据,过去医学只有集中在这块(人体、系统、组织、器官、细胞),所以说中华人民共和国医学大数据做得最好的就是北大的一家医院,是惟一的一个中国人拿到美国临床医学数字化认证的,积累了25年的数据是60Tb,如果乘上刚才讲的这些东西——我一个人就是4个Tb的话,会是什么样子,这是不可思议的事情。
华大基因经常做一些稀奇古怪的事情,去年12月份做了鸟类的研究,《Science》专刊发了28篇论文。华大是民营机构,基础科研是我们“吃饱了撑的”,显示我们的“虚荣心”,显示我们比别人厉害,是自达尔文以来第一次用数字化的方式把鸟类的迁徙、进化和变迁研究出来。这是典型的生命进化的大数据。
这个是育种的,我们是把所有的相关物种全部测序了,和杨强他们合作的项目,他说又有很多的进展,上次的预测准确率是92.8%,是不是又有进步了,换句话说,可能用不了两三年,我的实验室里面就能预测出我们培育出什么样的种子。很高兴的报告杨强,大家都以为我们是做一个人工智能的育种的模拟试验而已,但是今年我们种地已经种了35万亩了,这个产业他们现在估计五到十年之内就可以做到万亿,就这一个项目。这是河南大旱,玉米地颗粒无收,小米平均产量1100斤,平均收入6800块钱。
小米加步枪,江山社稷,粮草先行,因为中国的品种没有人育种,中国就被打败了,我们要让小米重返主战场,今年是35万亩,明年就是350万亩,后年就是3000万亩,一亩地6000块钱,除以2是3000,再除2是1500,就是几百亿的产值了。比尔盖茨一次一次又一次的往我们这里跑,一待就是五六个小时,希望我们跟他全面的合作。我们的目标非常简单,中国出生缺陷,能不能拿下去,弃婴岛这样的情况是不能再发生了。这个数据我们是能够做到的,这些孩子,一针致聋都可以解决的。100万人,大数据分析,国际上全球形成一个联盟,我们来牵头,提供最便宜的,相当于创客的模式,核心技术,把数据拿出来,估计几年内就是几百个P的数据,怎么分析,希望大家帮忙,我到处呼吁。肿瘤也是一样的,我们先把基因拿出来,看一下肺癌,早期的时候,这是癌症病人的肿瘤标志物,正常人的有一点点信号,我们现在比早期X光诊断提早好几个月。肿瘤是可以早期预防的。讲人类基因的时候遇到一个很重要的问题,肠道微生物对我们起到很强大的作用,一对同卵双生的双胞胎,基因是一样的,为什么差这么多(一个胖一个瘦)?这是王俊的重要贡献,今天上午他在IT领袖峰会上讲BT和IT的融合,整个深圳非常的轰动,从来没有见过这样大规模的谈这个。这一篇文章当时评为影响世界的二十一世纪前十个科学热点,当年他是36岁,因此被评为影响世界的十大科技人物。因为粪便里面有几千种细菌,几百万个基因,分不开的,是一个数据模型,我们用几万个CPU算了好几个月,基本上分辨出来了,组装起来了,那是一个划时代的影响,是一个典型的大数据。我个人,我过去的血是这样的,红细胞离心后血浆是乳白色的,血压是这样的,我十几年前在北京诊断为冠心病,现在怎么样了,就把肠道微生物一调,高血压就没有了,血糖降下去了,冠心病没有了,冠心病好了。我自己把我早年的科学论文找出来了,我说动脉硬化是可以消退的,但是怎么样形成更加智能化的系统?我告诉大家不知道,我们得做100万人,一个人1个T的数据就是一个Eb的数据。出生缺陷,深圳市政府研究讨论100万支持我们这个项目,肿瘤,今天下午接着讨论100万肿瘤的项目怎么做,100万心脑血管病的项目怎么做,我60多岁的,更关心活得更长,老年的每一百万就是一个Eb的数据量。我们在生命医学科技界没有能力处理这个,而且这些数据的采集和搜集过程还需要机器人,需要降低成本、批量化的前提,因为这个数据是人生的最宝贵的东西。
在过去的原子弹爆炸和登月,我们都比人家落后,人类基因组计划方面我们和人家是齐步的。华大作为民间机构有点“虚荣心”——中国的科研机构排名第五,生命科学领域排名第二,为深圳基础科研做出的贡献率是49%,——我们没有义务做基础科研,虚荣心作祟,跟人家比划比划。另外很重要的是技术平台,华大基因分析的技术平台全部国产化了,我们自己国产化了,现在已经花了24亿了,加上原来的十几个亿,就这个平台的建设,加上国家基因库,加上计算系统,100亿的平台建设,我们绝对在世界上处于一个强势领先的地位。在部分上跟美国有一拼,其他的国家没有对手;科学论文去年是49篇国际顶尖论文发表;国产化的机器使得我们真正的提出为人民服务的大口号,可以在大数据、大平台实现大科学和大产业的全贯穿,但是从科学到产业,现在是政策法规的问题,是智能化的问题,我们遇到了这些问题。
过去我们非常害怕的是各种遗传病、传染性疾病,德国的大肠杆菌我们花了两天的时间做出来了,前几天的埃博拉,在非洲的基础平台建设是我们做的。最后还想回到生得优,病得少,活得长,死得快,这是每个人的需求。我指活得长是120岁以上,120岁以上还要慢慢死是自己折磨自己了。我想这是人类最重大的目标,在实现这个目标的过程中,科学技术是最主要的,这中间的科学技术我们遇到最大的挑战就是整个试验的过程全部自动化,全部数据分析,从基因到疾病的分析,人工智能化,这是未来最大的挑战。我现在没有看见哪一个数据,所谓的所有的大数据,哪一个靠近我们,连边都没有。我去核高院跟他们谈核能的力量,他们的数据量,十分之一都到不了;航天也不如我们大。这种大数据,而且这组数据的保障,宝贵性,也是不可以相比的。为了我们自己的健康,我们一起来做生命科学的大数据!谢谢大家。
精彩评论