1996年,世界上第一只使用已经分化的成熟体细胞的克隆羊多莉培育成功了。接下来的一年,一部商业上不算成功的科幻电影《Gattaca》问世。影片描述了这样的一个未来世界:只用通过基因工程优选加工出生的人才是正常人,而未经优选自然分娩的孩子都是从初始就被边缘化的瑕疵人。影片的男主角就是这样的一个瑕疵人,而最终通过自己的努力以及身边人的帮助实现了成为太空人的梦想。
电影很励志,话题很深刻,强烈推荐大家有机会观看欣赏。但是我们真正想引用的是当男主角出生的时候基因检测的结果:神经性疾病可能性60%,狂躁症可能性42%,注意力无法集中可能性89%,心脏病概率99%,有过早死亡可能性,预期寿命:30.2年。这份清单是不是很像今天的我们花上几百上千元从基因检测公司得到的结果?
DNA与本能的遗传关系
自然界中的本能行为呈现非常广泛,从普适性的捕猎、求偶到物种特定的蜜蜂筑巢、蜘蛛织网。普遍接受的生物理论认为,本能行为是特定基因表达形式的行为体现,其形成是基因突变的对应产物,和生物进化遵循同样的规律。但是这样的理论很难完美解释与环境强相关的,以及需要物种种群大规模协同的本能行为成因。
另一种生物理论认为,本能行为是特定物种经过长时间的进化作用,将特殊性行为形成可遗传的基因表现产生的。那么关于本能行为一个非常自然的问题就是,什么样的行为有可能通过进化作用而演变成为可遗传的本能行为呢?同样的逻辑,什么样的特殊技能是可以遗传的?我们可否可靠地通过基因测序鉴别出个体拥有的特殊技能?
首先让我们先搞清楚和基因相关概念的具体含义:DNA是脱氧核糖核酸(英语:Deoxyribonucleic Acid,缩写为DNA),由含氮的碱基+脱氧核糖+磷酸组成。因为核糖和磷酸做为结构性成分,在分子层面的构成都是一样的,而其中碱基又可以分为四种(腺嘌呤A,鸟嘌呤G,胸腺嘧啶T,胞嘧啶C),我们可以使用碱基标识顺序来描述DNA。染色体:细胞内具有遗传性质的遗传物质深度压缩形成的聚合体,易被碱性染料染成深色,所以叫染色体。染色体是由DNA和蛋白质构成的,DNA分子相互连接形成DNA双链,然后双链中继续螺旋形成复杂结构,在形成复杂结构时有蛋白质(组蛋白)的参入形成染色体。
基因是逻辑概念,是遗传的基本单元,指的是产生一条多肽链或功能RNA所必需的DNA片段所携带的信息,物理上可以简单理解为一长段DNA链中比较特殊的某一段序列。
细胞机体信息并非对应功能性信息
毫无疑问,染色体中DNA链条所承载的信息,是以AGTC为基础编码元素的代码序列。这其中大约有1.5%的代码,负责阐述人体内所有蛋白质的组成和结构信息,其他的代码负责阐述人体作为一个复杂机体的构建和生命周期的信息。这样的一个逻辑上的阐述自然地会引起将染色体中DNA信息,以及我们日常所熟悉的计算机程序的类比:两者都是由一长串编码元素构成的代码序列来阐述复杂任务的构成和执行。
在这样的类比中,我们可检测和序列化的DNA信息对应的是计算机体系内的可执行机器代码。这也非常真实阐述了DNA代码的纯粹描述性的特性:我们很难从DNA信息中读取到除了蛋白质组成和构建信息外的其他原理性、规则性和架构性的系统信息。正如在源代码缺失的情况下,对计算机机器代码的解读通常需要分片隔离,通过试运行的方式来达成,我们也尝试用同样的方式来系统性理解DNA代码的含义。
一方面,我们在系统化地理解不同蛋白质在人体生理活动中的作用;另一方面,我们也深入构建基因与蛋白质生产的对应关系。结合这两方面的信息,我们可以尝试构建对DNA信息系统化的理解。但是,这些尝试都面临着非常大的挑战,蛋白质的生物机理特性面临着缺乏“单一性”(功能唯一)和“唯一性”(作用体唯一)的特质,这两方面信息的结合没有想象的简单。同时,人类基因组DNA信息实际上描述的是,人体分子构成以及细胞机体构成的信息,逻辑上是人体生理的元描述,并非直接对应的人体生物机理和功能性信息。这也给我们尝试DNA代码的“试运行”带来更大的挑战。
被夸大的基因检测
到目前为止,通过基因测序来预测人体生理机能病变的成果应该还是处于初级阶段。我们目前所做的工作大范围的是在单元测试的“debug”(调试)范畴。我们可以通过比较基因学的手段来甄别基因在遗传和复制中的错误,并以此对应到特定蛋白质缺陷导致的疾病上。而对于复杂和多因化的系统性病征,通过基因测序的手段进行预测还不能达到大家期望的结果。这里面不仅仅是样本数据量的问题,更多是由于缺乏对DNA代码系统性的全局化理解,从基因到病症之间的稳定可靠对应关系非常难以建立。
最近被广泛传播的基因测序预测某些遗传病的失败,以及大家对于某些基因测序机构过分夸大的市场宣传的诟病,都是这一理想和现实的较大落差造成的。
另一个相当有趣却被忽视的事实是,所有人体细胞在细胞核内都有一份完全相同的全量染色体组,但是不同器官和组织的细胞在形态上却表现出非常大的差距。根据信息科学的理论,如果个体承载的信息完全相同,其表征上的差距一定是由于外部因素影响决定的。
同卵双胞胎的两个个体拥有完全相同的染色体,但是在成长过程中可能在性格、能力特长以及偏好上形成显著的差异,这些差异的体现至少有一部分是表征遗传的结果。
据不完全统计,我国目前至少有二三十家机构,无论规模大小、检测水平优劣,都号称能进行天赋基因检测。这些天赋基因检测是针对少年儿童进行的基因检测,分析某些特定的基因位点,以找到孩子的先天天赋。
用统计学的方法将特定的基因点位和特殊能力关联起来,看起来是符合逻辑的推演,但是这个推演的假设完全忽略了表征遗传学的作用,忽略了外部因素,特别是环境因素对于特定能力表征的影响。再加上这些统计学的研究所引用的文献,通常都存在样本量过小、样本类型单一、缺少大数据支撑的问题,相当程度上缺乏实践上的普适性。同时这些所谓的天赋基因检测在论证上混淆了统计学上的关联关系与因果关系,将基因点位与天赋潜在的关联关系表达为明确的因果关系,往往具有误导的嫌疑,是经不起严谨的科学推敲的。
张矩
现为峰瑞资本董事,曾负责Google和YouTube数据中心的构建与运维,并于2006年作为Google中国创始团队成员和首位运维人员。曾任Joyent 中国区首席代表、友友系统首席运营官,以及光速安振执行董事。国内最早一批投身云计算产业的人,现在是投资人,也是一位摇滚音乐迷。