一般来说,一想到被抢先报道的前景,第一反应就是既绝望又希望,希望你的对手“某人”死去。你可能会考虑要放弃,但是这可能会让你没有任何明确的东西显示这几年的辛劳结果……所以很难不考虑重新尝试用你的对手相同的方法去和他竞争。虽然你现在落后,但是只要稍微比他聪明点你就可能赶上他。然后你的对手可能会彻底气疯了。
——詹姆斯·沃森,《倾情DNA:基因、基因组和社会》
在我们开始测序首例人类基因组很久以前,甚至在确信我们将能够做这件事很久之前,我们就开玩笑地猜测谁的DNA将特别荣幸能从头到尾被第一个阅读。谁将拥有科学好奇心、自信心和安全平静的头脑愿意测序他或她的基因组?尤其当大多数人被遗传决定论者们吓唬得认为这将揭露他们所有的生物秘密时,谁将有足够的理解力理解遗传和环境之间深奥的相互作用从而愿意看到自己个人的遗传程序发表在网上?
技术问题同样也包括在内,很多问题归纳一下就是,比起微生物使用的初级的无性生殖,性是怎样引入人类更多的遗传多样性的?当谈到测序细菌基因组,我们选择了参照复制品——所有这些都是相同的,正如称呼所表明的——将提供一套同种DNA样本。因为我们使用高度纯系株的果蝇基因组确保我们拥有的DNA尽可能排除变异。但是当谈到人类基因组时,就有许多遗传变异,像地球上的人们一样多。
因为人类DNA的结构是双螺旋状,有两条互补链,我们测序哪条DNA链无关紧要。但是这里存在一个人类复杂化的问题。人类23条染色体中的每一条都是成对存在的:23条来自我们的母亲,包括X染色体,23条来自父亲,或者包括一条X染色体代表女儿,或者包括一条Y染色体代表儿子(因此女性有两条X染色体,而男性有一条X,一条Y)。
首先一个问题是,测序对象该选择男性还是女性。男性有个优点,他既有X染色体也有Y染色体,但是缺点是X和Y染色体只有一半的DNA,而其他22对染色体却拥有所有的DNA;如果我们选择一位女性,那么将有两个X染色体而没有Y染色体。如果我们只研究一个人,我们应该选择一个普通人作为实验对象还是总统克林顿呢?那个人的责任和风险是什么?这个人会同意吗?
早些时候,清楚的是,当技术准备甫定,要测定人类基因组变异的程度,将毫不怀疑地要付出巨大的努力,选择谁做样本真的不是那么重要。无论如何,如果可以在遗传测试中找到与疾病有关的序列差异的科学利益和商业利益,那么对我们来说获得尽可能多的遗传多样性是有意义的。这就意味着我们应尽可能从几个人那里测序公共DNA,并且创建一套一致的基因组序列,这个序列不代表任何个体,而是人类总体的融合,一份参照基因组。
吉恩·梅尔斯和他的小组做了几个计算,看在这个公共DNA序列中,我们可以使用多少实验对象而不致引进太多的变异,以至于它将危及我们使用现有的算法和计算机拼接参照基因组的能力。如果我们允许实际覆盖一个人的基因组来帮助组装的话,那么5个或者6个人就是极限了。我们决定我们将尽力从男女双方得到一份混合的DNA,并且包括一些种族多样性。
在TIGR,塞雷拉成立之前,海姆·史密斯就发愁怎样创立最好的人类基因序列文库,这并不只是因为他没有足够研究人类DNA的经验。海姆和我有过几次讨论,讨论怎样取得人类DNA,包括获得商业来源。但是为了生成文库,而且为了完全确定我们知道它们里面包含什么,海姆必须从头开始。
人类取样也意味着漫长的事先知情同意程序,这甚至将阻止我们在6个月建造塞雷拉的期间开始进程。由于海姆和我渴望前进,下一步很明显:当开始寻找人类DNA捐献者时,我们感到地球上再也没有比我们更知情的人了——我们对于测试他们的基因组并公布出来的可能的风险有深刻的理解。海姆和我都不认同过分简单的基因决定论概念——认为我们仅是我们的基因所创造的“我们”,而且我们生活的轨道能从我们的遗传密码精确地预测到。同时我们都拥有一个对我们自己的基因组本能的好奇心。在我们心中,从来都不认为我们会承担任何医学风险,除了可能对我们的心理的影响:我们可以预料来自我们的诽谤者们的政治攻击,如果他们知道了我们采用了我们自己的DNA。
一旦我们同意使用这个方案,我们每个人都决定我们要为文库提供一个丰富而容易产生的DNA来源:以精液的形式(我们不久就开玩笑说谁将需要较大的试管)。最后我们确定使用标准50毫升的无菌试管并且冷冻其中的精液。虽然海姆能轻易地把他的样本直接带入实验室而不让他的技术员知道试管的来龙去脉,但是我们仍然认为如果我带着冷冻的试管溜进实验室并移交给他们,还是有些不宜。借助联邦快递装有冷冻试剂的盒子几乎每天从应用生物系统公司送到TIGR,于是我拿一个装有干冰的已打开的联邦快递盒子,装入我的样本,然后把它交给实验室,这样实验室大多数人以为样本来自于迈克·亨克皮勒或者托尼·怀特。这种诡计必须重复好几次因为最初的实验要消耗大量DNA。
一旦塞雷拉崛起并开始运转,额外DNA测序的问题就变得和我们当初害怕的一样复杂了。律师们介入其中,什么应该做,什么可以做,他们提供互相矛盾的意见。为了监视样本的整个测试过程,我拜访了国家癌症研究所前任主任萨姆·博德,他现在是塞雷拉的首席医学官员,他建立了一个由外来专家组成的一流委员会。开始时,我通知萨姆我们已经有了两个DNA样本,这些样本已经被海姆转变成了TIGR的文库,并且它们被用来做所有最初的测序以此启动塞雷拉程序。我向萨姆透露海姆和我都是捐献者,并解释说其他人应该包括女性和保持尽可能多的人种和地域多样性。我让萨姆决定他是否应该通知委员会,我们已经进入对两个人类捐献者的序列的解读工程;他认为最好不要通知,不过还是制定了一个与海姆和我曾做的不冲突的程序。
眼睛显示了它
阅读任何大众化的遗传学叙述,你会经常看见这些文字:DNA决定一切,从感情到疾病到智商(不论那是什么)到眼睛颜色。在教室里,全世界的孩子们都被告知,褐色眼睛是显性的——也就是说,父母之一方,如果遗传给你一个对应具有显性特征的基因,你将也会拥有这个特征。由此,如果一个父亲有褐色的眼睛,那么他的孩子可能也有,而双亲都是蓝色眼睛的话,几乎总是会有蓝色眼睛的孩子。
让我们假设你还没有遇见我或是没研究过这本书的外封套,你已经决定通过研究我的遗传密码来找到我的眼睛颜色——就像租用玛丽二世女王豪华游轮穿过哈德逊河一样[28]。我的密码的其中一卷,15号染色体,是一个好的开始之处。在那里你会发现一个叫作OAC2的基因,它是褐色眼睛和蓝色眼睛主要的决定因素。基因在专门的黑色素细胞中活动,后者产生黑色的色素,负责眼睛的颜色。我眼睛颜色的生理基础像任何其他人一样,被黑色素细胞的分布和内容所支配,尽管过程比通常认为的要复杂得多[1]。
根据一项600多人的正常有色人种的研究表明,眼睛的颜色不太可能是基于蓝色或灰色这种特殊基因的精确遗传拼写。(在一个变体中,非蓝/灰色为字母A/T或T/T,在另一个变体中,为字母A/G或G/G,或者是两个变体的结合)。根据这些数据,我的基因组显示,我更有可能有蓝色或灰色眼睛,而不是拥有科学家们所称的“非蓝/灰色”变体,我有两个变体——一个是C/C和A/A,第二个是G/G和A/A,而且我确实是蓝眼睛。然而我的基因组告诉我一个直截了当的结论,眼睛颜色实际上是依赖于几个基因的,尽管不是很常见,但是两个蓝眼睛的父母是可以生出褐色眼睛的孩子的。并且,尽管蓝色和褐色眼睛在高加索人中是显性的,我们也有灰色/绿色/淡褐色和间于它们之间的色度。简单和过分简单化的教科书对于眼睛颜色的遗传学描述没有做出符合自然的公正评判。
委员会表达了两点主要顾虑。第一,如果那个捐献了他们的DNA的人被识别出来的话,而且如果他们基因组中的任何疾病基因被识别出来,他们就要冒可能失去他们的死亡保险和/或者人寿保险的风险。类似的,如果他们有与各种不良社会特性或病态人格有关的突变,那么一旦他们的身份随着他们的遗传密码显示出来,它就能引发这些对应的问题。我们最终确立的政策是,由于责任和保护我们的捐献者的需要,塞雷拉将不再公开他们的身份。然而,如果捐献者们希望的话,委员会承认他们自己有权决定是否公开他们是捐献者。
第二点顾虑是关于测序不同种族背景的基因组。我就“种族问题”只与委员会会面了一次,因为真正的担心是数据可能被一些人用来替种族主义辩护。对我而言,测序5个白人男性的基因组来代表人类根本就是错误的。尤其是在遗传层面上,我们看起来都是相同的。当委员会听说这些争论时,很快就差异性达成一致。我们想征集大约20个可能的捐献者并就此在《华盛顿邮报》上、塞雷拉公司以及应用生物系统公司周围做了相应广告,那么至少有两个记者提供了他们的DNA就不足为奇了,其中一个还写了一篇有关塞雷拉捐献DNA过程的文章[2]。
包括海姆和我在内的每个捐献者都要求听一节关于承担风险和事先知情程序的课,并且签订必需的协议。当博德提供给我们一份他与顾问委员会一同起草的同意文件时,我开玩笑说我们不想从任何有能力把30页的复杂法律文件通读下来仍然有能力射精的人那里得到DNA,因为他必须是一个律师。
每个捐献者会因为他或她的样本得到100美元的报酬,对于女性来说,样本是血液,从胳膊上抽取,男人既要提供精液还得提供血液(尽管有几个拒绝提供精液)。(当这个过程被描述给一位知名的公众人物时,她讥讽道,“这场景真是无懈可击:男人获得高潮可以得到报酬,女人却要被一根针刺一下。”)我们对获得的每一份样本,分配给它的捐献者一个代号,只有博德有密码。
我们试图为每一个捐献者培养细胞株并产生序列文库,接着进行测试序列。那5个最后人选由我的高级职员来选择,其中包括博德,以匿名的信息为基础,其中包括代码、性别和自认的种族以及既能提供永久细胞株又能提供好的序列数据的高质量的文库:这些人是海姆、我,以及三名自称的非洲裔美国人、中国人和女性西班牙人。我仍然不知道任何女性的身份。尽管几名捐献者,包括记者在内,后来公开了他们的身份,但是不重新测序他们的另一份样本,就没办法在他们和测序的DNA之间建立连接。我们最终发表的序列是五个捐献者的合成物,我们的基因组序列甚至可以组装成一个合成物的事实证明了地球上的人类在DNA层面上的相似性。
在使用谁的基因组做测序这一点上,政府计划甚至面临着更大的麻烦。科林斯和他的同事们吹嘘他们已经混合了15~20个个体的DNA,这样最终的基因组序列将来自数个匿名者。数年后,众多的DNA BAC文库已经从博士后、实验室捐献者等人捐献的样本中产生了,但是这些捐赠者当时都没有考虑过一些棘手的问题,比如伦理问题和知情同意问题。如果一个或更多的捐献者自我识别并拒绝自己的基因密码被公众使用的话,所有的文库就都要被摈弃,这使得公共计划随时面临挫折和风险。然后几乎所有的公共基因组最终都仅来自一个或两个捐献者(这样有利于长时间地保守秘密)。
果蝇基因组最后的片段被测序后,我就把塞雷拉的设备转移到对人类基因组发动全面攻击的战役上了。当时——1999年9月8日的早上——我们的技术小组和ABI员工的所有的努力已将测序机的故障率,从曾经高达90%降至10%。这就意味着我们仍然有至少30台价值30万美元的测序机每天都需要修理,但是即使是故障率如此之高,我们还有足够的能力在300台能运转的机器上用不到一年的时间测序人类基因组。
但是那时,我们还有压力:公共计划宣布它已经测序了大约1/4的基因组。在另一次重大修订策略后,我的对手们宣布他们将只制作基因组的一个粗略版本并且到第二年春天完成这个“第一草图”,毫无疑问会伴随有一个媒体狂欢活动了。我们在塞雷拉所做的和已改变的公共计划所做的重要差异可归结为标准和策略:全基因组霰弹式技术对比于传统的分级测序法。我知道我们已经有了获胜的策略,政府投资的实验室即使用相同的或甚至更大的测序能力,也不能和我们竞争,除非他们放弃他们的标准,改变他们的计划而采用我们的。
在开始我们的工作的前一年,1998年9月,公共计划的线路图已经改变:他们要在2003年前即在塞雷拉能够完成工作前做一个基因组草图,2003年是沃森联合发现双螺旋第50周年纪念。取代在10年间发表高质量数据的原始计划,他们现在正努力尽可能快地把未分析的序列倾倒进公共数据库中。我的自称的竞争对手——幸存下来的5个基因组中心,他们给自己起了一个绰号G5(这个团队是以G18开始的)——相信自己通过这样做,他们会阻挡我对基因组申请专利,而且他们也会为首批完成人类基因组而获得荣誉。我为他们思想的愚蠢和不成熟感到困惑。当我的许多批评者们正着迷于塞雷拉数据的发表时,公共投资的实验室正不在意地把序列倾注到公共数据库中,制药公司正快乐地每夜下载这些序列,所以他们能在它们上面申请专利。因此,反对人类基因组申请专利的人们制定的这个天真的政策肯定起了相反作用:基因专利申请得又早又快,几乎所有的专利都是基于政府数据,而不是塞雷拉的。
多亏了在公共关系方面的文过饰非的精彩工作,降低公共计划的标准并没有遭遇过许多批评和分析。似乎没有人充分意识到公共计划通过改变它的目标,即将有效地高精确地完成一个染色体一个染色体的努力的目标,改变为测序人类基因组的一幅又快又脏的“粗略草图”,有关“质量第一”的最初真言就到此为止了;认为基因组草图将削弱正确地完成工作的动机的担忧也到此为止了。这使得我们在塞雷拉所承担的工作呈现出彻底性和综合性。
关于塞雷拉的核心仪器3700型的测序仪的负面报道很多,斯图尔特的小组曾在《科学》杂志上发表了一篇对该仪器的评论[3],声称它作为较短的序列片段的专用仪器——“阅读”——它没有提供什么优势(“在资金投资方面,没有马上增加生产力”)。这篇评论引发了ABI和塞雷拉公司股票价格的下跌。具有讽刺意味的是,我决定使用3700型测序仪后,对仪器的评价判断基本上被政府资助的小组忽视了,他们在购买这些昂贵的设备之前,没有做通常要求他们做的令人讨厌的评估和分析,并且我们的那些保守派竞争对手也在争相尽快购买相对而言未经测试的3700型测序仪。塞雷拉创办后的那年,ABI报道了10亿的销售额。威尔康信托基金在3700型测序仪上花了比塞雷拉更多的钱,以便它的桑格研究所可以测序25%~30%的人类基因组。同时,麻省理工学院借钱给埃里克·兰德购买比政府准备资助的更多的仪器,借钱的前提是他从弗朗西斯·科林斯那里得到了资助(资助一年的金额为4000多万)的基金管理费,这使他有了公共计划里最大的经营运作。
多亏了G5的策略的改变,我的老板们站着就挣到更多的钱。亨克皮勒和怀特高兴地给公共计划提供产品,现在公共计划打算买价值数百万美元的3700型测序仪和试剂,怀特们就像军火商发动一场战争以便他们可以把武器卖给交战双方。当我的小组注意到我们的企业“伙伴”以较快的速度装备我们的对手们时,不免士气低落,我不得不努力使他们精神振奋起来,这真令人丧气。
用相同的仪器来阅读遗传密码意味着——除了政府资助计划的非同小可的10倍多的金钱和人力资源——塞雷拉和公共计划之间胜负取决于我们各自的科学策略。用得最多的词测序意味着遗传密码的字母真正地以适当的顺序组装;没有人会认为只是通过往桌子上扔几张碎片就能组装一个拼图玩具。然而,因为政府资助的实验室正在做数千个微型基因组计划,通过一次一个地测序BAC复制体,他们不得不处理数千个小型的拼图,但是我们只要做一个大的就可以了。我从来不曾想象,他们会想要拼接他们所有的拼图碎片——BAC复制体或者染色体。我正在为我的科学的完整性下赌注,希望它能占据上风;也为我的程序员们、我的方法和我的高功能的计算机下赌注,希望它们把如此庞大的公共计划淘汰出局。
用霰弹枪序列拼接一个DNA序列,只要求很少的序列覆盖范围。比如,1倍或单一的含有10万碱基对的BAC复制品,这意味着你已经生成了10万碱基对的DNA序列。但是这并不意味着你已经一次性测序了复制品的每一个字母。潜在的困难是这些被随意生成的DNA片段(比如,如果你把一张报纸撕成50块碎纸,把50张这样撕成的碎纸混合放在一个盒子里,然后随意抽出50张碎片,那么你肯定不可能最终拼成一份完整的报纸)。把这些任意片段再放回到一起,就像统计方法所预料的,你会发现1倍的覆盖范围实际上仅代表了66%的复制品的DNA序列。(一些部分将被复制;其他的将会丢失)。3倍的覆盖范围被要求覆盖96%的序列。用政府计划的序列聚合法,它将用8倍到9倍的覆盖范围安排和确定片段重构一个BAC复制品。我们曾认为我们也会需要那么多。但是我们的果蝇试验成功后,我知道我们能够只利用很少片段就可以获得比99.6%以上的人类染色体覆盖范围。多亏了我们的末端配对技术,我们在每一个复制品终端测序DNA,复制品有2000、1万或5万个碱基对,只要5倍覆盖范围就可以得到正确顺序和确定方向的序列。
与塞雷拉的竞争也使得我们的对手们把他们的努力相对集中。当公共计划瓜分基因组开始时,一些实验室极具领土观念,并且打赌说他们具备了测序人类染色体和部分染色体的能力,而当时他们甚至根本没有钱、设备和能力去做这些事。到1998年9月,整个基因组已被预订瓜分,但不是每个当初下单的人都能够很快绘制出图谱,并进行高效率的测序。总的来说,因为BAC复制品图谱的有限供应,公共计划正处于崩溃的危险中,尽管它比塞雷拉整体测序能力要强得多。
可以理解,埃里克·兰德对这个状态很不高兴,1998年10月,他提议放弃瓜分基因组的协议,改为从一个覆盖着整个基因组的文库中随意选择的序列复制品。这个建议意味着不再看重公共计划的脆弱的共识。然而,那年12月,他接受了妥协:萨尔斯顿和沃特斯顿将确保为公共计划提供足量的对应复制体。到1999年3月,得到了“激动的”副总统艾尔·戈尔的支持,该协会宣布,到2000年春天,它将生产至少90%的人类基因组序列,以“工作草图”的形式完成,“比预期的早很多。”[4]加速的公共计划中除了占支配地位的四个主要实验室,他们作为次要的参加者们心理是压抑和不平衡的,因为科林斯甚至冷静地提出逐步淘汰进度不理想的中心,“他们的领导更沮丧。”[5]俄克拉何马州的布鲁斯·罗是一位早期的DNA测序者(结果证明,他还是在新闻界一些丰富多彩的引文的始作俑者),更简单点说,他是“被国家卫生研究所用K-Y凝胶对待的家伙。”[6]
虽然兰德已经清楚地明白,不采用我的方法,政府项目的努力将不能组装一份人类基因组序列,他相当确认我们的方法更好或者甚至更有用,在公开地攻击它的同时,他开始私下采用它,更糟的是,科林斯和其他人试图使用纳税人的钱秘密资助塞雷拉的一位商业竞争者,加利福尼亚的帕洛·阿尔托的因塞特基因组学。在这项秘密交易中,因塞特将提供配对的DNA序列以帮助政府资助的实验室与我们竞争,具体就是他们在SNP协会的帮助下搜寻并提供单字母的核苷酸多态性(SNPs, or snips)。他们的秘密协议得到了威尔康信托基金和一些药物公司的支持。它不仅推进政府计划拼装它的基因组数据的速度,而且意外收获一个副产品SNP,有效地成倍增加了协会中对制药公司有用的数据,所以他们使用相关数据不需要与塞雷拉交涉。通过SNP研究联盟,科林斯也能否认“他”(国家卫生研究所)正资助因塞特并帮助它与塞雷拉竞争。科林斯使用SNP研究联盟的另一个基本理由是他们无须发表数据(该协会不受制于政府/威尔康信托基金的规则)。这样他们既可以否认他们正使用我们的配对技术,又确保塞雷拉不能从这些数据中获益。该协会的一名成员,格兰素威尔康的艾伦·罗斯对这些手段感到愤怒,他告诉了我科林斯正在做什么。科林斯曾大言不惭:“我们不认为世界上的研究者们没有免费和开放的数据库这一事实是正当的,这种情况甚至连一天都不应该存在。[7]”但是他和兰德实际上正为数百万的序列保密着呢(序列至今还从来没有发表呢,除了已组装的部分)。