admin 发表于 2022-4-1 20:37:54

人类基因组终于完整了

当科学家在 20 年前宣布人类基因组计划完成时,他们的宣布还为时过早。一个里程碑式的成就无疑已经实现,世界各地的研究人员获得了人类基因组中大多数蛋白质编码基因的 DNA 序列。但即使经过 20 年的升级,我们仍有 8% 的基因组仍未测序和研究。被一些人嘲笑为没有明确功能的“垃圾 DNA”,散布在整个基因组中的大约 1.51 亿个碱基对序列数据仍然是一个黑匣子。

现在,由美国国立卫生研究院的 Adam Phillippy 领导的一个大型国际团队在《科学》杂志上发表的一篇论文中揭示了人类基因组的最后 8% 。我们基因组中这些长期缺失的片段不仅仅包含垃圾。新数据中包含一些神秘的非编码 DNA,它们不制造蛋白质,但仍然在许多细胞功能中发挥关键作用,并且可能是细胞分裂失控的疾病的核心,例如癌症。
“你会认为,92% 的基因组很久以前就完成了,另外 8% 不会有太大贡献,”洛克菲勒的 Erich D. Jarvis 说,他是该研究的合著者,他帮助开发了许多解锁最终结果的核心技术人类基因组的片段。“但从这 8% 的缺失中,我们现在对细胞如何分裂有了全新的认识,使我们能够研究许多以前无法研究的疾病。”在 HGP 的肩膀上
人类基因组计划本质上为我们提供了常染色质的钥匙,这是人类基因组的主要组成部分,它富含基因,包装松散,忙于制造稍后将被翻译成蛋白质的 RNA。然而,没有受到影响的是一个紧密缠绕、重复异染色质的迷宫——基因组的一小部分,不产生蛋白质。
科学家们有充分的理由最初不重视异染色质。常染色质区域包含更多基因并且更易于测序。正如具有不同部分的拼图比由相似部分组成的拼图更容易拼凑一样,当时的基因组学工具发现常染色 DNA 比其重复的异染色表亲更容易解析。
结果,遗传学家在驱动某些基本细胞功能的知识方面留下了相当大的空白。着丝粒背后的异染色质序列,位于染色体的关键部位并进行细胞分裂,在人类参考基因组中都被标记为“未知碱基”的长序列 N。13、14、15、21、22号染色体的短臂序列同样被省略。“甚至不是所有的常染色基因组都被正确测序,”贾维斯补充道。“需要修复错误,例如错误重复。”

然后,大约十年前,科学家们开始开发新技术来产生更长的序列读数,以填补人类和其他物种基因组的空白。其中一项举措是由 Jarvis 领导的脊椎动物基因组计划,该计划最近为 25 只动物制作了第一个几乎无错误且接近完整的参考基因组。“这项研究是国际努力开发生产最高质量基因组件的新工具的一部分,”他说。“与 20 年前使用的方法相比,现代基因组学具有 99.9% 准确率的高保真长读取、更好的基因组组装工具和更强大的算法,能够更好地区分相似的拼图。”
凭借更新的工具和新的决心,贾维斯和其他科学家能够帮助完成人类基因组计划的开始,并最终描述了一个真正完整的人类基因组——它的常染色区域被修改,它的异染色区域得到充分展示。
“这很重要,”贾维斯说。“人类基因组的每一个碱基对现在都是完整的。”
与默芬会面
旗舰科学研究由端粒到端粒 (T2T) 联盟领导,该联盟是各个学术机构和 NIH 的一组研究人员。Jarvis 实验室的贡献发表在Nature Methods上,涉及提供工具来帮助 T2T 改进杂乱的基因组序列以产生无错误的序列。
其中一种工具是 Merfin,他们用它来清理人类基因组中一些最困难的序列。“我们在实验室中生成的基因组可能有很多错误,”Jarvis 实验室开发 Merfin 的博士后 Giulio Formenti 说。“即使只有一个或几个碱基对是错误的,也会对基因组序列的整体准确性产生重大影响。” Merfin 可以测试序列的准确性,感知可能不合适的代码并自动纠正错误。因为生成现代序列的技术更加准确,所以 Merfin 仅用于最棘手的情况。
“现有技术很难评估相同碱基对的延伸,例如 AAA,”Formenti 说。“即使是现在,这些序列中也经常出现错误。Merfin 纠正了它们。”
Jarvis 和 Formenti 希望他们的贡献不仅有助于在人类基因组计划上打结,还能为与异色基因组相关的疾病的研究提供信息——其中主要是与着丝粒异常有关的癌症。当某些异染色质着丝粒基因过度表达时,癌细胞会疯狂分裂,而对着丝粒基因组的全面了解可能会为新疗法打开大门。
“我们终于开始挖掘我们曾经称为垃圾 DNA 的东西,因为我们无法理解或准确地观察它,”Formenti 说。“我们现在知道许多疾病与着丝粒中的结构重复有关,现在人类参考基因组中不再缺少这些序列,我们可以开始绘制这些疾病的起源。”
页: [1]
查看完整版本: 人类基因组终于完整了