摘要: 到目前为止,还无法解释大约一半罕见遗传性疾病的病因。
到目前为止,还无法解释大约一半罕见遗传性疾病的病因。慕尼黑的一个研究小组开发了一种算法,可以预测基因突变对RNA形成的影响,比以前的模型精确6倍。因此,可以更准确地确定罕见遗传疾病和癌症的遗传原因。
基因序列的变异发生得相对频繁——平均而言,一个人的基因组中每一千个核苷酸中就有一个受到影响。在极少数情况下,这些变化会导致有缺陷的rna,从而导致无功能的蛋白质。这可能导致个别器官功能障碍。如果怀疑一种罕见疾病,计算机辅助诊断程序可以帮助寻找可能的遗传原因。具体来说,可以使用算法分析基因组,以找出罕见的遗传变异与身体特定部位的功能障碍之间是否存在联系。
跨学科研究项目
在慕尼黑工业大学(TUM)计算分子医学教授、慕尼黑亥姆霍兹计算分子医学研究小组负责人Julien Gagneur的领导下,来自信息学和医学系的一个跨学科团队开发了一种新的模型,该模型比以前的模型更能预测哪些DNA变异会导致错误形成的RNA。
图1 一种新的模型能更好地预测哪些DNA变异会导致错误形成的RNA
Holger Prokisch博士说:“使用现有的DNA分析方法可以对大约一半的患者做出可靠的诊断。”Holger Prokisch博士是该研究的合著者,也是慕尼黑工业大学和亥姆霍兹慕尼黑大学人类遗传学研究所的组长。“剩下的,我们需要模型来改进我们的预测。我们新开发的算法可以为此做出重要贡献。”
模型的重点是拼接
在他们的研究中,研究人员考虑了影响DNA转化为RNA过程的遗传变异,并最终以组织特异性的方式形成蛋白质。研究的重点是剪接——细胞中的一个过程,在这个过程中,RNA被切割成一种可以稍后读取蛋白质构建指令的方式。如果DNA发生变异,这一过程就会被打乱,导致从RNA上切割的DNA要么过多,要么过少。剪接过程中的错误被认为是不正确的蛋白质形成和遗传性疾病的最常见原因之一。
比以前的研究要精确得多
该团队利用现有的数据集,以便能够对特定组织中遗传变异和剪接功能障碍之间的可能关联做出陈述。这些数据集包含来自946个人的49个组织的DNA和RNA样本。
与之前的研究相比,研究小组最初考虑了每个样本,看看DNA变异导致的错误剪接是否以及在多大程度上通常通过剪接功能障碍在某些组织中表现出来。例如,一种蛋白质可能与心脏的特殊区域有关,而它可能在大脑中没有功能。
“为此,我们创建了一个组织特异性剪接图,其中我们量化了RNA上的哪些位置对给定组织中的剪接很重要。由于我们的方法,我们能够将我们的模型限制在生物学相关的背景下。我们使用的皮肤和血液样本使我们能够得出关于难以到达的组织的结论,例如大脑或心脏,”该研究的主要作者、TUM计算分子医学主席的博士生尼尔斯瓦格纳说。
图2 研究设计和主要发现
在分析中,每个基因至少有一种罕见的遗传变异,并且与蛋白质的形成有关。除了RNA上的蛋白质编码部分,还有一些部分对我们细胞中的其他过程很重要。这项研究没有考虑到这些因素。这导致了总共近900万个罕见的遗传变异被研究。
“由于我们新开发的模型,与以前的模型相比,我们能够将预测错误拼接的精度提高六倍。在召回率为20%的情况下,以前的算法达到了10%的精度。我们的模型在相同的召回率下达到了60%的精度,”Julien Gagneur教授说。
精确率和召回率是预测模型有效性的重要指标。这种精确度表明,该模型预测的基因变异中有多少实际上导致了错误的剪接。召回显示了有多少导致错误剪接的遗传变异突变被该模型恢复。
Julien Gagneur教授说:“我们通过以组织特异性的方式观察剪接过程,并通过使用易于接近的组织(如血液或皮肤细胞)的直接剪接测量来预测心脏或大脑等不可接近组织的剪接错误,从而在精度上取得了如此大的进步。”
算法的实际应用
该模型被用作欧洲研究项目“解决-研发-解决未解决的罕见疾病”的一部分。该倡议的目标是通过广泛的知识交流来改善罕见病的诊断结果。TUM的研究小组已经分析了来自6000个受影响家庭的2万个DNA序列。
此外,该模型应该使将来更容易找到各种形式的白血病的遗传诊断成为可能。为此,研究人员目前正在检查来自白血病患者的4200个DNA和RNA样本。
进一步的信息
Julien Gagneur教授于2016年来到TUM担任助理教授。2020年,他接任计算分子医学主席。他的研究是基于基因调控的遗传基础及其对疾病的影响,使用统计算法和机器学习。他也是亥姆霍兹慕尼黑大学的研究小组负责人。
Julien Gagneur教授与TUM和Helmholtz Munich人类遗传学研究所的组长Holger Prokisch一起,正在制定确定遗传疾病原因的策略。
参考资料:
[1] Aberrant splicing prediction across human tissues