写于 2018-11-22 02:12:00| 千赢国际注册| 娱乐
<p>图:Christine Daniloff通过开发一种数学表示不同物种或物种内不同个体的基因组的方法,使得重叠数据仅存储一次,新算法大大减少了查找特定基因序列所需的时间在基因组数据库中2001年,人类基因组计划和Celera Genomics宣布,经过10年的工作,耗资约4亿美元,他们已经完成了人类基因组的序列草案今天,对人类基因组进行测序就是单个研究人员可以在几周内以低于10,000美元的价格完成自2002年以来,基因组测序的速度每四个月左右翻一番,而计算能力每18个月翻一番,没有新的分析工具,生物学家的出现“生成基因组数据的能力很快就会超过他们用它做任何有用的事情的能力”在最新一期的自然生物技术,麻省理工学院和哈佛大学搜索者描述了一种新的算法,该算法大大减少了在基因组数据库中查找特定基因序列所需的时间</p><p>此外,它所搜索的基因组越多,它所提供的加速就越快,因此它的优势只会随着更多数据的生成而复合</p><p>从某种意义上讲,这是一种数据压缩算法 - 就像允许计算机用户将数据文件压缩成较小的zip文件一样“你拥有所有这些数据,显然,如果你想存储它,人们自然会做的就是压缩它,“麻省理工学院应用数学和计算机科学教授Bonnie Berger和论文的高级作者说:”问题是最终你必须要看它,所以你必须解压缩才能看到它但我们的见解是如果您以正确的方式压缩数据,那么您可以直接对压缩数据进行分析并提高速度,同时保持分析的准确性“利用冗余研究人员的补偿ression scheme利用了这样一个事实:进化是吝啬有良好的设计在密切相关的物种的基因组中有很多重叠,甚至在远缘相关物种的基因组中也有一些重叠:这就是为什么在酵母细胞上进行的实验可以告诉我们一些关于人体药物反应伯杰;她的前研究生Michael Baym博士'09,现在是麻省理工学院数学系的访问学者和哈佛医学院的系统生物学博士后;她现在的研究生Po-Ru Loh开发了一种方法来数学地表示不同物种的基因组 - 或物种内不同个体的基因组 - 这样重叠数据只存储一次因此,多个基因组的搜索可以集中于它们的差异,节省时间“如果我想在我的基因组上进行计算,则需要一定的时间,”Baym解释说“如果我想在你的基因组上运行相同的计算,那么我们如此相似的事实意味着我已完成大部分工作“在36个酵母基因组数据库的实验中,研究人员将他们的算法与一个名为BLAST的算法进行比较,用于基本局部比对搜索工具,这是生物学中最常用的基因组搜索算法之一</p><p>仅在10个酵母基因组中搜索特定的基因序列,新算法的速度是BLAST的两倍;但是在搜索所有36个基因组时,速度提高了四倍这种差异只会随着基因组数据库变大而增加,Berger解释配对新算法在任何应用中都很有用,正如Baym所说的那样:我有一个序列;什么是相似的</p><p>“识别微生物就是一个例子新的算法可以帮助临床医生确定感染的原因,或者它可以帮助生物学家描述动物组织或特定微环境中发现的微生物的微生物群的特征;人类微生物组的变异与一系列医学条件有关</p><p>它可用于表征特别肥沃或不育土壤中的微生物,甚至可用于法医学,通过其微生物特征确定物理证据的地理来源</p><p> “他们正在研究的问题 - 这是一个序列,试图确定哪些已知序列与它相似 - 可能是计算生物学中最古老的问题,它可能是计算生物学中最常见的问题,”普林斯顿大学计算机科学教授,普林斯顿刘易斯 - 西格勒综合基因组学研究所的教授蒙娜辛格说:“正是出于这个原因,这个问题至关重要”在过去10年里,辛格说,生物学家我们倾向于用“参考基因组”来思考 - 基因组,例如2001年发布的人类序列草案,试图推广物种内甚至物种间的个体“但随着我们越来越多的个体甚至在一个物种,以及更密切相关的序列不同的物种,我想我们已经开始摆脱单个参考基因组的想法,“辛格说”他们的方法我当你拥有许多密切相关的生物时,它真的会大放异彩“Berger的小组目前正致力于将这项技术扩展到蛋白质和RNA序列的信息,它可以支付更大的红利现在已经绘制了人类基因组,主要问题在于生物学是什么时候基因是活跃的,以及它们如何编码的蛋白质相互作用搜索大型生物信息数据库对于回答这两个问题至关重要来源:Larry Hardesty,麻省理工学院新闻办公室图片: