热门关键词: 鹰谷Integle 跨界皇后镇分子 生物学中 中国大数据 InDraw
软件面临"卡脖子"?国内有生物信息学软件可以替代SnapGene或Benchling吗?
时间:2022-05-25 15:23:24 来源:鹰谷网
摘要 : 在基础工业软件领域,我国仍处于萌芽状态,有被美国卡脖子的巨大风险。哈工大被禁止使用MATLAB后,该

在基础工业软件领域,我国仍处于萌芽状态,有被美国卡脖子的巨大风险。哈工大被禁止使用MATLAB后,该校的一名研究生在网上哀叹:“国内工业软件和国外差距至少在30年以上”。

图片

尤其是在生物学软件领域,以美国的Benchling、SnapGene为基因编辑核心的一系列软件,在国内使用时,数据必须提交到国外的云上,或是需要购买昂贵的用户授权费用。这就导致很多学者、研究员要用几十种开源免费软件,常常需要把基因数据从一个网站下载到另一个软件,又从这个软件转移到下一个网站……整个过程下来不仅结果可能不尽人意,还浪费了大量宝贵时间。  


近日,笔者了解到国内有自主研发生物信息学软件InSequence。说实话,笔者是非常高兴的,如果鹰谷能解决生物软件问题,弥补国内在生物信息学工业软件的短板,笔者是非常乐见其成的。因为对于生物从业者来说,不再受制于国外软件、不再把数据放在国外,是非常有意义的事。


经过与鹰谷工作人员沟通,笔者获得了试用权限。笔者发现,InSequence是整合在鹰谷电子实验记录本中的一个模块,这样在实现基因编辑的同时也可以直接把设计过程记录在实验记录本中,这一点与Benchling是完全一样的。现在将他们研发的功能进行了整理,以飨读者。

图片

1.0版本覆盖了如下功能点:

序列处理:fasta或genbank序列文件导入、坐标生成、序列注释、序列大小写切换、序列翻转、序列合并、互补链计算、开放阅读框计算、翻译为蛋白质、序列比对、查看酶切位点;

蛋白质生化特性计算:等电点、蛋白分子量、氨基酸疏水性、蛋白质不稳定系统、氨基酸消光系数等的计算;氨基酸组成分析,氨基酸单字母三字母表达切换;

抗体设计:抗体编号、互补决定区(CDR)注释以及CRISPR设计、引物设计、引物性质分析、序列查找与定位等。


现在,随笔者的调研,一起看看InSequence1.0的功能细节吧!


01 从序列导入开始

序列处理是生物科研人员的基本工作。InSequence支持通过多种方式导入序列:fasta、genbank等或者直接输入序列。序列导入之后,能够对序列进行自动化处理。目前系统支持生成序列坐标、序列合并、切换序列大小写、添加注释、序列翻转等操作。这些操作都是基于表格来完成的,使用、修改起来都很方便,表格的一些使用技巧(如复制、粘贴等)也能够在处理序列的时候使用,相当于在Excel中实现了序列的数据处理。

图片

图1 插入序列坐标和注释



02 DNA序列分析

把DNA序列导入之后,我们接着就能够对DNA进行分析,以便进行接下来的操作。首先我们可能需要自动匹配互补链。我们从网站上下载的序列可能常常都是单链的,系统能够自动补充互补链,构建双链DNA。接着,计算DNA基础性质,比如像Tm值、GC比以及序列长度等。不同用途对Tm值等、GC比等要求可能是不同的。

InSequence还可以支持通过多种格式复制DNA序列,复制正链、反链,或者复制成对应RNA、蛋白质的正链和反链,不再需要我们手动计算相应的对应关系。


图片

图2 DNA的性质和翻译


如果序列是可以翻译的,我们还需要标注开放阅读框,并把序列翻译成蛋白质。InSequence支持识别多种起始密码子,支持双向查找开放阅读框。可以把找到的开放阅读框标记成显著的颜色,并把序列翻译成氨基酸序列,进行相关研究。


图片

图3 自动计算开放阅读框


如果我们需要进行序列剪切,那需要查找酶切位点。我们可以直接通过InSequence表格的查找功能(Ctrl F)来一个个找,这样虽然能够找到,但也难免费时费力,在面对大量序列的时候将难以操作。InSequence支持自动把一段序列的所有酶切位点找到并列出来,这确实能快速帮助我们完成序列剪切和替换的工作。


如果想以环状形式展示序列,InSequence也能支持,但是图形相对显示还比较简单,据说正在进行优化。图谱上的注释和酶切位点也能够一并显示出来,构建出一个环状DNA的基因图谱。通过这种可视化的方法,InSequence能够帮我们更好的完成基因编辑工作。


图片

图4 查找酶切位点


图片

图5 环状DNA图


03 蛋白质序列分析

InSequence支持对蛋白质序列进行分析,从序列的角度来研究蛋白质的性质与功能。序列可能是单字母显示的,这样有时候看起来不那么舒服。InSequence能够自动进行氨基酸的单字母和三字母写法相互切换,找到最适合的显示方法。

图片

图6 切换氨基酸表示方式


氨基酸链是蛋白质的一级结构,我们常常需要从蛋白质的组成上来研究其性质。InSequence能够自动分析蛋白质的氨基酸组分,列出每种氨基酸的占比多少。此外,也可以根基氨基酸的亲疏水性质进行归类,找到那些可能是跨膜区域的疏水基团。进而也可以分析蛋白质的等电点、分子量、消光系数、不稳定性等参数,从总体上研究蛋白质性质。


目前抗体药是一个比较热的研究领域,抗体序列常常需要进行编号,帮助我们区分不同的功能区域。InSequence支持通过IMGT,Kabat,Chothia,Martin,AHo五种方法对多种动物进行编号。完成编号之后,能够对相应区域进行注释。

图片

图7 蛋白质基础性质


04 分子生物学工具

除了这些常规的序列分析功能外,InSequence还有一些分子生物学相关的工具,能够更好地帮助研究员完成实验。


首先是序列比对功能。在进行分子生物学实验中,我们难免需要对序列进行比对,找到两两序列之间的亲疏关系,或者通过比对数据库,预测未知序列可能的功能。InSequence支持对DNA或者蛋白质进行双序列比对。比对参数可以自己调节,通过修改匹配、错配、空缺的分数来控制结果的显示。序列比对的结果能够以直观方式展示出来,匹配、错配和空缺都一目了然。除了双序列比对之外,如果需要用到blast数据库资源,InSequence支持一键跳转,使用NCBI数据库进行分析。

 

然后是引物设计功能。引物设计常常困扰着很多研究员,自己的引物究竟合不合适,Tm值是多少才行,太长了或者太短了有没有影响等等问题。InSequence能够在序列的基础上添加引物,引物就在对应的DNA上方。在现有序列基础上添加引物之后还可以手动修改其中的序列,或者查看引物的性质,检查引物是否符合要求。当然,如果需要进行更加严格的分析,可以通过primer3分析。 

图片

图8 插入引物


Crispr是最近这些年比较热门的基因编辑技术,以其高效率、高成功率、低操作而备受欢迎。目前InSequence支持自动查找长度20bp以内的gRNA,以及其对应的PAM序列。

图片

图9 crispr设计


基于表格的序列操作也使得序列查找得以更好地实现。系统支持查找重复序列,可以设置重复序列的长度进行筛选;也可以通过逻辑符号进行模式查找,或者通过坐标精准查找。


05 结语

随着分子生物学的发展,生物信息学软件工具已经广泛应用于抗体的改造、基因药物设计、合成生物学等等。据报道,涉及分子生物学的行业领域市场价值大于 10万亿美元。因此,优秀的生物信息学工具,是与CAD、EDA、MATLAB等具备同等重要性。


InSequence1.0在各种便民功能整合上,显得一气呵成。但是,在很多方面,还是有明显的不足,比如质粒的图形展示界面还比较粗糙,还不具备引物优劣判断功能。笔者真诚希望国产软件能加速发展,助力中国的生物科研,让我国的生物医药真正具备独立自主的研发实力。据悉,上海鹰谷正在研发InSequence2.0,将更新生物信息相关的功能,引入更加方便的用户交互系统。


InSequence是否会成为国内首个替代Benchling或SnapGene的生物软件呢?笔者对此十分期待。

Integle鹰谷新闻版权与免责声明:

①凡本网注明:“来源:Integle鹰谷”的所有作品,版权均属于Integle鹰谷,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:Integle鹰谷”。违反上述声明者,本网将追究其相关法律责任。

②凡本网注明:“来源:XXX(非Integle鹰谷)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

③如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

联系方式:
QQ:2881516523    E-mail:integle_service@integle.com