热门关键词: 鹰谷Integle 跨界皇后镇分子 生物学中 中国大数据 InDraw
聊一聊化学结构命名神器InDraw
时间:2022-02-24 11:42:26 来源:鹰谷网
摘要 : “命名难、难命名、命难名!”是许多医药、化学科研工作者的一块心病,特别是当面对一些复杂的化学结构式,如何准确、高效地命名也是很大的难题。

一、你有被化学结构命名难倒过吗?

“命名难、难命名、命难名!”是许多医药、化学科研工作者的一块心病,特别是当面对一些复杂的化学结构式,如何准确、高效地命名也是很大的难题。市面上已经有一些软件能够实现化学结构的英文命名,比如ChemDraw、ChemDoodleMarvinSketch。遗憾的是ChemDraw订阅需要高额的费用,同时软件销售商也打击该软件的盗版,而ChemDoodle无论是网页端还是客户端都需要收费,在试用条件下,诸如结构式命名等功能无法使用。ChemAxon旗下的MarvinSketch由于秘钥申请和安装比较复杂也降低了使用方便性。

▲免费的InDraw很照顾国内科研工作者

 

这些软件开发商都是在国外,从软件的用户界面到化学结构式命名均是英文的,这样就会给国内用户造成了很大的不便。可以说在化学结构式命名这块,国内市场是长期空白的。对国内用户而言,我们在很长时间内没有一款能对化学结构进行IUPAC中英文命名的软件。而InDraw实现了IUPAC中文命名功能,直接基于化学结构给出英文和中文的名称,其中文命名不是基于翻译,可以说是全球首创!


二、不简单的IUPAC中文命名

对于复杂结构的中文命名,很早就有人想到先用ChemDraw等软件生成化学结构的IUPAC英文名称,然后再利用Google翻译将其转化成中文名称。实际上这种做法得到的中文命名正确率很低。通过翻译得到的结果经常会把中、英文掺杂在一起,需要人工修改,不仅费时费力,而且又极容易出错,这会导致中文名称不能再还原成正确的结构式,在中文专利知识产权保护上,会面临专利无效的风险!

▲常见化合物的英文名称与Google翻译的中文名称

 

IUPAC英文命名系统和IUPAC中文命名系统有很多差异,翻译软件只能生搬硬套地去对应,根本无法应付中文命名中很多约定俗成的命名方式。比如酚类是中文特有的命名方式,在结构式的中文命名中,我们将连接在芳环上的羟基命名为“酚”,以“benzene-1,2,4-triol”为例,对应的中文命名为“-1,2,4-三酚”,如果你直接将其英文名称用Google翻译,则会得到“苯-1,2,4-三醇”,这显然是错误的。

▲如果直接做英文转中文的翻译,是不正确的

这样的例子还有很多,IUPAC英文的命名顺序和中文命名也不一样,直接翻译也是不准确的。就拿酯类物质而言,酯命名时,其中英文的顺序是不同的。例如,中文“丙二酸乙基甲基酯”对应于英文“ethyl methyl malonate,如果你拿英文直接翻译成中文,则会得到乙基甲基丙二酸”,打乱了顺序。

▲IUPAC英文的命名顺序和中文命名不一样

 

如果就这样对化合物名称进行草率地翻译,则会后患无穷!特别是如果你在做学术过程中,论文上的结构名称是错误的,则会大大影响到你的学术可信度。在申请专利的时候,这个影响更大,如果中文专利的结构式名称不规范,则不利于专利审核与保护。很有可能你所保护的分子结构,因为命名问题被别人抠字眼钻了空子,造成损失。

 

科学出版社出版的《有机化合物命名原则2017》是目前有机化学结构中文命名的权威参考。中文命名和IUPAC英文名称差异是很大的,比如中文有机化合物名称中组合各结构构成名称时,需要采用各种连缀字来表达它们之间的相互关系,这与英文中以变换字母,尤其是元音即可表达构词的方法是不同的。

 

InDraw的中文命名系统则是参考了这本书,其最底层的命名逻辑更契合中文的命名方式,所得到的中文名称则更加准确。同时InDraw的英文命名,也参考了权威的IUPAC 1993版、IUPAC 2013版,此外InDraw还参考了无机物1980版的命名原则,命名范围更广。

▲InDraw的中英文命名系统参考权威的命名书籍

▲相比谷歌翻译,用InDraw直接生成化合物的中文名称是靠谱的选择

 

三、InDraw的命名功能到底强在哪里?

聊了这么多,是骡子是马还是得拿出来溜溜,InDraw与几位友商的命名软件到底有何异同?由于ChemDraw、ChemDoodle、MarvinSketch只能进行IUPAC英文命名,无法进行中文命名,笔者将其命名结果用Google翻译转化成中文来做中文名称的参考。

 

首先来测试一下很多人在生活工作中必不可少的咖啡因分子,咖啡因是嘌呤类的物质,常被命名为1,3,7-三甲基黄嘌呤”,在相关的CAS号查询平台和百科上都可以见到这个命名。这样命名的单体其实就是黄嘌呤了,然后再对三个甲基进行定位,十分简洁清楚。PubChem平台给出的IUPAC英文命名是“1,3,7-trimethylpurine-2,6-dione”,将单体又细分为嘌呤了。ChemDraw、ChemDoodle、MarvinSketch、InDraw的命名单体也围绕着嘌呤来,前两者的命名结果是完全一样的。

▲多种软件对咖啡因的命名结果比较

 

MarvinSketch的命名结果则稍微复杂一点,定位更多,这里有意思的一点是,将其命名结果导入ChemDraw和ChemDoodle的Name to Structure功能,前者无法显示。说明两者的命名逻辑是不一样的,也未能很好的兼容。

 

InDraw对于咖啡因的命名方式类似MarvinSketch,只不过氢取代基的定位略有不同,MavrinSketch是“2,3,6,7”,而InDraw的定位是“1,2,3,6”。杂环一般是采用并环法命名,编号顺序是顺时针,而嘌呤是个例外,先逆时针定位完嘧啶环再定位咪唑环,从命名结果上看,InDraw给出的中文命名其更加符合《有机化合物命名原则 2017》的命名顺序。导入InDraw命名的英文名称,另外三款软件均能显示出正确的咖啡因结构式。

▲InDraw的中文命名更符合《有机化合物命名原则 2017》。

 

当化学结构的复杂度提升时,InDraw的命名系统也能轻松胜任,InDraw能够命名ChemDraw无法命名的物质。

▲InDraw的命名系统具备更广泛的命名支持。             

 

这里笔者将结构的复杂度提升,换成我们的健康杀手:胆固醇。胆固醇是甾体类化合物,甾体结构在自然界中大量存在,是比较典型的四环化合物,从事天然产物化学的研究者可能经常与甾体结构打交道。比较简单的命名方式就是以甾体母核进行命名,比如在胆甾的基础上增加取代基。

▲胆固醇的命名结果比较

我们可以看到当化学结构复杂度提升时,这几款命名软件给出的英文命名不尽相同。ChemDraw、MarvinSketch的命名逻辑基本相似,所选取的命名单体是一样的,这也与PubChem数据库查询的IUPAC英文命名方式基本相似。

 

由于MarvinSketch有着两套命名系统,能同时给出结构式的俗名和IUPAC英文名,MarvinSketch也提供了“Cholesterol”,这个命名的选项。ChemDoodle似乎在这方面做的不够好,并没有选取环戊环和菲环作为环的命名单元。令人眼前一亮的是,InDraw的命名类似半俗名,直接以胆甾为命名单体,与CAS查询得到的命名逻辑一致,十分简洁!!!

 

再观察Google的翻译结果,显然就和中文命名方式有很大的差别,比如环单元命名这块,按照中文的命名逻辑应该为“环戊并菲”,而Google翻译的结果是“环戊二烯菲”,这也说明了直接翻译IUPAC英文名称的方式不可取。 

 

InDraw对甾体化合物的命名做了专门的优化,比如可以直接以胆甾、雌甾、雄甾、孕甾为命名单元进行命名,能够使天然产物的命名更为简洁。

▲InDraw命名系统支持甾体类化合物的简洁命名  

比如这五种甾体结构,InDraw可以很好地识别其甾体母核,给出的命名类似我们用的半俗名,非常简洁,而ChemDraw未能识别。

 

笔者再将物质范围扩大、用普通有机物、螺环、桥环、氨基酸、甾体以及无机物来考验这四款软件,看看它们的命名表现如何。由于化学结构多而繁杂,笔者不可能每类结构一一测试到,只能以有限的样本来测试软件的命名性能,仅供参考。

 

▲以这几类化学结构为例,来对InDraw、ChemDraw、ChemDoodle和MarvinSketch进行对比测试

基本有机物命名的对比测试:

螺环有机物命名的对比测试:

桥环有机物命名的对比测试:

氨基酸命名的对比测试:

甾体命名的对比测试:

无机物命名的对比测试:

总体体验下来,这四款软件差异还是很明显的。在我提供的基础有机物这块,ChemDoodle出师不捷,5个结构最终只能命名出2个。这几种结构里面含有Si、Se、Sn等在有机化学结构内不常见的元素,对于处理这些结构的命名,ChemDoodle相当鸡肋了。

 

而在螺环这块,ChemDoodle再度翻车,无法命名。在最后的无机物命名这块,ChemDoodle也是全军覆没,相比其他三款软件,表现实在太差。

▲InDraw、ChemDraw、ChemDoodle和MarvinSketch的命名表现。

 

无机物这块是一个分水岭,InDraw能与这三款软件拉开较大的差距,表现较优。另外三款软件在此都翻过车,比如ChemDraw连最基础的二氧化氮都无法识别,而MarvinSketch无法识别离子化合物,只能单个给出离子的命名,不能给出整 体命名,推测它只能识别共价化合物。

 

MarvinSketch支持俗名以及IUPAC英文命名,比如氨基酸“D-alloisoleucine(D-别异亮氨酸”,MarvinSketch可以给出缩写名“Hile”,同时其也支持甾体的简洁命名。在测试过程中,发现InDraw对氨基酸衍生物的处理也很到位,可以识别其中的氨基酸结构,结果十分简洁。

▲InDraw对氨基酸衍生物的命名也很简洁

 

四、结语

InDraw有着不俗的命名能力,特别是直接基于化学结构给出英文和中文的名称,使得结果更加精确。与同类型的产品进行比较发现,其命名范围广、结果可靠、支持原生中文命名,对无机物命名也有很好的效果,同时其支持一些天然产物的简洁命名。

 

简而言之,这款结构式命名神器有着如下优点:

1、 免费、原生中文界面、操作方便;

2、 业界首创的化学结构中文命名;

3、 命名范围广、正确率高;

4、 支持天然产物的简洁命名(如甾体类化合物);

5、 对无机物命名性能优秀。

超级值得一试!


Integle鹰谷新闻版权与免责声明:

①凡本网注明:“来源:Integle鹰谷”的所有作品,版权均属于Integle鹰谷,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:Integle鹰谷”。违反上述声明者,本网将追究其相关法律责任。

②凡本网注明:“来源:XXX(非Integle鹰谷)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

③如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

联系方式:
QQ:2881516523    E-mail:integle_service@integle.com