热门关键词: InDraw InDraw最新版功能 Excel插件功能 ELN 化合物数据库记录管理系统
智能批量采集专利和期刊论文中的化学结构、生物活性和SAR数据,InPaper成功上线,限时免费试用!
时间:2024-09-19 20:17:00 来源:微信公众号:Integle鹰谷
摘要 : 化合物构效关系重要,揭示分子结构与物理、化学或生物性质之间的内在联系,是药物发现、材料科学以及基础化学研究中的核心要素。构效关系数据通常分散在大量的文献和专利中,依靠鹰谷InPaper批量提取分析。

在化学研究中,化合物构效关系的重要性不言而喻。它揭示了分子结构与其物理、化学或生物性质之间的内在联系,是药物发现、材料科学以及基础化学研究中的核心要素。然而,这些构效关系数据通常分散在大量的文献和专利中,手动收集、整理和分析这些数据既耗时又容易出错。分析一篇数百页的化学专利,常常要至少一周的时间。此外,不同来源的数据可能存在格式不一、质量参差不齐等问题,进一步增加了整理工作的难度。


为解决这一难题,鹰谷推出了全新的文献结构化挖掘系统InPaper,能够批量识别专利或论文PDF中的化学结构和反应图片、化学名称和分配活性数据,形成构效关系表。我们离AI制药的数据自由,又近了一步!InPaper专为化学家打造,将人工智能、大模型应用于PDF数据提取过程,自动化、高精度从文献和专利数据库中获得结构式、反应式和活性数据,智能组合为化合物SAR构效关系表,形成构效关系表。InPaper中的结构式AI图像识别,经CLEF2012、UOB、USPTO公开用例集的12420张化学结构式图片数量测试,平均识别准确率高达99%。让我们一起来看看,这款将为大家节省每篇专利一周分析时间的软件服务吧!


文件上传

首先,我们需要在系统里上传我们需要解析的文件(如专利、期刊论文,可以是纯文字格式,也可以是图片格式),支持上传的文件格式,包括pdf, png, jpg, tiff, bmp,word (.doc, .docx), ppt (.ppt, pptx), excel (.xls, xlsx)。先上传完成的文件会在下方文献列表中先识别,后上传的文件在识别进度中会显示“排队中” “已完成”。





一、批量识别化学名称

InPaper可以智能识别一段文本是否为化学名称,并批量将提取到的化学名称自动转换为结构式。这些化学名称的文字,可以是图片格式,也可以是纯文本格式。提取到的中文化学名称,和英文化学英文名称,可通过InDraw的IUPAC中英文命名转换技术,将这些化学名称自动转换为结构式。其中,将中文化学名称自动转化为结构式的功能,为鹰谷的全球独家具备的功能。点击心形图标,收藏进关注表后,可对名称进行修改,修改名称后会自动同步修改对应的结构式,且不会影响总表中的识别结果,方便对识别错误的内容重新编辑。




二、批量识别结构图

批量识别论文/专利中的结构图,对于识别出的结构图,如需编辑,您可将其添加至关注表中,双击更改结构,结构一旦更改,其分子量,分子式等信息会根据修改后的结构自动更新。



搜索框内支持分子式、分子量的文本搜索和结构式搜索。点击结构图,可定位到原文位置,可以复制SMILES格式,并识别出分子量、分子式等信息。最后,还可以选择是导出全部或部分所选化合物,导出格式为.xlsx的表格。





三、批量识别化学反应


批量识别图片中的化学反应式,反应式识别可以分为图片识别“P”和文本识别“T”两种。值得一提的是,InPaper的化学反应文本识别功能可将描述化学反应式的文本,转换成反应式,并自动识别出化学式中的反应物、产物等信息。支持反应式搜索,可以单步搜索,也可以跨步搜索。如反应式:A+B->C+D+F->G+H->E,单步搜索:对于上面的化学反应,进行搜索时,通过A->C搜索,可以搜索到A+B->C+D+F;跨步搜索:实现C->E搜索,可以搜索到C+D+F->G+H->E。



四、批量识别表格

将文献/专利中的多个表格进行提取,方便用户对表格中的数据再处理,便于用户对表格进行复制,可定位到原文中原位置,并高亮标注。表格的页面布局主要分为两个区域:表格总览区和InTable区(可类比Excel),表格总览区展示当下这篇文献中的所有原表格,InTable区会将当下文献中的原表格识别成可方便用户复制的格式。每点击一个上述“表格总览区”中的表格,就会在相应InTable下面识别原表格的数据。在InTable中,可以直接选中区域后,用Ctrl C/V进行复制粘贴。




五、 生成构效关系表

构效关系为InPaper中最具亮点的功能,论文/专利内化合物物化信息与生物数据往往不在同一个表格中展示,用户在阅读时往往需要在不同表格之间查找某一化合物的不同数据信息,以分析化合物的构效关系,表格信息的分散会使得用户花费过多的搜集时间。为解决此类问题,InPaper基于大模型和深度学习,将文献当中的化合物与生物测试、活性信息进行整合,提供集中化的数据展示效果,将编号自动分配对应的结构式,智能获取相应的生测数据,生成构效关系表,方便用户直接进行构效分析,加速新的小分子设计。



单击构效关系图中的“值”或“靶点”单元格数据,可跳转到原文这些数据出现的位置,并可切换活性数据的显示方式,显示为表格中的字母代号,或显示代号对应的具体数值。支持多条件筛选,便于用户查找特定靶点或特定数值范围内的活性数据,以及其他特定条件组合下的数据。




免费试用领取方式


InPaper自2017年开始研发,基于自然语言处理、大模型和深度学习,不断提高识别准确率。经过7年的内测与打磨,于2024年7月3日正式上线。


未来,InPaper将结合文献中结构化的数据,为科学家提供数据推荐服务,提供书写专利、论文等AI/GPT相关功能,助力研发实验室实现大数据的整合应用,完成数智化升级,成为科研人员的得力助手。


InPaper目前是基于SaaS的应用,欢迎广大科研人员免费试用,扫码添加小鹰客户为好友后,发送“申请加入鹰谷InPaper官方交流群”(进群请备注:姓名-单位-试用软件),即可免费申请账号哟。由于服务器性能限制,名额有限,限量领用,先到先得哦!


Integle鹰谷新闻版权与免责声明:

①凡本网注明:“来源:Integle鹰谷”的所有作品,版权均属于Integle鹰谷,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:Integle鹰谷”。违反上述声明者,本网将追究其相关法律责任。

②凡本网注明:“来源:XXX(非Integle鹰谷)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

③如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

联系方式:
QQ:2881516523    E-mail:integle_service@integle.com