1. 什么是构效关系(SAR)?
在药物研发领域,构效关系(即结构-药效关系,Structure-Activity Relationship,简写为SAR)是一类非常重要的数据。它是每一个化合物的结构式和活性测试数据,用于不断优化和设计新的药物分子。
图1:构效关系数据示例
2. 现有问题:文献SAR数据提取困难、耗时、低效
在药物研发相关的专利和论文中,具备大量的构效关系数据,但这些数据却难以提取出来,形成结构化的数据库,以便用于人类学习、SAR分析和AI制药。
科学家为此不得不花费宝贵的时间来整理,数日乃至数周进行Paper work,手动绘制结构式,手工输入文献表格中的活性数据,才能整理出一篇文献中的构效关系表格。
由于真实世界产生数据慢,成本高,大部分还在纸质记录上,这是药物研发、科研创新、AI制药等工作“周期长、成本高”的核心原因。
3. InPaper:AI平台让文献工作变得轻松
在大语言模型等AI技术迅速发展的背景下,鹰谷信息推出突破式创新产品——InPaper,建立AI平台,把文献进行结构化整理,获取文本和图片中的化学结构信息,并与表格中的活性数据,通过编号一一关联,实现一键下载SAR构效关系数据表,数分钟内即可完成一篇数十页的专利或论文SAR构效关系数据整理。
4. InPaper操作步骤
下面小编以PDF文献提取操作的先后过程为例,分步骤来介绍InPaper。
步骤一:上传PDF文件
图2:InPaper上传专利和论文PDF文件的界面。文件上传后进入排队,AI将进行数据识别和提取。点击文件名,就会进入结果详情页(工作窗口),即图3、4
步骤二:AI识别化学名称、结构图
图3:InPaper工作窗口,“识别化学名称”子窗口识别结果页
图4:InPaper“识别结构图”子窗口识别结构页
步骤三:识别表格
图5:InPaper“识别表格”子窗口,用于识别数据表格
说明:总表、导出和编辑
化学名称或图片形式的化合物,以及PDF表格,会由InPaper自动扫描、识别、显示于“总表”。其中,描述每个化合物的字段有:位置、SMILES、IUPAC中英文命名、分子式、分子量等。均可“导出”为EXCEL文件。
InPaper还支持在线编辑——只要“关注”感兴趣的化合物记录后,即可进行编辑。编辑后亦可“导出”。
步骤四:构效关系(SAR)组装——InPaper的重头戏
多个表格化合物的SAR由InPaper自动整理为统一格式总表,如下方图6系列所示
⬆图6上:InPaper SAR总表,15项数据自动归集在一处
⬇图6下(表1-5):原PDF中,分散在5处的SAR数据
图6系列:文献中,第49号化合物原本分散的SAR整理到InPaper统一总表
5. 总结:
5.1 鹰谷创新产品InPaper的优势
高效识别:使用AI技术,对化学名称、结构式、反应式、表格、构效关系SAR进行高效识别和整理。
自动组装:能自动组装SAR构效关系数据表,快速采集对AI制药最关键的、最宝贵的数据资产。
快速采集:数分钟内即可完成一篇数十页的专利或论文SAR构效关系数据整理。
5.2 AI制药的转折点,正在出现!
随着InPaper的应用,科学家将能快速获得更多AI可以处理的、大规模的、结构化的SAR数据!AI制药将迎来新的发展机遇!
6. 试用
使用InPaper,您的文献工作将会轻松很多倍。所以,赶快来申请免费试用吧~
请扫码添加小鹰客服为好友后,发送“申请加入鹰谷InPaper官方交流群”,然后按群内提示就能很快开通InPaper应用了。先到先得!
①凡本网注明:“来源:Integle鹰谷”的所有作品,版权均属于Integle鹰谷,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:Integle鹰谷”。违反上述声明者,本网将追究其相关法律责任。
②凡本网注明:“来源:XXX(非Integle鹰谷)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
③如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。