REAL 数据库子集
开始探索 REAL 数据库的实用方法
REAL 多样化集合
超大型数据库的虚拟筛选可以从一个小子集开始迭代执行。这样一个多样化的子集可以提供必要的数据来训练基于 AI 的算法,或者直接产生有前景的命中化合物。我们创建了三个 REAL 多样性集合(占 REAL 数据库的 0.1%、1% 和 10%),使用户可以根据其计算资源探索 REAL 数据库。这些 REAL 多样性集合中的分子符合 Ro5 和 Veber 规则:分子量 (MW) ≤ 500、计算的辛醇-水分配系数 (SlogP) ≤ 5、氢键受体 (HBA) ≤ 10、氢键供体 (HBD) ≤ 5、可旋转键 (RotBonds) ≤ 10 和拓扑极性表面积 (TPSA) ≤ 140,并且完全代表了 REAL 数据库。一旦发现命中化合物,可以在 enaminestore.com 上找到它们的 REAL 类似物。
REAL 类先导化合物
REAL 数据库中的类先导化合物子集是通过以下分子标准筛选获得的:分子量 (MW) ≤ 460、计算的辛醇-水分配系数 (SlogP) 在 -4 到 4.2 之间、氢键受体 (HBA) ≤ 9、氢键供体 (HBD) ≤ 5、环数 (Rings) ≤ 4、可旋转键 (RotBonds) ≤ 10。在这个子集中,还定义了一个更为严格的“350/3”子集,这些化合物具有最严格的理化性质,以确保其优化后的高活性。具体的标准如下:分子量 (MW) 在 270 到 350 之间、重原子数 (HAC) 在 14 到 26 之间、计算的辛醇-水分配系数 (SlogP) ≤ 3、芳环数 (aryl rings) ≤ 2。
REAL 片段
Enamine 拥有大量的片段库库存,而 REAL 数据库则进一步扩展了这一片段空间,允许研究人员发现新颖的化合物来生长和优化已找到的命中化合物。为了从 REAL 数据库中选择合适的片段,Enamine 应用了 Ro3(Rule of Three)标准(分子量 (MW) < 300、算的辛醇-水分配系数 (SlogP) ≤ 3、氢键受体 (HBA) ≤ 3、氢键供体 (HBD) ≤ 3、可旋转键 (RotBonds) ≤ 3、拓扑极性表面积 (TPSA) ≤ 60),并且还提取了一个符合更严格分子选择标准的单药效团子集(分子量 (MW) 在 140 到 230 之间、计算的辛醇-水分配系数 (SlogP) 在 0 到 2 之间、重原子数 (HAC) 在 10 到 16 之间、可旋转键 (RotBonds) ≤ 3、手性中心 (chiral centers) ≤ 1)。
REAL 化合物根据化学类型的分类
预过滤 REAL 数据库中频繁出现在虚拟筛选中的特定结构基序可以显著减少计算时间。为此,Enamine 创建了多个基于化合物结构中特定化学基团/药效团的 REAL 数据库子集。
- REAL 氨基酸,1640 万个化合物,CXSMILES
- REAL 羧酸,分子量 (MW):≤ 400,计算的辛醇-水分配系数 (clogP)≤ 3,1.084 亿个化合物,CXSMILES
- REAL 类先导化合物脂族羧酸,6370 万个化合物,CXSMILES
- REAL 类先导化合物芳香羧酸,3290 万个化合物,CXSMILES
- REAL 类先导化合物脂族伯胺,7455 万个化合物,CXSMILES
- REAL 类先导化合物芳香伯胺,1.58 亿个化合物,CXSMILES
- REAL 仲胺,1.33 亿个化合物,CXSMILES
- REAL 羟肟酸,577 万个化合物,CXSMILES
- REAL 末端炔烃,2.66 亿个化合物,CXSMILES
REAL 类天然产物化合物
我们利用 P. Ertl 等人发表的方法来预测 REAL 化合物的天然产物相似性。REAL 天然产物样化合物由天然产物相似性评分为正的药物样分子组成。