REAL 数据库子集

开始探索 REAL 数据库的实用方法

REAL 多样化集合

超大型数据库的虚拟筛选可以从一个小子集开始迭代执行。这样一个多样化的子集可以提供必要的数据来训练基于 AI 的算法，或者直接产生有前景的命中化合物。我们创建了三个 REAL 多样性集合（占 REAL 数据库的 0.1%、1% 和 10%），使用户可以根据其计算资源探索 REAL 数据库。这些 REAL 多样性集合中的分子符合 Ro5 和 Veber 规则：分子量 (MW) ≤ 500、计算的辛醇-水分配系数 (SlogP) ≤ 5、氢键受体 (HBA) ≤ 10、氢键供体 (HBD) ≤ 5、可旋转键 (RotBonds) ≤ 10 和拓扑极性表面积 (TPSA) ≤ 140，并且完全代表了 REAL 数据库。一旦发现命中化合物，可以在 enaminestore.com 上找到它们的 REAL 类似物。

REAL 类先导化合物

REAL 数据库中的类先导化合物子集是通过以下分子标准筛选获得的：分子量 (MW) ≤ 460、计算的辛醇-水分配系数 (SlogP) 在 -4 到 4.2 之间、氢键受体 (HBA) ≤ 9、氢键供体 (HBD) ≤ 5、环数 (Rings) ≤ 4、可旋转键 (RotBonds) ≤ 10。在这个子集中，还定义了一个更为严格的“350/3”子集，这些化合物具有最严格的理化性质，以确保其优化后的高活性。具体的标准如下：分子量 (MW) 在 270 到 350 之间、重原子数 (HAC) 在 14 到 26 之间、计算的辛醇-水分配系数 (SlogP) ≤ 3、芳环数 (aryl rings) ≤ 2。

REAL 片段

Enamine 拥有大量的片段库库存，而 REAL 数据库则进一步扩展了这一片段空间，允许研究人员发现新颖的化合物来生长和优化已找到的命中化合物。为了从 REAL 数据库中选择合适的片段，Enamine 应用了 Ro3（Rule of Three）标准（分子量 (MW) < 300、算的辛醇-水分配系数 (SlogP) ≤ 3、氢键受体 (HBA) ≤ 3、氢键供体 (HBD) ≤ 3、可旋转键 (RotBonds) ≤ 3、拓扑极性表面积 (TPSA) ≤ 60），并且还提取了一个符合更严格分子选择标准的单药效团子集（分子量 (MW) 在 140 到 230 之间、计算的辛醇-水分配系数 (SlogP) 在 0 到 2 之间、重原子数 (HAC) 在 10 到 16 之间、可旋转键 (RotBonds) ≤ 3、手性中心 (chiral centers) ≤ 1）。