REAL数据库子集
开始探索实体化合物数据库的实用方法
REAL 多样化集合
超大型数据库的虚拟筛选可从一小部分子集开始反复进行。这样一个多样化的子集可以为人工智能算法的教学提供重要数据,或者已经产生了有希望的Hits。REAL 多样化集合在整个 REAL 数据库中使用 MaxMin 算法鉴定了4 820万个化合物。在该集合和整个 Enamine 库存筛选化合物集合中,没有类似物的 Tanimoto 相似度超过0.65(Morgan 2指纹,512 bit)。REAL 多样化集合化合物符合 Ro5 和 Veber 标准:分子量≤500、SlogP≤5、HBA≤10、HBD≤5、RotBonds≤10和 TPSA≤140,且不含 PAINS 和毒物。
实体化合物类先导化合物
实体化合物数据库中的类先导化合物子集是根据以下分子标准过滤得到的: MW≤460, -4≤SlogP≤4.2, HBA≤9, HBD≤5, Rings≤4, RotBonds≤10. 在这套标准中,我们列出了一个"350/3"子集,其中的化合物具有最严格的理化特征,具有很高的优化效力:270≤MW≤350、14≤HAC≤26、SlogP≤3 和芳基环≤2。已去除 PAINS 和有毒化合物。
真实片段
Enamine 拥有大量的片段集合库存。实体化合物数据库扩展了这一片段空间,使您能够找到新的化合物,以增加和优化已发现的片段。我们通过对整个 实体化合物集合应用 Ro3 标准(MW<300、SlogP≤3、HBA≤3、HBD≤3、RotBonds≤3 和 TPSA≤60)来筛选 REAL 片段。我们还提取了符合更严格分子选择标准的单药库:140≤MW≤230、0≤SlogP≤2、10≤HAC≤16、RotBonds≤3 和手性中心≤1,已删除 PAINS 和有毒化合物。
按化学类别划分的实体化合物
根据虚拟筛选中经常出现的不同结构模式对实体化合物数据库进行预过滤,可大大减少计算时间。我们根据化合物结构中存在的特定化学分子/药效团,创建了一系列实体化合物数据库子集。PAINS 和有毒化合物已被删除。
- REAL amino acids, 5.2M cpds, CXSMILES
- REAL carboxylic acids, MW≤400, clogP≤3, 61.48M cpds, CXSMILES
- REAL lead-like aliphatic carboxylic acids, 44.9M cpds, CXSMILES
- REAL lead-like aromatic carboxylic acids, 14.5M cpds, CXSMILES
- REAL lead-like aliphatic primary amines, 52.14M cpds, CXSMILES
- REAL lead-like aromatic primary amines, 228.92M cpds, CXSMILES
- REAL secondary amines, 8-21 heavy atoms, 66.35M cpds, CXSMILES
- REAL hydroxamates, 348k cpds, CXSMILES
- REAL Terminal Acetylenes, 164.76M cpds, CXSMILES
实体化合物天然产物类化合物
我们利用 P. Ertl 等人发表的方法来预测实体化合物化合物的天然产物相似性。实体化合物天然产物类化合物包括天然产物相似度分数为正的药物类分子。