Decimer：为化学图像识别进行深度学习

今天为大家介绍的是耶拿大学的研究人员一直在开发一种名为的深度学习系统，其用于自动识别科学文献中的化学结构图。该系统能将分子图像转化为一种名为的标准化化学符号。虽然目前在训练阶段的表现不如传统方法，但研究人员相信，如果训练时间更长，它的准确率也能达到类似水平。的效果取决于输入数据的表示方式，和可能比普通更好。研究表明，如果使用 5000 万到 1 亿个结构的更大训练数据集，就能实现准确预测。

引言

从化学文献中识别化学结构图，即光学化学实体识别（OCER），对于提取化学信息和填充开放存取数据库至关重要。现有的 OCER 软件系统（如 Kekulé、和）涉及扫描、字符识别、图表编译和后处理等步骤。这些步骤都需要细致的调整，而增加新功能更是耗费大量人力物力。

受基于深度神经网络的 Zero 取得成功的启发，研究人员认识到将深度学习用于 OCER 的潜力。他们意识到，与过去依赖有限的人类注释示例的方法不同，他们可以从生成器或开放化学数据集创建的大量化学结构来源中生成训练数据。

其他针对 OCER 的深度学习尝试，如 Schrö 小组的工作，成功地从位图中提取了机器可读的化学结构，但缺乏可公开复制的软件。方法提出了一种涉及图像分割和图构建算法的模块化方法。

在此背景下，研究人员介绍了他们在化学图像识别深度学习（）方面取得的进展。这种深度学习方法的灵感来自 “展示-讲述”（show-and-tell）网络，可将出版物中的分子图像转换为符号。与其他一些方法不同，不假定图像中存在键或元素符号。该研究报告的初步结果表明，只要有足够的训练时间，就能达到与传统方法相当的性能。

化学专业数据库_化学专业数据库怎么用_化学库数据专业就业方向

训练用于化学图像识别的深度神经网络

作者的方法被称为 “化学图像识别深度学习”（），目前的训练阶段还无法与现有的传统光学化学实体识别（OCER）方法相媲美。不过，作者提供的证据表明，只要有足够的训练数据，作者的方法就能达到类似的检测水平，而不需要典型 OCER 工作流程中复杂的工程步骤。

作者的核心理念是调整最初为标注普通照片而设计的示意深度神经网络。作者对其进行了重新训练，使其能够在呈现化学结构的位图图像时生成标记序列。作者没有从文献中抽象出化学结构图作为训练数据，而是利用了结构图生成器（SDG），如化学开发工具包（CDK）中的结构图生成器。这样，作者就可以生成无限量的训练数据。作者可以修改这些数据，通过应用模糊和添加噪声等技术来模拟化学文献中不同的图像质量。是 CDK SDG 的输入结构源。

作者为所使用的数据制定了特定的编辑规则，包括分子量低于 1500 道尔顿、特定元素、有限键等要求和其他限制。作者使用 CDK SDG 从化学图中创建分子位图图像，确保为深度学习模型提供高质量的二维描述。作者的模型采用了基于 2.0 的自动编码器网络，该网络基于 Xu 等人在图像标题生成方面的研究成果和注意力机制。该模型由一个编码器网络（CNN）和一个解码器网络（带有 GRU 和全连接层的 RNN）组成，并采用了等人的软注意力机制。

化学专业数据库怎么用_化学专业数据库_化学库数据专业就业方向

of the

对于文本数据，作者使用字符串，将其编码为常规、和等不同格式，以评估数据表示对学习成功率的影响。作者发现，优于常规，因此作者的模型继续使用。总之，作者的方法仍处于早期阶段，目前正在使用深度学习训练识别化学结构。虽然目前的性能还无法与传统方法相提并论，但作者相信，只要有充足的训练数据，作者的方法无需复杂的工程设计就能达到传统方法的准确度。

训练过程和模型评估

作者使用文本数据和相应的化学图位图对模型进行了训练。训练过程包括读取文本文件，使用标记化器对进行标记化，并存储唯一标记。使用未修改的 V3 模型将位图图像转换为特征向量，并将这些向量保存为 NumPy 数组。

模型的准确性使用相似性分数进行评估，该分数以所有分数的平均值和分数达到 1.0 的计数来计算。系数之所以有效，是因为它能够在完全识别之前就衡量识别率的提高，而且与严格的结构同构相似，特别是在使用指纹时。

为了确定最佳超参数，作者最初在小型数据集上训练了多个模型。在探索了超参数空间后，作者确定了一些参数，如批量大小为 640 张图像，在 299×299 画布上描绘的图像的嵌入维度大小为 600，学习率为 0.0005 的亚当优化器，以及用于计算损失的稀疏分类交叉熵。对模型进行了 25 次历时训练，在测试集上进行评估之前，允许收敛。

训练在内部服务器上进行，服务器配备了英伟达™（®）Tesla V100 图形卡、384 GB 内存和两个英特尔（R）至强（R）Gold 6230 CPU。虽然训练本身是在 GPU 上进行的，但最初的数据集准备工作却是 CPU 密集型的。

训练时间随着数据量的增加而增加（参见表 1 和图 4）。模型性能通过独立的测试数据集进行评估。在稿件准备过程中，并行训练实验显示，超过 2 或 3 个 GPU 后，扩展效果就会降低。

化学专业数据库怎么用_化学库数据专业就业方向_化学专业数据库