人工智能时代的糖信息学

人工智能(AI)方法已经并正在越来越多地被整合到生物信息学及其糖科学分支（即糖信息学）中实施的预测软件中。人工智能技术在过去几十年中不断发展，它们在糖科学中的应用还不广泛。这种有限的应用部分是由于糖类数据的特殊性造成的，众所周知,这些数据是难以产生和分析的。尽管如此，随着时间的推移，糖学、糖蛋白组学和糖结合数据的积累已经达到了一定程度，即使是最新的深度学习方法也能提供性能良好的预测器。

糖信息学，有时也称为糖生物信息学，可以直接定义为生物信息学在糖科学中的应用。随着系统生物学的兴起和组学技术的扩展，生物信息学已成为生命科学研究不可或缺的一部分。

实验组学数据集的庞大规模使生物信息学成为数据科学的基础。近年来，重点已放在生成可查找、可访问、可互操作和可重复使用的生物数据上。可查找是必不可少的，因为数据搜索是一项频繁的任务，显然应该让最大的生命科学家社区变得容易。然而，尽管这项任务看起来很简单，但它仍然主要要求数据和相关元数据与唯一且持久的标识符相关联，其次是人和计算机的可读性。可访问性非常实用，因为它涉及使用这些标识符和标准化协议进行检索。互操作性是尝试合并或集成来自不同来源的数据的关键约束。为了变得可互操作，需要使用反映知识表示的标准语言来描述数据，通常称为本体，否则也可以称为受控词汇表。可重用性最终可以通过描述良好的元数据来实现，包括数据来源和社区标准。最近的 SARS-CoV-2 大流行中，数据生成、共享和使用的激增是应用公平原则以造福所有人的一个很好的例子。

大量一致的数据是开发预测生物学结果的模型和方法的理想输入。预测分子形状/结构、位置、表达以及相互作用的无数解决方案填充了生物信息学工具箱。其中很大一部分依赖于人工智能（AI），主要是学习方法。尽管如此，为了实现稳健性和准确性，这些工具不仅需要高质量的数据，还需要随着时间的推移进行微调。

作为生物信息学的一个子集，糖信息学面临着类似的挑战。糖数据与广泛的生物学数据非常相似，分布在生物学和化学领域，但碳水化合物分子的复杂性和多样性，以及它们的非模板驱动的生物合成，在这两个领域之间造成了更大的差距。

几十年来，碳水化合物化学研究通过国际纯粹与应用化学联盟 (IUPAC) 进行了国际协调，并于 1970 年成为其关联组织[ https://ico.chemistry.unimelb.edu.au/ ]。这种国际交流的古老基础促使需要收集最终以 CarbBank 形式发生的数据，在生物信息学处于起步阶段的时候设定了糖信息学的前提。与此同时，糖生物学家将他们的精力集中在多种形式的功能研究上，以揭示糖基化是位点特异性的，组织依赖性，并受环境影响。糖组学和糖蛋白组学已经成熟，可以提供越来越全面的数据集，刚刚开始填充数据库。此外，从功能糖组学联盟 (CFG) 倡议开始，阵列技术的发展将筛选数据引导到单个位置。

糖科学实验数据的特性

任何预测或建模工具都需要进行数据处理，对可能的解决空间的定义越精确，工具的性能就越好。

稀疏性

“聚糖空间”维度的估计是有争议的，让人想起在测序之前对人类基因组含量的有争议的估计。关于基因数量的推测范围在 30 000 到 500 000 之间，而实际数据迫使每个人或多或少地大幅缩减规模。目前对聚糖生物合成的了解使其难以设定界限。从理论上讲，考虑到所有已知物种，可能有数十亿个结构，但实际上，GlyTouCan 目前包含接近 51 000 个结构（版本 3.1.0），由于分辨率不同，其中许多是多余的。一次考虑一个物种，智人可能是研究最多的，而且数字不再精确。事实上，使用非常规策略的新聚糖类型的范式转换发现经常发生，这往往表明“标准”工作流程可能会错过意想不到的结构。由于在聚糖空间中的分布不均匀，数据可以被认为是稀疏的。具体而言，稀疏性至少源于两个主要来源：（i）在任何给定物种中尚不知道的聚糖部分和（ii）在糖组学实验中未测量（或无法注释）的聚糖部分，因为来样加工，低丰度、电离困难、异构体和许多其他潜在问题。

异质性

聚糖的结构和功能的完整鉴定通常需要一组跨越化学、生物化学、亲和力和筛选技术的实验，这些实验的结果是多种多样的，其结果难以证实。

字段特定编码

确定完整糖组所涉及的并发症有两个直接后果。一般来说，所需的时间和专业知识会阻止糖科学家冒险进入任何其他相关的组学领域。反过来，没有接受过糖科学培训的生命科学家通常不愿承担大量额外工作来研究糖基化。最后，与生物学的部分脱节倾向于表征糖数据的产生。

从生物信息学的角度来看，这种鸿沟也存在。在过去的十年中，从基因组中绘制代谢途径的图谱使化学信息学更接近生物信息学。这需要共享数据格式以促进数据交换，以便准确描述反应，具有明确的底物和产物以及最初从基因组序列翻译的确定的酶。

化学信息学与糖信息学的融合尚不清楚。GlyTouCan 的所有聚糖都在 IUPAC 中编码。该数据库中的每个结构都以聚糖的符号命名法 (SNFG) 表示，该命名法已被用作糖科学的标准。尽管如此，近年来，GlyTouCan、PubChem 和 ChEBI 之间更紧密的交互导致后两个数据库的聚糖条目中包含 WURCS 编码和 SNFG 符号。

糖数据表示

从生物信息学中吸取的教训

异质信息的精确记录和描述是一项明确的糖信息学挑战。图 3突出显示了引用每个实体的可能性：聚糖、其生物合成途径或它包含的表位，在适当的数据库中，具有唯一且稳定的标识符。这种观点在生物信息学中广泛传播，在糖信息学中并不完全现实。

从蛋白质组学中吸取的教训

质谱(MS)在蛋白质组学中的主导地位为糖组学开创了先河。特别是，肽 MS 数据处理的发展为处理聚糖和糖肽 MS 数据提供了线索。在蛋白质组学的早期，MS 数据处理的主要目标是改进蛋白质鉴定并通过自动化提高鉴定率，产生与组织或细胞系相关的已鉴定蛋白质列表。很快，理解这些列表的需要刺激了工具的实施，从而实现了比较方法。最后，相互作用组学的伴随发展导致绘制蛋白质相互作用网络图，以支持对样品中共同识别的蛋白质的解释。由于糖组学落后于蛋白质组学，进展是相似的，但没有那么先进。

AI对糖科学和发展前景的逐步影响

糖科学方法开发阶段，糖信息学为统一由聚糖介导的分子相互作用提供了一个真正的机会。从测量到生物学背景和聚糖特性以及功能，糖信息学正在推进糖科学的各个方面，并有可能在未来继续这样做。

糖信息学中人工智能的预期演变

数据的演变

糖组学落后于其他组学的一个简单解释是缺乏聚糖的高通量测序。因此，数据的积累速度比基因组学或转录组学要慢得多。对于 N- 和 O- 连接聚糖之外的聚糖类别尤其如此。由于生物信息学现在适合处理 PB 的核苷酸序列并运行智能搜索以揭示隐藏的信息，这种对比更加引人注目。从这个意义上说，糖组学的未来取决于新技术的发展，这些技术可以实现多糖高通量测序，并改进其他类型多糖的分析。其他领域的努力，例如蛋白质测序的最新进展，表明测序原则上也可以应用于非核酸生物聚合物。

改进的预测

与许多科学领域一样，人工智能方法越来越多地用于改进分类和预测。应用于糖科学各个方面的机器学习仍然主要依赖于人类设计的计算特征作为模型输入。目前在这些任务上仍然优于深度学习方法的原因。深度学习最重要的优势之一是它允许访问超出样本合理选择特征的信息。因此，可以预期，使用适当格式的原始序列的深度学习方法将在未来产生更好的性能。

此外，虽然现有模型在很大程度上包括研究较少的聚糖类，例如植物和真菌多糖，但就其模型架构而言，可能有一些方法可以在涉及这些聚合物的任务上表现更好，例如考虑它们的重复结构体。然而，本手稿中描述的大多数预测任务的现有数据在很大程度上仅限于 N- 和 O- 连接的聚糖以及糖脂，并且以有限的方式包括糖胺聚糖。因此，可能需要改进可用数据和现有模型，以充分利用聚合聚糖中的信息。

另一方面，预测聚糖结合的目的是设计特定的配体，例如抑制病原体的聚糖结合蛋白，但需要更多的上下文敏感信息来确定特异性。特别是，现实的结合预测可能取决于其他特征，例如凝集素的表达和生理条件。最终，模型需要考虑所有这些方面，以及糖缀合物和聚糖结合蛋白的结构特征。如果在考虑聚糖的同时更系统地构建 3D 模型，这些将有所帮助，正如 AlphaFold2 预测所实现的那样。

改进的表示

给定一个新的未知数据点，ML 模型学习到的数值表示也可用于找到最相似的已知数据点。在蛋白质组学中串联质谱的背景下，这已被用于快速将未识别的光谱分配给肽。糖组学或糖蛋白质组学中的类似程序也可以推动这些领域的发展。除了相似性之外，无监督模型获得的学习表示也可以看作是蛋白质序列的学习特征，可以被另一个下游模型使用。

桥接糖信息学和生物信息学

单细胞技术在大多数组学应用中像野火一样蔓延开来，为每个学科提供了关于分子活性和相互作用的更具体和更精细的信息。Glycomics 还没有从这样的进步中受益。与直接分析聚糖结构相比，从调节糖基化的基因和生物合成途径中是否更容易获得信息仍然存在争议。目前，糖工程在处理基因时往往更先进，但这并不排除一种尚未出现的严格单细胞糖组学方法。朝着这个方向迈出的第一步已经将部分/片段聚糖信息添加到单细胞分析和/或与其转录组的组合中。通过从不同的和互补的组学中收集相同级别的信息，将促进数据集成。

多尺度视图

了解聚糖结构和功能细节所需的信息来源的多样性和差异性仍然是糖生物学快速发展的障碍。最终，糖信息学的目标是从由技术限制人为创建的片段中恢复更全面的图像。只要这个谜题即使不完整，至少也足够先进，可以做出可靠的预测，它就会把精力集中在糖科学上。然而，聚糖对生物过程的关键贡献，尤其是在细胞间通讯中，是不容忽视的，如上所述，糖组学应该与其他组学相结合。事实上，理解生物体的理想观点是动态的，从原子到细胞、组织和器官水平。

参考资料

Bojar, D. and Lisacek, F., 2022. Glycoinformatics in the Artificial Intelligence Era. Chemical Reviews.