T细胞和B细胞表位预测：开启免疫治疗新时代的钥匙-创腾科技

解决方案 | T细胞和B细胞表位预测：开启免疫治疗新时代的钥匙

来源：研发创新数字化平台

当谈及免疫系统如何识别并对抗病原体时，T细胞和B细胞扮演着关键角色，它们通过识别特异性表位来激活免疫反应。T细胞和B细胞表位的预测对于理解免疫反应和设计疫苗至关重要。今天，我们将深入探讨B细胞结合表位和T细胞结合表位的结构特点，以及三种先进的表位预测工具——EpitopeVec、MHCflurry和DeepSeqPanII，以及如何应用三种工具实现疫苗设计。

T细胞表位结构特点

T细胞靶点预测的核心在于识别抗原中能激活CD4或CD8 T细胞的最小肽段，这一激活特性即为免疫反应性。在抗原分子中存在大量的肽片段，而T细胞靶点预测技术的目标正是筛选出那些具备激发免疫反应能力的特定肽。

作为高等脊椎动物体内最具多态性的蛋白之一，主要组织相容性复合体（MHC）拥有极其丰富的变体，IMGT/HLA数据库中记录的一类与二类MHC分子等位基因就超过了6000种。鉴于当前实验技术难以全面解析如此庞大的等位基因群体对肽的结合偏好，生物信息学预测手段成为了不可或缺的研究工具。时至今日，基于数据的分析方式已被证明是最有效的T细胞靶点预测途径。

图 | MHC分子结合沟（molecule binding groove）。该图描绘了代表性MHC I和II分子的TCR所见的分子表面。MHC I分子的结合沟是闭合的，而MHC II的结合沟是打开的。结果，MHC I分子结合短肽（8-11个氨基酸），而MHC II分子结合更长的肽（9-22个氨基酸）

图片来源:

https://qinqianshan.com/biology/antibody/t-cell-b-cell-epitope-prediction/

MHC I与MHC II分子展现出近似的三维构型，但在细节上亦存显著区别。MHC I的结合槽内深藏有特定的结合口袋，仅能接纳长度介于9至11个氨基酸之间的较短肽链。大部分MHC I肽配体含有9个氨基酸，因此预测时倾向于聚焦此长度的肽。MHC II分子的肽结合槽呈现开放状态，肽段的长度可大幅变动（一般9-22个氨基酸）。

MHC-I类结合活性预测：

MHCflurry 2.0的泛等位基因模型

主要组织相容性复合体（MHC）I类分子负责在细胞表面展示内源性蛋白片段给CD8+ T细胞，是细胞介导免疫反应的重要组成部分。准确预测MHC-I类分子与其结合的多肽对于理解T细胞识别机制至关重要。MHCflurry 2.0通过整合新的MHC-I类结合模型和抗原处理模型，显著提升了预测性能。该模型利用大规模质谱识别的MHC配体数据训练抗原处理预测器，能够区分出已观察到的MHC配体和未观察到的肽段。与先前的方法如NetMHCpan 4.0和MixMHCpred 2.0相比，MHCflurry 2.0在保留数据上的表现更为出色，其综合模型优于单独组件。这种集成方法不仅改进了预测准确性，也为新抗原发现和疫苗设计提供了便捷工具。

MHC-II类结合活性预测：

DeepSeqPanII的可解释性递归神经网络

相比之下，MHC-II类分子的肽段结合预测更为复杂，因为这类分子通常识别更长且来源多样化的外源性抗原肽。DeepSeqPanII是一种针对MHC-II类肽段结合的新颖序列模型，它采用了一种带注意力机制的递归神经网络结构。与之前的方法不同，DeepSeqPanII无需对输入样本进行预处理或后处理，且通过注意力机制不仅能提供高精度的结合亲和力预测，还能揭示肽段与MHC序列间结合机制的生物学洞见。该模型通过跨等位基因的留一等位基因交叉验证和基准测试，展示了卓越的预测性能，同时，其训练数据集包括大量质谱数据和亲和力测量数据，确保了模型的广泛适用性和泛化能力。DeepSeqPanII的出现为解析HLA-II类分子的肽段结合提供了有力工具，对设计针对特定HLA-II等位基因的疫苗和免疫疗法具有重要意义。

B细胞表位的预测

B细胞表位的预测的目的在于替代完整抗原以刺激抗体生成。理论上，抗原上所有暴露于溶剂的部位均具备被抗体侦测的潜能。B细胞表位可分为两大类：线性和构象表位。线性表位由一连串未间断的氨基酸序列构成，形同肽链；而构象表位则由非连续、但均显露于溶剂中的原子群落组合而成。而且能够锁定线性表位的抗体对变性抗原有良好的辨识力，相比之下，抗原一旦变性，则会显著削弱抗体对构象表位的识别效能。

T细胞2.png

图 | 线性和构象B细胞表位。线性B细胞表位（a）由连续/连续残基组成，而构象B细胞表位（b）沿序列包含分散/不连续残基。

图片来源: https://qinqianshan.com/biology/antibody/t-cell-b-cell-epitope-prediction/

B细胞表位的预测：

EpitopeVec的深度学习方法

B细胞表位（BCEs）是位于抗原表面、能直接与B细胞受体结合的线性或构象性氨基酸序列，是激活B细胞免疫应答的关键。传统的BCEs预测方法依赖于实验数据和经验模型，但这些方法往往泛化能力有限，预测准确率仅在51%-53%之间。为克服这一限制，研究人员开发了EpitopeVec，这是一种基于深度蛋白质序列嵌入的线性BCE预测方法。EpitopeVec整合了残基属性、修改后的抗原性尺度以及基于蛋白质语言模型的表示（即蛋白质向量），并在多个大小数据集上进行了广泛验证。结果显示，EpitopeVec相较于其他前沿方法具有更高的预测性能，提高了BCE识别的准确性和可靠性，有助于快速鉴定疫苗候选物和诊断靶点。

应用案例

SARS-CoV-2疫苗设

第一步：B细胞表位预测

首先，通过B细胞表位预测工具，识别SARS-CoV-2病毒刺突蛋白(S蛋白)上的潜在线性表位。这些表位通常是病毒表面蛋白上的连续氨基酸序列，能够被B细胞受体识别，引发体液免疫反应，产生中和抗体。