聚焦 | 机器学习预测抗体轻链毒性-创腾科技

机器学习预测抗体轻链毒性（AIDD助力药物研发）

来源：计算机模拟平台

在系统性轻链淀粉样变性(AL)中，致病性单克隆免疫球蛋白轻链(LC)在靶器官中形成有毒聚集物和淀粉样原纤维。及时诊断对于避免永久性器官损伤至关重要，但延迟诊断很常见，因为症状通常仅在器官严重受累后出现。本研究开发了LICTOR，它是一种基于克隆选择过程中获得的体细胞突变分布来预测AL中LC毒性的机器学习方法。LICTOR的特异性和灵敏度分别为0.82和0.76，受试者工作特征曲线(AUC)下面积为0.87。在一组独立的12个具有已知临床表型的LC序列上进行测试，LICTOR实现了83%的预测准确率。此外，我们能够通过计算机还原LICTOR鉴定的两个种系特异性体细胞突变，以及通过实验评估秀丽隐杆线虫模型中体内毒性的丧失，消除LC的毒性表型。因此，LICTOR成为AL诊断和降低AL高死亡率的有效策略。

Ref：NATURE COMMUNICATIONS | (2021) 12:3532 IF=14.919

链接：https://www.nature.com/articles/s41467-021-23880-9

系统性轻链淀粉样变性 (AL) 是一种单克隆丙种球蛋白病，其特征是浆细胞克隆异常增殖，产生大量致病性免疫球蛋白游离轻链 (LC) 。LCs，主要以同源二聚体的形式分泌，错误折叠形成有毒物质和淀粉样原纤维，在靶器官中积累并导致致命的器官功能障碍和死亡. 尽管 LC 沉积可发生在除大脑以外的任何器官中，但肾脏和心脏是受影响最大的部位，尤其是心脏部位很难诊断。AL 的症状是非特异性的，通常反映晚期器官受累。因此，早期诊断对于避免不可逆的器官损伤至关重要。然而，该疾病的复杂性及其模糊的症状使得 AL 的及时诊断极具挑战性。

预先存在的意义不明的单克隆丙种球蛋白病（MGUS）是已知导致AL的关键因素，9％的MGUS患者会导致AL。然而，早期诊断仍然很困难，因为目前缺乏可靠的诊断测试来预测 MGUS 患者是否可能发展为AL。预测AL的发作极具挑战性，因为每个患者都携带不同的致病性LC序列，这是由可变 (V) 和连接 (J) 免疫球蛋白基因的独特重排以及 B 细胞亲和力成熟期间获得的一组独特体细胞突变 (SM) 引起的。因此，开发特定的预测工具是预测 AL 诊断和改善患者预后的关键一步。

机器学习技术在不同的科学领域变得非常突出，并且在医学中也越来越受欢迎。实际上，机器学习已经在医学的不同区域，如诊断、预后、药物发现和药物敏感性预测等。在这些方法中，机器无需明确编程即可从数据中学习信息，并模拟人类智能进行预测。导致AL发展的LC序列的高度多样性以及访问致病性和非致病性LC序列数据库的可能性促使我们使用基于机器学习的策略来设计一个名为LICTOR（λ-LIght-Chain TOxicity predictoR)的预测器。

LICTOR 基于SM是主要LC毒性鉴别因素的假设，使用SM作为预测变量。我们使用一组具有已知临床表型但未在训练中使用的独立LC来评估LICTOR的性能。此外，为了通过实验验证 LICTOR，我们使用我们的预测因子来消除心脏毒性LC的病理表型，并用秀丽隐杆线虫验证结果基于评估在给予心脏毒性LC后咽泵血率降低作为蛋白质毒性的量度的测定。总之，这些结果证实 LICTOR 提供了对区分有毒和无毒 LC 的特定特征的见解。因此，它可能是改善 AL 诊断的有力工具，并通过个性化医疗揭示患者治疗的新策略。

由于VJ重组和SM，负责AL的LC的极端序列多样性使这种情况进一步复杂化。因此，为了加深我们对AL决定因素的理解并最终促进早期AL诊断，我们研究了具有已知临床表型的LC序列，目的是设计一种可以提前标记有毒LC的预测工具（即LC负责形成有毒聚集体和AL发展）。为了实现这一目标，我们分析了一个大型的有毒数据集（tox)和λ同种型的无毒(nox)LCs是AL中最常见的同种型，遵循假设并且也由其他研究小组提出特定SM可以增加LC引起AL的倾向。因此，我们对SM在tox和nox序列之间的分布进行了统计分析。该分析表明，有毒LC的SM频率明显高于无毒LC。基于这些发现，我们基于随机森林算法设计了LICTOR，这是一种使用SM对LC表型进行分类的机器学习方法。LICTOR的特异性和敏感性分别为0.82和0.76，AUC为0.87，使其成为早期AL诊断中前所未有的工具。有趣的是，将LC种系VJ重排作为LICTOR配置中的附加预测变量并没有提高预测性能，这进一步表明，尽管AL中存在一些VL种系基因，但SM代表了该疾病的关键驱动因素。

图1 LICTOR与GL rearrangment 的 ROC 曲线图

LICTOR 不同于AGGRESCAN, PASTA, WALTZ等方法通过识别淀粉样蛋白区域来预测蛋白质的聚集倾向。相反，LICTOR旨在寻找导致AL淀粉样变性中LC毒性的热点，从已知的LC序列临床表型开始，并假设SM是LC蛋白毒性的关键决定因素。通过信息增益特征选择过程，我们确定了一组与LC表型关联最强的特征，这些特征主要位于LC结构的二聚体界面。这一发现进一步强调了SM的结构背景作为LC蛋白毒性驱动因素的关键作用。主要位于LC结构的二聚体界面。这一发现进一步强调了SM的结构背景作为 LC蛋白毒性驱动因素的关键作用。主要位于LC结构的二聚体界面。这一发现进一步强调了SM的结构背景作为LC蛋白毒性驱动因素的关键作用。

我们还与AGGRESCAN、PASTA和WALTZ进行了比较，使用各自程序提供的聚合倾向（AGGRESCAN的PA，PASTA的PP和WALTZ的PW）构建三个分类器。然而，鉴于倾向分布之间存在相当大的重叠，基于聚合倾向的分类器的准确度相当有限（AGGRESCAN准确度=0.59，PASTA准确度=0.68，WALTZ准确度=0.64）。然而，这些方法表明有毒序列比无毒序列更容易聚集，这一事实在LICTOR中反映了这一事实，即识别在二聚体界面聚集的SM作为AL中蛋白毒性的多样性。

LC淀粉样蛋白原纤维的冷冻电镜结构在包含链内二硫键的区域中显示出有趣的重排；即，在折叠的LC中，这两个半胱氨酸连接平行的 ß 链，而在淀粉样蛋白原纤维中，这两条 ß 链是反平行的。这些构象重排破坏了CDR1和CDR3之间的链内相互作用，以及FR2和FR3末端之间的链内相互作用。此外，折叠LC的二聚界面在原纤维中被破坏，因为它们位于原纤维层的另一侧。这些发现与我们的结果一致，即位于LC同源二聚体界面的SM可能会损害蛋白质 - 蛋白质界面的结构完整性和/或诱导单体的局部不稳定性，从而引发LC错误折叠和毒性的产生物种。SM是AL的关键决定因素的初始假设、LICTOR的准确性和我们的计算机研究结果也在C. elegans 中得到了实验证实，C. elegans是一种经过验证的体内模型，用于评估LC毒性。我们证明种系LC不能在体内诱导蛋白毒性，验证了初始LC序列在亲和力成熟过程中在AL中获得毒性表型的假设。总之，这些发现证实了我们的计算机方法在鉴定有毒和无毒LC方面的准确性和稳健性，并表明其作为AL诊断工具的有用性。

LICTOR代表了第一种从序列中准确预测LC毒性的方法，可以及时识别高危患者，例如可能发展为AL的MGUS受试者。因此，使用LICTOR可以促进对AL发展的更密切监测，并促进早期治疗和更好的患者预后。最后，LICTOR可以与其他最近提出的策略一起使用，例如合成淀粉样蛋白纤维对患者来源的全长LC的不同募集功效，以预测AL发展的风险。此外，我们的方法可能会指导开发对其他疾病有用的新型预测工具，例如癌症，其中预后可能取决于特定肿瘤相关蛋白的SM。LICTOR可作为网络服务在http://lictor.irb.usi.ch。

参考文献：

[1] Garofalo, M., Piccoli, L., Romeo, M. et al. Machine learning analyses of antibody somatic mutations predict immunoglobulin light chain toxicity. Nat Commun 12, 3532 (2021)