编辑推荐:
本文综述了密码子优化技术在异源蛋白表达中的应用及其潜在安全风险。研究指出,现有优化算法多关注正向链的翻译效率,而忽视了互补链上反义启动子(如细菌-10元件“TATAAT”)等调控元件被无意或恶意插入的可能。作者通过计算流程扫描、分析了近50万条编码序列,发现反义启动子(如“ATTATA”)在天然序列中罕见(仅4.76%),但绝大多数不含该基序的序列(约77.28%)可通过同义密码子替换被无声地插入该基序,这揭示了合成DNA设计流程中的一个网络生物安全(cyber-biosecurity)漏洞。文章强调了在密码子优化工具中引入双向筛查的重要性,并开发了一套开源的质量保证软件工具以供社区检测防御。该工作为提升合成生物学设计的生物安全性与计算安全性提供了新见解。
密码子优化是合成生物学和生物技术生产中的一项基石技术,旨在通过同义密码子替换来增强异源蛋白表达。然而,传统优化算法主要关注正向链翻译效率,其对互补DNA链的潜在影响常常被忽视。本研究探讨了一个新兴的交叉领域问题:密码子优化是否可能无意中引入了反义启动子等有害基序,以及这些基序能否在不改变编码蛋白的前提下被悄然插入。
1. 引言
DNA合成技术的飞速发展为合成生物学带来了新机遇,同时也伴随着新挑战。密码子优化利用遗传密码的简并性,调整同义密码子频率以匹配宿主偏好,从而提高蛋白质产量和翻译效率。这项技术支撑着基因治疗、疫苗开发(包括mRNA疫苗)和工业生物技术等主要应用。尽管优化算法不断进步,如引入密码子适应指数(Codon Adaptation Index, CAI)、GC含量和深度学习模型,但大多数工具对互补链上可能引入的功能性基序(特别是可作为反义启动子的基序)不敏感。启动子基序(如细菌的-10区“TATAAT”)是转录起始的关键调控元件,其反向互补形式(“ATTATA”)可能作为意外的反义启动子发挥作用。合成生物学与网络安全的融合催生了一个新兴的交叉学科——网络生物安全。在此背景下,密码子优化不仅是提高蛋白表达的工具,也可能成为意外调控行为或恶意利用的潜在载体。随着DNA合成与编辑能力的普及,以及自动化工具进行密码子优化的日益普遍,出错或出现安全漏洞的可能性也在增加。
2. 材料与方法
2.1. 启动子“-10”基序:概念验证示例
本研究以细菌启动子的关键元件“-10”区基序“TATAAT”(其反义链形式为“ATTATA”)作为概念验证的焦点,该基序对于DNA解链和开放转录复合物的形成至关重要。
2.2. 数据集选择与预处理
研究从在线数据库收集了484,741条Escherichia coli(E. coli)的编码序列,聚焦于不含“ATTATA”基序的序列进行分析。
2.3. 密码子优化框架:分析流行工具的输出序列
研究评估了两种典型的密码子优化工具:开源工具Codon Transformer和专有工具Vector Builder的Codon Optimization。通过比较它们针对同一胰岛素蛋白(宿主为Homo sapiens)在E. coli中表达的优化序列,来评估不同工具的输出差异。
2.4. 新的开源质量保证(Quality Assurance, QA)软件工具
研究的主要贡献之一是开发了一款开源的QA软件工具,用于测试任何密码子优化器生成的合成DNA序列。该工具采用模块化设计,分为后端(包含序列操作、与优化工具的接口、基序搜索和插入尝试等逻辑)和前端(基于HTML和CSS的Web界面展示)。用户可通过可执行文件或Python脚本访问。工具核心包含三个功能模块:反义启动子基序检测算法,用于扫描自然序列和优化后序列;基序插入算法,用于测试在不改变蛋白质序列的前提下,通过同义密码子替换插入目标基序的可行性;以及基序防御模块,用于识别有风险的序列并建议替代序列以防范插入。
3. 结果
3.1. 反义启动子基序的自然发生与插入可行性
在分析的484,741条编码序列中,仅23,057条(4.76%)天然含有“ATTATA”基序,表明反义启动子在编码DNA中自然避免。在剩余的461,684条不含该基序的序列中,通过同义替换成功实现基序无声插入的案例高达356,797个(77.28%)。
3.2. 与随机k-mer频率的比较
通过概率计算模型,分析了在不同阅读框下,随机氨基酸序列中出现“ATTATA”基序的理论概率。计算表明,在朴素假设(所有氨基酸等概率出现、无特定密码子使用偏好)下,该基序的出现概率极低,与观察到的自然低频率一致,但同时也凸显了通过有目的的同义替换实现插入的高可行性。
4. 讨论与结论
本研究发现,密码子优化过程存在无意或恶意插入反义启动子基序的潜在风险。大多数不含特定有害基序的编码序列,实际上很容易通过同义密码子替换被“悄无声息”地植入该基序,而完全不改变其编码的蛋白质。这暴露了当前DNA设计流程中的一个关键网络生物安全漏洞。现有的许多密码子优化工具作为“黑箱”运行,其算法考虑不透明,且普通生物学家用户往往盲目信任其输出,加剧了风险。为此,本研究开发并开源了一套QA软件工具,旨在帮助研究者和工业界在合成或订购DNA序列之前,进行预先筛查和风险评估。该工具能够检测有害基序、评估无声插入的可行性,并提出防御策略。研究结果强调了在未来的密码子优化工具中整合双向(正向链与反义链)筛查功能的紧迫性,以提升合成生物学应用的生物安全性和计算安全性,防范由此类设计漏洞可能引发的意外调控或恶意生物工程威胁。