合成生物学竞赛-创新赛之天津大学团队:AIpromoter
iSynBio造物联合合成生物学竞赛推出《大赛项目揭秘专题》,本期为第七期,嘉宾为天津大学MESB_TJU团队,参赛项目为AIpromoter——基于AI的启动子从头设计与强度预测工具。
联合发布:《合成生物学》期刊、生物世界、iSynBio爱星博、深圳市合成生物学协会。
欢迎更多媒体支持,请联系isynbiopr@siat.ac.cn
项目内容概述
启动子作为核心元件,在合成生物学、代谢工程等领域有着广泛的应用。然而传统的启动子文库构建及筛选方法成本高、效率低,人工智能(Artificial Intelligence, AI)可以通过学习已知启动子的序列特征来生成新序列,为启动子元件开发提供了新思路。本项目以GRAS菌株枯草芽孢杆菌的启动子为研究对象,利用AI构建了启动子序列生成模块和强度预测模块,开发了启动子设计分析软件AIpromoter,实现了启动子从头设计与启动子强度预测,并探索了启动子序列-强度关系。
项目背景
启动子是一段具有特殊功能的DNA序列,负责调控基因转录水平。为实现代谢网络的精细调控,通常需要构建多种存在表达强度差异的启动子序列。然而,诸如挖掘天然序列、启动子工程改造等传统的文库构建及筛选方法大多费时费力,且所得启动子文库的强度往往跨度小、梯度不均。此外,由于启动子序列与强度之间的关联关系尚不明晰,也制约着启动子的(半)理性设计方法的发展。
近年来,许多计算方法结合AI,接连取得了启动子鉴定、启动子强度预测乃至启动子从头设计等一系列重要成果。然而,相关研究主要集中在酿酒酵母和大肠杆菌等模式生物中,对其他重要工业微生物,如枯草芽孢杆菌等研究较少。
为此,本项目结合AI,开发了首个针对枯草芽孢杆菌的启动子设计分析软件——AIpromoter,该软件集成了启动子的强度预测和从头设计功能,对启动子文库的开发、基因表达调控规律的研究均具有重要意义。
项目总体技术路线
Fig. 1 AIpromoter的构建流程
图1展示了AIpromoter的设计构架。首先,通过利用现有启动子鉴定工具进行全基因组启动子序列挖掘,并结合转录组测序获得启动子序列-强度数据集,同时通过文献数据的收集和一致化处理得到了另一组独立的数据集。而后,分别使用由全连接层组成的变分自编码器(Variational auto-encoder,VAE)和基于位置特异性评分矩阵(position-specific scoring matrix,PSSM)的遗传算法(Genetic Algorithm, GA)来从天然启动子中学习其特征分布并生成新的序列,并使用 CNN+LSTM 结构的预测模型预测生成启动子的强度,以筛选出目标强度的启动子。最后,采用多种方法对模型效果进行了评估。
项目主要成果
1. 预测模型性能优异
我们采用了两种常用的评价指标:平均绝对值误差(Mean Absolute Error,MAE)和皮尔逊相关系数(Pearson Correlation Coefficient, PCC)来评价预测模型的性能。图2A展示了随着模型的训练,模型性能逐步提高的过程。此外,我们还构建了4种其他常用的算法进行横向比较,结果表明我们的预测模型具有最好的预测性能(图2B)。
Fig. 2 预测模型的性能表征
(A)逐步改进的预测模型:
Model1: CNN+LSTM+dropout;
Model2: CNN+dropout;
Model3: CNN;
Model4: CNN+LSTM;
(B)预测模型与其他常用模型的性能比较。
2. 序列生成模型可靠
我们生成了一系列中等强度启动子,从序列标识图、k-mer频率对比、motif位置偏好性三个角度验证了AIpromoter的生成效果。可以看到,两种模型成功识别了天然启动子中-10区和-35区的特征(图3A)。整体而言,VAE很好地拟合了天然启动子的特征,而遗传算法相比于结构庞大的神经网络模型,结构简单、表示能力较弱,但其具有计算速度快、可解释性好和可扩展性强的优势。
Fig. 3 对生成启动子的综合评价
(A)天然启动子和生成启动子的序列标识图;
(B)天然启动子和生成启动子之间k-mer频率的JS散度(Jensen-Shannon散度);
(C)天然启动子和生成启动子部分6 bp motif的位置偏好性分析。
3. 可进行启动子序列-强度关系的探索
为了证明AIpromoter同样有助于序列规律的发现,我们分别生成了较强和较弱的启动子序列。可以看到强启动子的序列保守性更强,并在-10区的上游出现了一个TG基序,在-35区的上游出现AN序列和富含AT的序列(图4A),这均和已有的文献报道报道相印证(Voskuil M I, et al. Nucleic Acids Research, 1998. 26: 3584-3590.)。在不同6 bp motif的位置分布上,强弱启动子也体现出了明显的区别(图4B)。
Fig. 4 对强启动子和弱启动子的分析
(A)序列标示图对比;
(B)不同6 bp motif的位置偏好性分析。
4.用户可及性的优化
Fig. 5 在线工具界面
我们制作了操作简单的在线使用接口以方便其他研究者的使用,同时对这一成果申请了软件著作权,软件著作权登记号为 : 2022SR0589413。
项目完整内容(Wiki网页)
http://www.synbiochallenges.com/wiki/2021/MESB_TJU/index.html
我们是来自天津大学的
MESB_TJU团队
彭茜婷:生物工程 & 计算机科学与技术(辅修)专业,负责协调分工、实验结果分析和训练数据的处理过程。
张浩成:合成生物学 & 计算机科学与技术(辅修)专业,负责预测器的构建与分析。
林堃:计算机科学与技术专业,负责数据处理、部分模型构建、网页编写等。
黄宇:合成生物学专业,负责湿实验、美工。
吴津荣:合成生物学专业,负责湿实验。
刘京宗:软件工程专业,负责数据分析与部分模型的建立。
孙元涛:化学工程与工艺专业,负责实验部分。
杜光照:生物工程专业,负责参与湿实验部分。
崔彭昱:生物工程专业,负责协助湿实验,数据测量,部分实验记录撰写
#指导老师
王智文(PI) :博士,天津大学化工学院特聘研究员,博士生导师。研究领域包括基因组尺度网络模型重构与途径模拟设计,基因组编辑与合成生物学调控元件开发,微生物细胞工厂的构建等。
宫秀军(副PI) :工学博士,天津大学智能与计算学部副教授。研究领域包括贝叶斯学习理论及深度神经网络的算法研究,生物信息学中大规模分子生物网络的建模及DNA/RNA结合蛋白的识别,结核病耐药菌株与基因及其变异的预测等。
合成生物学是生命科学领域一门新兴的前沿交叉学科和典型的汇聚技术。它通过融合工程科学理念与生命科学原理及基于多学科的使能技术,设计合成新的或改造天然的生命系统,揭示生命规律、构筑新一代工程生物体系;被喻为“认识生命的钥匙”(造物致知)、改变未来的颠覆性技术(造物致用)。
合成生物学竞赛-创新赛主要面向在校大学生以及在读硕士研究生。本届创新大赛包括医疗、农业、环境、制造、信息、基础研究及创新应用等多个领域,鼓励学生从兴趣出发,探索合成生物学在不同领域的创新和应用。首届创新大赛将于 2022 年 7月9-10日在深圳理工大学线下举行。
大赛由中国生物工程学会合成生物学分会指导和主办。大赛由二十多家高校和研究所共同发起。大赛的共同承办单位是中国科学院深圳理工大学(筹)合成生物学院、中国科学院深圳先进技术研究院合成生物学研究所、深圳合成生物学创新研究院、深圳市合成生物学协会、 深圳市工程生物产业创新中心、DeepTech。大赛的支持单位为光明区委区政府。
-----
作者 |MESB_TJU团队
校对 |鸿鹄居士
编辑 |果粒珍珍
-End-