WIREs RNA:异构数据源助力ceRNA模块识别

现状

ceRNA模块也称为miRNA海绵模块。为了揭示ceRNA在模块水平下调控机理,识别ceRNA模块是一项具有挑战性和重要意义的任务。以往,ceRNA模块研究只是ceRNA网络研究的附属品。也就是说,大部分方法在研究ceRNA网络后,附带的通过网络聚类算法从ceRNA网络中识别一下ceRNA模块(如图1)。不得不说,ceRNA网络是研究ceRNA模块的“原料”之一,但并不是唯一“原料”。既然整合多种异构数据源能够识别ceRNA网络,那么整合多种异构数据源也能够识别ceRNA模块。因此,ceRNA模块识别研究已然从单一ceRNA网络“原料”转变到多种异构数据“原料”(如图2)。在这篇综述中,来自电子科技大学、大理大学和南澳大利亚课题组的饶妮妮教授、张俊鹏博士和Thuc Duy Le博士总结了ceRNA模块识别方法,并将其分为三类:i) 网络聚类方法(network-based clustering)、ii) 矩阵分解方法(matrix factorization),以及iii) 步进式评估方法(step-wise evaluation)。其中,i)基于ceRNA网络识别ceRNA模块,ii)和iii) 多种异构数据源来识别ceRNA模块。

图1 传统ceRNA模块识别方式
图2 未来ceRNA模块识别方式

展望

矩阵分解方法(matrix factorization)和步进式评估方法(step-wise evaluation)都融合了异构数据源,是未来探究ceRNA模块的潜力方式。除此之外,这篇综述总结了ceRNA模块识别还有如下十大挑战或方向:

i) 如何融合多种异构数据源是ceRNA模块识别的一大挑战。

ii) 基因变量是否进行特征选择需权衡利弊,如何权衡也是一大挑战。

iii) 权衡多种异构数据源所带来的计算复杂度和识别精度是另一挑战。

iv) 将预测的ceRNA模块与复杂疾病关联起来是ceRNA模块识别迈向临床诊断之前必然面临的一大挑战。

v) ceRNA模块识别缺乏独立测试数据集来验证其鲁棒性,未来需要同时使用训练数据集和测试数据集。

vi) ceRNA模块识别还应该考虑竞争RNA分子之间的化学计量(stoichiometry)。

vii) 对于生物学家来说,设计“湿实验”验证ceRNA模块是一项沉重的任务。预测的ceRNA模块只是提供候选集,生物学家可以挑选感兴趣ceRNA进行实验设计。

viii) ceRNA模块识别方法仅仅采用肿瘤样本数据,缺乏健康样本数据。因此ceRNA模块在肿瘤和健康状态下是否活跃(active)就搞不清楚了。

ix) 单细胞测序技术日渐成熟,识别单细胞精度水平的ceRNA模块(为每个单细胞识别ceRNA模块)是未来一大方向。

x) 融合单细胞转录组数据和空间转录组数据共同识别单细胞ceRNA模块也是未来一大挑战和努力方向。

详细的十大挑战或方向可以参见这篇综述。

文章第一作者为电子科技大学生命科学与技术学院和大理大学工程学院张俊鹏博士。

论文信息:

Time to infer miRNA sponge modules

Junpeng Zhang*, Lin Liu, Taosheng Xu, Wu Zhang, Jiuyong Li, Nini Rao*, Thuc Duy Le*

WIREs RNA

DOI: 10.1002/wrna.1686

原文链接:https://wires.onlinelibrary.wiley.com/doi/10.1002/wrna.1686

WIREs

WIREs全称Wiley Interdisciplinary Reviews(Wiley交叉学科综述),是Wiley旗下在线系列综述期刊。该系列期刊旨在以优良的综述文章促进交叉学科研究的发展,成为查询各领域最前沿进展的资讯数据库。