全长转录组测序技术算不算生物信息学

如题所述

全转录组的数据分析我们一直没有分享过笔记,因为确实也没有这方面直接项目机会,仅仅是跟公众号粉丝交流过一些小问题。全转录组不是全长转录组,全转录组说的是检测普通mRNA,加上 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而全长转录组说的是测序的时候采取三代测序等技术这样可以把基因的转录产物的全部长度的碱基一次性测序到,这样很方便知道不同可变剪切转录本的区别。

那,为什么我们很少涉及到全转录组的数据分析,主要是因为它有 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而众所周知,非编码基因的名声比较差,都知道很重要,但是它的重要性又不是直接证据,也没有系统性的go和kegg等生物学数据库的整理,所以大家研究它和交流它的时候通常是一个符号而已。

但无论是普通mRNA,还是 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,它们最后都是会得到表达量矩阵,其实就是常规差异分析啦,相关流程的公众号推文在:

解读GEO数据存放规律及下载,一文就够
解读SRA数据库规律一文就够
从GEO数据库下载得到表达矩阵 一文就够
GSEA分析一文就够(单机版+R语言版)
根据分组信息做差异分析- 这个一文不够的
如果是普通mRNA可以直接去映射到go和kegg等生物学数据库,如果是非编码基因需要先定位到它的靶基因,然后去给靶基因进行go和kegg等生物学数据库注释。

全转录组的测序
比如NPJ Breast Cancer . 2021 Dec 的文章:《Plasma extracellular vesicle long RNA profiles in the diagnosis and prediction of treatment response for breast cancer 》,是两个队列的全转录组的测序:

队列1:纳入患者172例,包括乳腺癌患者112例、乳腺良性疾病患者19例和健康对照组41例。(肿瘤诊断模型)
队列2:纳入接受新辅助治疗的患者58例,pCR(病理完全缓解)组24例,non-pCR组34例。(疗效预测模型)
其转录组测序在 https://ngdc.cncb.ac.cn/gsa-human/browse/HRA001985 ,可以看到:

转录组测序

虽然文章写的是对172例入组患者的血浆样本进行exLR测序(exLR-seq),发现良性组和乳腺癌组中的mRNAs、lncRNAs、假基因和circRNA较健康组丰富。

这个文章里面的每个样品的测序数据量并不多,就是常规的mRNA的转录组测序的数据量, 它并没有专门的去针对每个样品进行检测普通mRNA,加上 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因得到独立的fastq文件。

所以我们把目光转到另外两个《Molecular Cancer》杂志的文章;

《 circPARD3 drives malignant progression and chemoresistance of laryngeal squamous cell carcinoma by inhibiting autophagy through the PRKCI-Akt-mTOR pathway 》
《Circular RNA circCORO1C promotes laryngeal squamous cell carcinoma progression by modulating the let-7c-5p/PBX3 axis》
这个是真正的全转录组学测序及数据分析,喉鳞癌(LSCC)和 ANM(癌旁正常黏膜) 组织的两个分组,可以获得差异表达的miRNA、circRNA、lncRNA、mRNA,预测关键分子主要参与的信号通路及生物学过程。

全转录组的芯片
我记得2019年讨论的全转录组学测序及数据分析还是8000一个样品,因为要获得差异表达的miRNA、circRNA、lncRNA、mRNA的4种信息,还得关联分析。目前(2022)应该是不到4000一个全转录组学测序及数据分析样品了,但是全转录组学信息获得并不是只有测序这个手段,另外一个比较成熟的商业解决方案就是芯片技术,比如 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE175962

GPL20712 Agilent-070156 Human miRNA [miRNA version]
GPL21825 074301 Arraystar Human CircRNA microarray V2
GPL26963 Agilent-085982 Arraystar human lncRNA V5 microarray
它就有3款芯片,组合起来也算是全转录组啦。只不过是Agilent的芯片数据分析起来比较麻烦。

学徒作业
下载上面提到的GSE175962数据集的3个芯片表达量矩阵, 各自独立差异分析后,参考上面提到的两个《Molecular Cancer》杂志的文章对差异表达的miRNA、circRNA、lncRNA、mRNA的关联分析,出几个网络图。

生信服务
目前ngs组学已经深入的生命科学领域研究的方方面面,但是绝大部分普通实验设计,比如癌症和癌旁的差异,药物处理前后,病人疗效好坏的差异,都已经是被多组学层面检测过了差异,也就是说,如果你的思维就到此为止,多组学也不能为你加持了。但是如果你的粗浅的实验设计功底并没有在全转录组的测序技术这个点被抢先一步,毕竟要对对每个样品进行检测普通
温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-11-23


全转录组是指特定组织或细胞在特定状态下转录出的所有转录本信息的总和,结合RNA-seq技术,可构建详细的转录图谱并从转录后水平深度揭示RNA调控机制。
众所周知,生物体是一个错综复杂的网络,任何一类RNA分子都不是孤立的。不同类型的RNA分子都是相互联系,相互作用的。目前,随着研究的深入,单一的mRNA或ncRNA研究已不能满足科研需求,结合多种RNA信息进行ceRNA联合分析,探究其潜在的调控网络机制才是解释生物学现象的利器!同时进行mRNA、small RNA、lncRNA、circRNA信息及联合分析的全转录组测序成为解释调控网络的主流技术。
全转录组关键在于如何利用测序数据,从不同角度进行整合分析。非编码RNA进化问题是目前的难点,如何全面分析非编码RNA的前世今生是重点。从如何起源、到怎样进化、再到如何保留下来表达而发挥作用,是文章大体思路。

相关了解……

你可能感兴趣的内容

大家正在搜

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网