做肿瘤研究的过程中,生存分析是一个很常见的研究分析,研究者可以根据生存分析的结果判断某个因素,比如基因表达,对患者预后生存的影响。 TCGA这个肿瘤研究的宝库包含了多个肿瘤Cancer Types Index的生存数据,一直以来都是数据挖掘的宝库。 我们本次收集了大家广泛研究的基因集(GeneSet),分析这些基因在TCGA的不同肿瘤类型中与病人生存期的关系。每个基因集分别进行基因表达与生存数据的Cox回归分析、KM生存分析、风险指数建模以及与病人多个临床因素的关联等分析。 本分析花费6天6夜给大家带来丰富内容: 结果按照基因集和肿瘤类型组合分别存储为独立数据包,可供选择。另外也接受基因集私人定制。 两百多个与肿瘤相关的GeneSet分别在TCGA的33种肿瘤中进行分析,GeneSet使用的为GSEA的。
参考文献: 1. A Multivariable Prediction Model for Pneumocystis jirovecii Pneumonia in Hematology Patients with Acute Respiratory FailureAm J Respir Crit Care Med. 2018 Dec 15;198(12):1519-1526. doi: 10.1164/rccm.201712-2452OC. 2. Plasma biomarkers of risk for death in a multicenter phase 3 trial with uniform transplant characteristics post–allogeneic HCTBlood. 2017 Jan 12;129(2):162-170. doi: 10.1182/blood-2016-08-735324. Epub 2016 Nov 8. 3. Deep learning for lung cancer prognostication: A retrospective multi-cohort radiomics study PLoS Med. 2018 Nov 30;15(11):e1002711. doi: 10.1371/journal.pmed.1002711. eCollection 2018 Nov. Lancet. 2019 Dec 7;394(10214):2084-2095. doi: 10.1016/S0140-6736(19)32259-7. Epub 2019 Nov 29. Lancet. 2017 Mar 4;389(10072):917-929. doi: 10.1016/S0140-6736(17)30123-X. Epub 2017 Jan 24. If you have questions or problems using the data please send them to yunbios . Also lets us know if you find it's useful in your work. 以ACC(肾上腺皮质癌)为例,展示本次分析结果: 基因表达与生存期的Cox回归
Cox 比例风险回归模型。生存分析模型,即Kaplan-Meiersurvival estimate,是单变量分析(univariable analysis),在做单变量分析时,模型只描述了该单变量和生存之间的关系而忽略其他变量的影响。(为什么要考虑multi-variables?比如在比较两组病人拥有和不拥有某种基因型对生存率的影响,但是其中一组的患者年龄较大,所以生存率可能受到基因型或/和年龄的共同影响) 同时,Kaplan-Meier方法只能针对分类变量(治疗A vs 治疗B,男 vs 女),不能分析连续变量对生存造成的影响。 为了解决上述两种问题,Cox比例风险回归模型(Cox proportional hazards regression model)就被提了出来。 本分析首先进行单元的和多元的cox回归分析,找到与生存显著的基因,再拿显著的基因进行下游研究。 单元cox回归: 多元cox回归: 多元和单元cox回归表格: 生存概率
2.1 Kaplan-Meier survival estimate 2.2Log-Rank test 比较不同的生存曲线 在利用KM方法得到多条生存曲线后,只通过直接的观察来确定多条曲线之间是否具有显著性差异是不充分的。因此,log-rank test被广泛的用来比较两条或多条生存曲线。 1)log-rank test是一种非参数检验,因此对于生存概率的分布没有任何假设; 2)同时,log-rank test 的nullhypothesis(原假设)为两个曲线代表的两个组之间,在生存率上没有显著性差异。 3)log-rank test比较的是每个组中观察到的事件数,与在原假设为真的情况下,每个组期望的事件数。 4)log-rank test统计量类似于卡方检验(Chi-squaretest)的统计量 **部分的显著基因,分别画出km图(两种类型的km图,可根据喜好挑选): 临床信息的统计
该部分可得到感兴趣基因与病人临床信息(如转移、淋巴结等)的关系,为课题设计和后续实验的方向提供思路。 有两个主要的结果,一个是按照基因表达高低分组,比较两组病人的临床信息的差异(存放在ClinicCompare目录中),另一个是用热图的形式展示出基因表达与病人临床信息的关系(存放在ClinicHeatmap目录下)。 3.1 临床信息的差异检验: 显著的特征用黄色标出。 3.2 临床统计的热图: 上半部分为基因表达的分布,下半部分热图为病人的临床信息的分类。 风险指数模型建立
对于每个GeneSet,我们使用里面的基因建立生存期的预测模型,包含以下分析内容: 1)训练集与测试集 TCGA数据病人按照7:3随机分成训练集(training data)和测试集(testing data)。训练集用于预测模型的参数训练和相关基因集的选择,测试集用于检验训练集给出的参数和基因集的预测能力。整个建模分为以下几步: 1.只用训练集的数据,每个基因进行单元cox回归,初步筛选相关基因; 2.所有单元cox显著的基因,进行1000次LASSO运算,得到每个基因的出现频率,并排序; 3.按照以上排序,递增构建基因集,每个基因集进行多元cox回归,求得每个基因的贡献度; 4.获得**基因集合,再计算一次多元cox回归,确定每个基因的回归系数; 5.以上回归系数计算每个病人的死亡风险指数; 6.该死亡风险指数模型在训练集中测试(预测情况与实际情况比较); 7.同一模型在起初独立出的测试集里面进行测试(预测情况与实际情况比较)。 2)、机器学习(Lasso)构建**多元COX模型 在统计学和机器学习中,Lasso算法(英语:least absoluteshrinkage and selection operator,又译最小绝对值收敛和选择算子、套索算法)是一种同时进行特征选择和正则化(数学)的回归分析方法,旨在增强统计模型的预测准确性和可解释性。Lasso是一种采用了L1正则化(L1-regularization)的线性回归方法,采用了L1正则会使得部分学习到的特征权值为0,从而达到稀疏化和选择变量、构建**模型的目的。 LASSO 回归的特点是在拟合广义线性模型的同时进行变量筛选(variable selection)和复杂度调整(regularization)。因此,不论目标因变量(dependent/responsevaraible)是连续的(continuous),还是二元或者多元离散的(discrete),都可以用 LASSO 回归建模然后预测。这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。 3)、基因panel的风险指数分析 对上述得到的基因Panel,我们根据表达情况和多元回归系数,对每一个样本计算了风险指数(Risk Score)。公式如下: xi代表各个基因Panel中基因的表达量,βi为每个基因对应的多元COX回归beta值(multi_beta)。 样本依据风险指数以中位数为界分为高指数组与低指数组,进行Kaplan-Meier生存分析,绘制生存曲线。 同时基于风险指数,绘制了一年、三年、五年生存期的ROC曲线。 结果: 风险模型的系数:
训练集和测试集的ROC曲线评估模型准确性: 高低风险组的生存曲线比较: 病人的风险指数打分表:
以及高低风险组的临床信息统计,同上,存放在ClinicHeatmap\RiskModel和ClinicCompare\RiskModel中: |