下游分析針對LASSO獲得的基因模型(或稱基因Panel)的驗證:1.計算風險指數(shù)RiskScore2.繪制ROC曲線、DCA曲線、列線圖進行驗證3.繪制生KM存曲線對基因模型中的基因進行解釋和分析:1.基因注釋2.靶向藥物分析應用示例:文獻1:PrognosticandpredictivevalueofamicroRNAsignatureinstageIIcoloncancer:amicroRNAexpressionanalysis.于2013年12月發(fā)表在LancetOncol.,影響因子。一個miRNA特征集在stageII結腸*的預后預測作用分析文章對stageII結腸*組織和*旁正常組織的miRNA芯片數(shù)據(jù)進行了差異表達分析,并通過LASSOCox回歸對獲得的差異表達miRNA進行篩選,獲得了6個miRNA的可以預測預后情況的miRNA特征集。文獻2:PrognosticValueofaBCSC-associatedMicroRNASignatureinHormoneReceptor-PositiveHER2-NegativeBreastCancer(于2016年9月發(fā)表在EBioMedicine.上,影響因子)文章將符合條件的患者劃分為訓練集和測試集,首先分析獲得了**干細胞相關的miRNA,接著通過LASSO對**干細胞相關的miRNA進行篩選,構建了10個miRNA的預后預測模型,并計算風險指數(shù)繪制了生存曲線和ROC曲線。 根據(jù)委托方提供的參考文獻和要求進行個性化特定分析。湖北算法還原與開發(fā)數(shù)據(jù)科學歡迎咨詢
GSEA術語解讀Enrichmentscore(ES)ES是GSEA**初的結果,反應關注的基因集S在原始基因數(shù)據(jù)序列L的頂部或底部富集的程度。ES原理:掃描排序序列,當出現(xiàn)一個基因集S中的基因時,增加ES值,反之減少ES值,一個基因的ES值權重與差異表達度相關。ES是個動態(tài)值,**終ES是動態(tài)掃描過程中獲得的**ES值。如果**終ES為正,表示某一功能基因集S富集在排序序列頂部。ES為負,表示某一基因集S富集在排序序列底部。NES由于ES是根據(jù)分析的排序序列中的基因是否在一個基因集S中出現(xiàn)來計算的,但各個基因集S中包含的基因數(shù)目不同,且不同功能基因集S與原始數(shù)據(jù)之間的相關性也不同,因此比較數(shù)據(jù)中基因在不同基因集S中的富集程度要對ES進行標準化處理,也就是計算NES。NES=某一基因集S的ES/數(shù)據(jù)集所有隨機組合得到的ES平均值,NES是主要的統(tǒng)計量。nominalp-value(普通P值)描述的是針對某一功能基因集S得到的富集得分的統(tǒng)計***性,通常p越小富集性越好。FDR(多重假設檢驗矯正P值)NES確定后,需要判斷其中可能包含的錯誤陽性發(fā)現(xiàn)率。FDR=25%意味著對此NES的判斷4次可能錯1次。GSEA結果中,高亮顯示FDR<25%的富集基因集S。因為從這些功能基因集S中**可能產生有意義的假設。大多數(shù)情況下。 組學數(shù)據(jù)處理數(shù)據(jù)科學方案乳腺類疾病預后相關信性基因突變研究數(shù)據(jù)包。
GSEA分析:GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關注的GO條目或KEGGPathway)在兩個生物學狀態(tài)(如**與對照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學意義。普通GO/KEGG富集的思路是先篩選差異基因,然后確定這些差異基因的GO/KEGG注釋,然后通過超幾何分布計算出哪些通路富集到了,再通過p值或FDR等閾值進行篩選。挑選用于富集的基因有一定的主觀性,沒有關注到的基因的信息會被忽視,所以有一定的局限性。在這種情況下有了GSEA(GeneSetEnrichmentAnalysis),其思路是發(fā)表于2005年的Genesetenrichmentanalysis:aknowledge-basedapproachforinterpretinggenome-wideexpressionprofiles。主要是要有兩個概念:預先定義的基因集S(基于先驗知識的基因注釋信息)和待分析基因集L(一般初始輸入是表達矩陣);然后GSEA目的就是為了判斷S基因集中的基因是隨機分布于L(按差異表達程度對基因進行排序),還是聚集分布在L的頂部或者底部(也就是存在差異性富集)。如果基因集中的基因***富集在L的頂部或者底部,這說明這些基因的表達對定義的分組(預先分組)的差異有***影響(一致性)。在富集分析的理論中。
ROC機器學習受試者工作特征曲線(receiveroperatingcharacteristiccurve,簡稱ROC曲線),又稱為感受性曲線(sensitivitycurve),是用來驗證一個分類器(二分)模型的性能的。一般應用于直觀展示敏感性和特異性連續(xù)變量的綜合指標,如比較多個biomarker或臨床參數(shù)的診斷表現(xiàn)、比較多個算法的分類效果?;驹鞷OC曲線工作原理是,向模型中輸入已知正負類的一組數(shù)據(jù),對比模型對該組數(shù)據(jù)的預測,衡量這個模型的性能。術語解讀:1、TP(TruePositive,真正,TP)被模型預測為正的正樣本(原來為正預測為正)2、TN(TrueNegative,真負,TN)被模型預測為負的負樣本(原來為負預測為負)3、FP(FalsePositive,假正,FP)被模型預測為正的負樣本(原來為負預測為正)4、FN(FalseNegative,假負,FN)被模型預測為負的正樣本(原來為正預測為負)5、真正類率(TruePostiveRate)TPR:TP/(TP+FN),**分類器預測的正類中實際正實例占所有正實例的比例。Sensitivity6、假正類率(FalsePostiveRate)FPR:FP/(FP+TN),**分類器預測的負類中預測為正實例(實際為負實例)占所有負實例的比例。1-Specificity7、真負類率(TrueNegativeRate)TNR:TN/(FP+TN)。 診療軟件開發(fā)、算法還原與開發(fā)、臨床統(tǒng)計等數(shù)據(jù)科學工作。
GSVA(基因集變異分析,反映了樣本和感興趣的通路之間的聯(lián)系):GSVA全名Genesetvariationanalysis(基因集變異分析),是一種非參數(shù),無監(jiān)督的算法。與GSEA不同,GSVA不需要預先對樣本進行分組,可以計算每個樣本中特定基因集的富集分數(shù)。換而言之,GSVA轉化了基因表達數(shù)據(jù),從單個基因作為特征的表達矩陣,轉化為特定基因集作為特征的表達矩陣。GSVA對基因富集結果進行了量化,可以更方便地進行后續(xù)統(tǒng)計分析。如果用limma包做差異表達分析可以尋找樣本間差異表達的基因,同樣地,使用limma包對GSVA的結果(依然是一個矩陣)做同樣的分析,則可以尋找樣本間有***差異的基因集。這些“差異表達”的基因集,相對于基因而言,更加具有生物學意義,更具有可解釋性,可以進一步用于**subtype的分型等等與生物學意義結合密切的探究。 不斷拓展各類大學、科研院所、醫(yī)院學術資源,互通有無,形成強大學術生態(tài)圈。廣東臨床統(tǒng)計數(shù)據(jù)科學活動
與復旦大學問附屬醫(yī)院合作,開發(fā)人血液外泌體中RNA的數(shù)據(jù)庫。湖北算法還原與開發(fā)數(shù)據(jù)科學歡迎咨詢
GeneInteraction基因互作:基因相互作用指miRNA、lncRNA、circRNA或其它RNA介導DNA轉錄,從而影響mRNA的表達過程。通俗意義上來說,基因互作關系指基于序列預測的靶基因對。miRNA通過與靶mRNA的結合,或促使mRNA降解,或阻礙其翻譯,從而***目的基因的表達。競爭性內源RNA網(wǎng)絡是靶基因預測的研究深入,簡稱ceRNA網(wǎng)絡。通過進行ceRNA網(wǎng)絡的分析,我們能從一個更為宏觀的角度來解釋轉錄體如何構建基因表達調控網(wǎng)絡,從而進一步挖掘基因在其中的調控機制。基本原理:miRNA主要通過與靶基因的非翻譯區(qū)(UTR)結合而發(fā)揮其作用,對miRNA和mRNA、lncRNA、circRNA結合進行的預測稱為靶基因預測。靶基因預測使用軟件根據(jù)miRNA和靶基因間的結合的規(guī)律預測結合基因對。在生物體內,miRNA可以通過與proteincoding特異性結合,影響相關基因的表達,從而參與調控細胞內的各項功能。ceRNA具有miRNA結合位點,能后競爭性地結合miRNA,***miRNA對靶基因的調控。例如lncRNA與miRNA競爭性結合,影響miRNA調控mRNA的過程,**終導致的mRNA表達失調。我們使用基于序列預測的軟件對差異分析得到的miRNA與mRNA,lncRNA,circRNA進行靶點預測和ceRNA網(wǎng)絡分析。 湖北算法還原與開發(fā)數(shù)據(jù)科學歡迎咨詢