成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)售后服務(wù)

來源: 發(fā)布時(shí)間:2021-09-27

    PCA主成分分析測(cè)序技術(shù)的發(fā)展使得現(xiàn)在能夠從宏觀角度分析基因表達(dá),但是也在一定程度上增加了數(shù)據(jù)分析難度。許多基因之間可能存在相關(guān)性,如果分別對(duì)每個(gè)基因進(jìn)行分析,分析往往是孤立的,盲目減少指標(biāo)會(huì)損失很多有用的信息。PCA(PrincipalComponentAnalysis),即主成分分析方法,是一種使用*****的數(shù)據(jù)降維算法。一般可應(yīng)用的研究方向有:一組基因在多個(gè)分組中的差異情況,多個(gè)基因在該樣本中的差異情況?;驹鞵CA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來的k維特征。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標(biāo)軸,新的坐標(biāo)軸的選擇與數(shù)據(jù)本身是密切相關(guān)的。其中,**個(gè)新坐標(biāo)軸選擇是原始數(shù)據(jù)中方差**的方向,第二個(gè)新坐標(biāo)軸選取是與**個(gè)坐標(biāo)軸正交的平面中使得方差**的,第三個(gè)軸是與第1,2個(gè)軸正交的平面中方差**的。依次類推,可以得到n個(gè)這樣的坐標(biāo)軸。通過這種方式獲得的新的坐標(biāo)軸,我們發(fā)現(xiàn),大部分方差都包含在前面k個(gè)坐標(biāo)軸中,后面的坐標(biāo)軸所含的方差幾乎為0。于是,我們可以忽略余下的坐標(biāo)軸,只保留前面k個(gè)含有絕大部分方差的坐標(biāo)軸。事實(shí)上。 兩個(gè)實(shí)驗(yàn)組的差異基因比較。成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)售后服務(wù)

    Adonis(置換多元方差分析,分析不同分組或環(huán)境因子對(duì)樣品差異的解釋度):ADONIS置換多元方差分析(Permutationalmultivariateanalysisofvariance,PERMANOVA),又稱非參數(shù)多因素方差分析(nonparametricmultivariateanalysisofvariance)、或者ADONIS分析。使用PERMANOVA可分析不同分組因素對(duì)樣品差異的解釋度,并使用置換檢驗(yàn)進(jìn)行***性統(tǒng)計(jì)?;驹恚褐脫Q多元方差分析(PERMANOVA,Adonis)是一種基于F統(tǒng)計(jì)的方差分析,依據(jù)距離矩陣對(duì)總方差進(jìn)行分解的非參數(shù)多元方差分析方法?;静襟E是基于OTU豐度表,計(jì)算樣本間樣本間Bray-curtis距離,然后adonis分析生成結(jié)果,繪圖展示。術(shù)語解讀:OTU:operationaltaxonomicunits,分類單元Df:自由度,其值=所比較的分組數(shù)量-1;SumsOfSqs:即Sumsofsquares,總方差,又稱離差平方和;MeanSqs:即Meansquares,均方(差);FModel:F檢驗(yàn)值;R2:即Variation(R2),方差貢獻(xiàn),表示不同分組對(duì)樣品差異的解釋度,即分組方差與總方差的比值,R2越大表示分組對(duì)差異的解釋度越高;Pr(>F):***性p值,小于***。數(shù)據(jù)要求:OTU豐度表或者樣本距離矩陣。 云南公共數(shù)據(jù)庫挖掘數(shù)據(jù)科學(xué)早期肝疾病的預(yù)后基因panel研究。

    GSEA術(shù)語解讀Enrichmentscore(ES)ES是GSEA**初的結(jié)果,反應(yīng)關(guān)注的基因集S在原始基因數(shù)據(jù)序列L的頂部或底部富集的程度。ES原理:掃描排序序列,當(dāng)出現(xiàn)一個(gè)基因集S中的基因時(shí),增加ES值,反之減少ES值,一個(gè)基因的ES值權(quán)重與差異表達(dá)度相關(guān)。ES是個(gè)動(dòng)態(tài)值,**終ES是動(dòng)態(tài)掃描過程中獲得的**ES值。如果**終ES為正,表示某一功能基因集S富集在排序序列頂部。ES為負(fù),表示某一基因集S富集在排序序列底部。NES由于ES是根據(jù)分析的排序序列中的基因是否在一個(gè)基因集S中出現(xiàn)來計(jì)算的,但各個(gè)基因集S中包含的基因數(shù)目不同,且不同功能基因集S與原始數(shù)據(jù)之間的相關(guān)性也不同,因此比較數(shù)據(jù)中基因在不同基因集S中的富集程度要對(duì)ES進(jìn)行標(biāo)準(zhǔn)化處理,也就是計(jì)算NES。NES=某一基因集S的ES/數(shù)據(jù)集所有隨機(jī)組合得到的ES平均值,NES是主要的統(tǒng)計(jì)量。nominalp-value(普通P值)描述的是針對(duì)某一功能基因集S得到的富集得分的統(tǒng)計(jì)***性,通常p越小富集性越好。FDR(多重假設(shè)檢驗(yàn)矯正P值)NES確定后,需要判斷其中可能包含的錯(cuò)誤陽性發(fā)現(xiàn)率。FDR=25%意味著對(duì)此NES的判斷4次可能錯(cuò)1次。GSEA結(jié)果中,高亮顯示FDR<25%的富集基因集S。因?yàn)閺倪@些功能基因集S中**可能產(chǎn)生有意義的假設(shè)。大多數(shù)情況下。

    ROC機(jī)器學(xué)習(xí)受試者工作特征曲線(receiveroperatingcharacteristiccurve,簡(jiǎn)稱ROC曲線),又稱為感受性曲線(sensitivitycurve),是用來驗(yàn)證一個(gè)分類器(二分)模型的性能的。一般應(yīng)用于直觀展示敏感性和特異性連續(xù)變量的綜合指標(biāo),如比較多個(gè)biomarker或臨床參數(shù)的診斷表現(xiàn)、比較多個(gè)算法的分類效果?;驹鞷OC曲線工作原理是,向模型中輸入已知正負(fù)類的一組數(shù)據(jù),對(duì)比模型對(duì)該組數(shù)據(jù)的預(yù)測(cè),衡量這個(gè)模型的性能。術(shù)語解讀:1、TP(TruePositive,真正,TP)被模型預(yù)測(cè)為正的正樣本(原來為正預(yù)測(cè)為正)2、TN(TrueNegative,真負(fù),TN)被模型預(yù)測(cè)為負(fù)的負(fù)樣本(原來為負(fù)預(yù)測(cè)為負(fù))3、FP(FalsePositive,假正,FP)被模型預(yù)測(cè)為正的負(fù)樣本(原來為負(fù)預(yù)測(cè)為正)4、FN(FalseNegative,假負(fù),FN)被模型預(yù)測(cè)為負(fù)的正樣本(原來為正預(yù)測(cè)為負(fù))5、真正類率(TruePostiveRate)TPR:TP/(TP+FN),**分類器預(yù)測(cè)的正類中實(shí)際正實(shí)例占所有正實(shí)例的比例。Sensitivity6、假正類率(FalsePostiveRate)FPR:FP/(FP+TN),**分類器預(yù)測(cè)的負(fù)類中預(yù)測(cè)為正實(shí)例(實(shí)際為負(fù)實(shí)例)占所有負(fù)實(shí)例的比例。1-Specificity7、真負(fù)類率(TrueNegativeRate)TNR:TN/(FP+TN)。 實(shí)驗(yàn)室致病類病原微生物數(shù)據(jù)分析平臺(tái)。

industryTemplate云生物立足于上海,提供相關(guān)數(shù)據(jù)科研咨詢與服務(wù)。湖北生物/藥物信息學(xué)分析數(shù)據(jù)科學(xué)服務(wù)

提供語言潤(rùn)色、圖表調(diào)整、格式修改等工作模塊。成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)售后服務(wù)

ssGSEA基本原理

對(duì)于一個(gè)基因表達(dá)矩陣,ssGSEA首先對(duì)樣本的所有基因的表達(dá)水平進(jìn)行排序獲得其在所有基因中的秩次rank。然后對(duì)于輸入的基因集,從基因集中尋找表達(dá)數(shù)據(jù)里存在的基因并計(jì)數(shù),并將這些基因的表達(dá)水平求和。接著基于上述求值,計(jì)算通路中每個(gè)基因的富集分?jǐn)?shù),并進(jìn)一步打亂基因順序重新計(jì)算富集分?jǐn)?shù),重復(fù)一千次,***根據(jù)基因富集分?jǐn)?shù)的分布計(jì)算p值整合基因集**終富集分?jǐn)?shù)。

數(shù)據(jù)要求

1、特定感興趣的基因集(通常為免疫細(xì)胞表面marker genes),列出基因集中基因

2、基因表達(dá)矩陣,為經(jīng)過log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seq count數(shù)數(shù)據(jù)(基因名形式與基因集對(duì)應(yīng))


下游分析

免疫細(xì)胞浸潤(rùn)分?jǐn)?shù)相關(guān)性(corralation)分析 成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)售后服務(wù)