t-SNE(t分布隨機(jī)鄰域嵌入)是一種用于探索高維數(shù)據(jù)的非線性降維算法。它將多維數(shù)據(jù)映射到適合于人類觀察的兩個(gè)或多個(gè)維度。t-SNE非線性降維算法通過基于具有多個(gè)特征的數(shù)據(jù)點(diǎn)的相似性識(shí)別觀察到的簇來(lái)在數(shù)據(jù)中找到模式。另外t-SNE的輸出可以作為其他分類算法的輸入特征。因?yàn)閠-SNE算法定義了數(shù)據(jù)的局部和全局結(jié)構(gòu)之間的軟邊界。t-SNE幾乎可用于所有高維數(shù)據(jù)集,廣泛應(yīng)用于圖像處理,自然語(yǔ)言處理和語(yǔ)音處理。在生物信息中可廣泛應(yīng)用于基因表達(dá)數(shù)據(jù)、基因甲基化數(shù)據(jù)、基因突變數(shù)據(jù)等,能夠直觀地對(duì)不同數(shù)據(jù)集進(jìn)行比較。基本原理從方法上來(lái)講,t-SNE本質(zhì)上是基于流行學(xué)習(xí)(manifoldlearning)的降維算法,不同于傳統(tǒng)的PCA和MMD等方法,t-SNE在高維用normalizedGaussiankernel對(duì)數(shù)據(jù)點(diǎn)對(duì)進(jìn)行相似性建模。相應(yīng)的,在低維用t分布對(duì)數(shù)據(jù)點(diǎn)對(duì)進(jìn)行相似性(直觀上的距離)建模,然后用KL距離來(lái)拉近高維和低維空間中的距離分布。 檢測(cè)服務(wù)及數(shù)據(jù)分析助力取得2020年國(guó)自然面上十項(xiàng)、青年基金十八項(xiàng)。湖北成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)活動(dòng)
PPImodule蛋白質(zhì)互作蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction,PPI)是指兩個(gè)或兩個(gè)以上的蛋白質(zhì)分子通過非共價(jià)鍵形成蛋白質(zhì)復(fù)合體(proteincomplex)的過程。PPImodule是指共表達(dá)蛋白模塊或蛋白質(zhì)相互作用模塊。蛋白質(zhì)相互作用形成人體復(fù)雜的蛋白質(zhì)相互作用網(wǎng)絡(luò),對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊從而幫助我們理解細(xì)胞的功能。我們一般使用PPImodule把基因列表跟蛋白相互作用網(wǎng)絡(luò)聯(lián)系起來(lái)。例如RNA-seq獲得的差異表達(dá)基因,看他們?cè)诘鞍紫嗷プ饔镁W(wǎng)絡(luò)中,哪些基因處于同一module?;驹恚旱鞍踪|(zhì)在細(xì)胞中的功能取決于它與其他蛋白質(zhì)、核酸和小分子相互作用關(guān)系,對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊,各個(gè)蛋白模塊發(fā)揮不同的功能,我們將基因列表重疊于模塊上,查找基因列表所在的功能模塊,從而發(fā)現(xiàn)基因列表中的基因可能發(fā)揮的細(xì)胞功能。我們通過PPI數(shù)據(jù)庫(kù)找到共表達(dá)蛋白中的module,然后從模塊中篩選出基因列表的產(chǎn)物蛋白,篩選出的結(jié)果就是基因列表***表達(dá)的PPImodule。 湖北成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)活動(dòng)文稿投稿2個(gè)月online 發(fā)表。
術(shù)語(yǔ)解讀:PPI:蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction)PPImoduleI:指蛋白質(zhì)相互作用模塊,一個(gè)模塊指向一個(gè)功能數(shù)據(jù)要求:基因列表應(yīng)用示例1:(于2018年3月發(fā)表在Immunity.,影響因子)T細(xì)胞活化過程中產(chǎn)生蛋白質(zhì)組進(jìn)行多重定量分析,然后對(duì)差異表達(dá)蛋白權(quán)重聚類,并將聚類蛋白疊加到PPI網(wǎng)絡(luò)上以識(shí)別功能模塊。D.模塊大小的分布,通過將每個(gè)WPC(權(quán)重聚類結(jié)果)中的蛋白疊加到蛋白-蛋白相互作用(PPI)網(wǎng)絡(luò)上識(shí)別模塊。每個(gè)模塊的蛋白質(zhì)數(shù)量顯示出來(lái)。E.各個(gè)模塊及其交互的關(guān)系圖。圓圈(節(jié)點(diǎn))表示90個(gè)模塊,圓圈大小與模塊大小成比例。邊連接共享PPIs的模塊。在(F)和(G)中進(jìn)一步擴(kuò)展了裝箱模塊。F.來(lái)自WPC3的細(xì)胞質(zhì)和線粒體核糖體的四個(gè)互連模塊。顯示了蛋白質(zhì)的名稱和每個(gè)模塊的代表性功能術(shù)語(yǔ)。G.來(lái)自WPC3的蛋白酶體,OXPHOS和線粒體復(fù)合物IV途徑的模塊。
術(shù)語(yǔ)解讀:
TME: Tumormicroenvironment
TMEscore: TMEsignature score(使用PCA算法計(jì)算得到,高意味著對(duì)病毒和干擾素免疫***和應(yīng)答敏感。)
PCA:Principal component analysis
CIBERSORT:Cell type identification by estimating relative subset of known RNA transcripts
CYT:Cytolytic activity
EMT:Epithelial-mesenchymal-transition
CR: Completeresponse
PR: Partialresponse
PD:Progressive disease
TMB: Tumormutational burden
數(shù)據(jù)要求:
各細(xì)胞之間的相關(guān)關(guān)系、pvalue、聚類/分類結(jié)果、跟預(yù)后的關(guān)系表。 與復(fù)旦大學(xué)問附屬醫(yī)院合作,開發(fā)人血液外泌體中RNA的數(shù)據(jù)庫(kù)。
sankey
?;鶊D(sankey)是一種數(shù)據(jù)流圖,每條邊**一條數(shù)據(jù)流,寬度**數(shù)據(jù)流的大小。一套數(shù)據(jù)集可能有多重屬性,每層屬性之間有交叉,就可以用這種圖來(lái)展示。一般應(yīng)用場(chǎng)景:分組與基因?yàn)槎鄬?duì)多關(guān)系,展示高頻突變基因所處的分組;miRNA和靶基因的關(guān)系;人群按性別、年齡、家族史等特征分組,展示不同分組得**的規(guī)律。
數(shù)據(jù)要求:
多個(gè)分組及其關(guān)系,包括且不限于基因表達(dá)、突變。
下游分析:
1. 補(bǔ)充展示部分的已有相關(guān)研究
2. 解釋展示部分對(duì)研究課題的意義 糖尿病藥物基因組學(xué)分析找到新的作用靶點(diǎn)。湖北成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)活動(dòng)
長(zhǎng)期與交大、復(fù)旦、中科院、南大、藥科大等實(shí)驗(yàn)室合作。湖北成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)活動(dòng)
TMB**突變負(fù)荷**突變負(fù)荷(TMB)作為免疫療法的生物標(biāo)志物,能夠較好的預(yù)測(cè)患者免疫***的療效。基于**突變負(fù)荷,可以從一種新的角度探尋基因跟免疫及預(yù)后的關(guān)系。一般應(yīng)用場(chǎng)景:基于TMB預(yù)測(cè)不同性狀的免疫***療效、不同基因表達(dá)或突變對(duì)免疫***潛在的影響?;驹恚?*突變負(fù)荷(TumorMutationBurden,TMB),通常被定義為一份**樣本中,所評(píng)估基因的外顯子編碼區(qū)每兆堿基中發(fā)生置換和插入/缺失突變的總數(shù)。近年許多研究都報(bào)道了TMB與PD-1/PD-L1抑制劑的療效高度相關(guān),同時(shí)基于TMB進(jìn)行的臨床研究都得到了較好的結(jié)果。這讓一些**患者可以通過TMB標(biāo)志物對(duì)免疫療法的療效進(jìn)行一定程度的預(yù)測(cè)。結(jié)合TMB,可以從免疫***角度探尋關(guān)鍵基因、探究不同亞型**存在的不同發(fā)病機(jī)制。數(shù)據(jù)要求:基因突變數(shù)據(jù),臨床或其他分類數(shù)據(jù)。 湖北成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)活動(dòng)