云南數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)服務(wù)

來源：發(fā)布時間：2021-05-04

術(shù)語解釋：Cox回歸：又稱比例風(fēng)險回歸模型(proportionalhazardsmodel，簡稱Cox模型)，是由英國統(tǒng)計學(xué)家。該模型以生存結(jié)局和生存時間為應(yīng)變量，可同時分析多種因素對于生存期長短的影響。Cox模型能分析帶有截尾生存時間的資料，且不要求估計資料的生存分布類型，因此在醫(yī)學(xué)界被***使用。Logistic回歸：又稱邏輯回歸模型，屬于廣義線性模型。邏輯回歸是一種用于解決二分類問題的分析方法，用于估計某種事物的可能性。相較于傳統(tǒng)線性模型，邏輯回歸模型以概率形式輸出結(jié)果，可控性高且結(jié)果可解釋性強(qiáng)。數(shù)據(jù)要求：樣本臨床信息或生物學(xué)特征（基因突變、基因表達(dá)等）樣本的隨訪數(shù)據(jù)（總生存期，生存狀態(tài)）或樣本的分組情況下游分析：1.補(bǔ)充相關(guān)因素的已有相關(guān)研究2.解釋相關(guān)因素對研究課題的意義。構(gòu)建新的臨床預(yù)測模型。云南數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)服務(wù)

t-SNE（t分布隨機(jī)鄰域嵌入）是一種用于探索高維數(shù)據(jù)的非線性降維算法。它將多維數(shù)據(jù)映射到適合于人類觀察的兩個或多個維度。t-SNE非線性降維算法通過基于具有多個特征的數(shù)據(jù)點(diǎn)的相似性識別觀察到的簇來在數(shù)據(jù)中找到模式。另外t-SNE的輸出可以作為其他分類算法的輸入特征。因?yàn)閠-SNE算法定義了數(shù)據(jù)的局部和全局結(jié)構(gòu)之間的軟邊界。t-SNE幾乎可用于所有高維數(shù)據(jù)集，廣泛應(yīng)用于圖像處理，自然語言處理和語音處理。在生物信息中可廣泛應(yīng)用于基因表達(dá)數(shù)據(jù)、基因甲基化數(shù)據(jù)、基因突變數(shù)據(jù)等，能夠直觀地對不同數(shù)據(jù)集進(jìn)行比較?；驹韽姆椒ㄉ蟻碇v，t-SNE本質(zhì)上是基于流行學(xué)習(xí)(manifoldlearning)的降維算法，不同于傳統(tǒng)的PCA和MMD等方法，t-SNE在高維用normalizedGaussiankernel對數(shù)據(jù)點(diǎn)對進(jìn)行相似性建模。相應(yīng)的，在低維用t分布對數(shù)據(jù)點(diǎn)對進(jìn)行相似性(直觀上的距離)建模，然后用KL距離來拉近高維和低維空間中的距離分布。湖北數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)共同合作在分子生物、細(xì)胞生物、實(shí)驗(yàn)動物、病理、臨床樣本方面已與長三角100余家企業(yè)形成良好合作關(guān)系。

棒棒糖圖是直觀顯示蛋白質(zhì)結(jié)構(gòu)上的突變點(diǎn)**簡單且有效的方式。許多致*基因具有比任何其他基因座更頻繁突變的優(yōu)先位點(diǎn)。這些位點(diǎn)被認(rèn)為是突變熱點(diǎn)，棒棒糖圖可以用于顯示突變熱點(diǎn)以及其他突變位點(diǎn)。并可以對比不同**/亞型的突變位點(diǎn)。

基本原理

將蛋白質(zhì)結(jié)構(gòu)根據(jù)氨基酸順序繪制為長條形，以不同色塊標(biāo)注不同結(jié)構(gòu)域，在基因突變導(dǎo)致氨基酸改變的位置標(biāo)注棒棒糖，并在棒棒糖圓球標(biāo)注位點(diǎn)的突變頻數(shù)以及突變位點(diǎn)。

數(shù)據(jù)要求

基因突變或者蛋白質(zhì)突變數(shù)據(jù)

下游分析

1、突變位點(diǎn)靶向藥物分析

2、驅(qū)動基因突變分析

GSEA基本原理從方法上來講，GSEA主要分為基因集進(jìn)行排序、計算富集分?jǐn)?shù)（EnrichmentScore，ES）、估計富集分?jǐn)?shù)的***性水平并進(jìn)行多重假設(shè)檢驗(yàn)三個步驟。**步對輸入的所有基因集L進(jìn)行排序，通常來說初始輸入的基因數(shù)據(jù)為表達(dá)矩陣，排序的過程相當(dāng)于特定兩組中（case-control、upper-lower等等）基因差異表達(dá)分析的過程。根據(jù)所有基因在兩組樣本的差異度量不同（共有六種差異度量，默認(rèn)是signal2noise，GSEA官網(wǎng)有提供公式，也可以選擇較為普遍的foldchange)，對基因進(jìn)行排序，并且Z-score標(biāo)準(zhǔn)化。第二步是GSEA的**步驟，通過分析預(yù)先定義基因集S在**步獲得的基因序列上的分布計算富集指數(shù)EnrichmentScore，并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量（如foldchange）。差異度量越大基因的EnrichmentScore權(quán)重越大，如果基因在基因集S中則EnrichmentScore取正，反則取負(fù)。將基因集L在基因集S里的所有基因的EnrichmentScore一個個加起來，就是Enrichmentplot上的EnrichmentScore趨勢，直到EnrichmentScore達(dá)到**值，就是基因集S**終的EnrichmentScore。第三步是為了檢驗(yàn)第二部獲得結(jié)果的統(tǒng)計學(xué)意義。云生物提供數(shù)據(jù)科學(xué)服務(wù)。

術(shù)語解讀：中位數(shù)Q2：二分之一分位數(shù)上四分位數(shù)Q1：序列由小到大排序后第(n+1)/4所在位置的數(shù)值下四分位數(shù)Q3：序列由小到大排序后第3（n+1）/4所在位置的數(shù)值**值：非異常范圍內(nèi)的**值，四分位距IQR=Q3-Q1，上限=Q3+最小值：非異常范圍內(nèi)的最小值，下限=數(shù)據(jù)要求：某一基因在各**及對應(yīng)的正常組織的表達(dá)數(shù)據(jù)。應(yīng)用示例1：（于2014年2月發(fā)表于Nature.，影響因子）文章研究了12種主要**類型的突變景觀和意義，它首先使用小提琴圖展示了12種**的突變頻率分布情況，然后查找確定具有***意義的突變基因。應(yīng)用示例2：（于2017年1月發(fā)表在NatCommun.，影響因子）文章研究了Pancancer建模預(yù)測體細(xì)胞突變對轉(zhuǎn)錄程序背景的特異性影響。研究人員基于開發(fā)的模型預(yù)測重要轉(zhuǎn)錄因子，然后使用預(yù)測出的突變轉(zhuǎn)錄因子的活性情況繪制泛*圖譜。按照斯普林格學(xué)術(shù)規(guī)范化處理準(zhǔn)則提供文稿同行**投稿前意見評估。湖北數(shù)據(jù)科學(xué)服務(wù)

實(shí)驗(yàn)室致病類病原微生物數(shù)據(jù)分析平臺。云南數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)服務(wù)

Inmmune gene

免疫學(xué)研究是目前科研領(lǐng)域爭相研究的熱點(diǎn)，**免疫細(xì)胞浸潤是其中一種。**免疫細(xì)胞浸潤是指免疫細(xì)胞從血液中移向**組織發(fā)揮作用。我們從**組織中分離出浸潤免疫細(xì)胞含量，計算基因與浸潤免疫細(xì)胞含量的相關(guān)性，篩選出影響免疫浸潤的候選基因。

基本原理：

從基因矩陣數(shù)據(jù)中提取免疫細(xì)胞含量，生成免疫細(xì)胞含量矩陣；

計算目標(biāo)基因與浸潤免疫細(xì)胞含量的相關(guān)性，篩選與浸潤免疫細(xì)胞含量高度相關(guān)的基因。

術(shù)語解讀：

相關(guān)性系數(shù)（pearson,spearman, kendall）反應(yīng)兩個變量之間變化趨勢的方向以及程度。相關(guān)系數(shù)范圍為-1到+1。0表示兩個變量不相關(guān)，正值表示正相關(guān)，負(fù)值表示負(fù)相關(guān)，值越大表示相關(guān)性越強(qiáng)。

數(shù)據(jù)要求：

**數(shù)據(jù)表達(dá)矩陣云南數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)服務(wù)

標(biāo)簽：技術(shù)服務(wù) Lexogen試劑盒數(shù)據(jù)科學(xué) DNA甲基化 OLINK蛋白質(zhì)組學(xué)

上一篇 天津公共數(shù)據(jù)庫挖掘數(shù)據(jù)科學(xué)口碑推薦

下一篇： 組學(xué)實(shí)驗(yàn)數(shù)據(jù)科學(xué)方案

云南數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)服務(wù)

可能感興趣的產(chǎn)品:

可能感興趣的廠家:

可能感興趣的關(guān)鍵詞: