山東算法還原與開(kāi)發(fā)數(shù)據(jù)科學(xué)售后服務(wù)

來(lái)源: 發(fā)布時(shí)間:2022-02-09

術(shù)語(yǔ)解讀

數(shù)據(jù)降維:

降維就是一種對(duì)高維度特征數(shù)據(jù)預(yù)處理方法。降維是將高維度的數(shù)據(jù)保留下**重要的一些特征,去除噪聲和不重要的特征,從而實(shí)現(xiàn)提升數(shù)據(jù)處理速度的目的。在實(shí)際的生產(chǎn)和應(yīng)用中,降維在一定的信息損失范圍內(nèi),可以為我們節(jié)省大量的時(shí)間和成本。降維也成為應(yīng)用非常***的數(shù)據(jù)預(yù)處理方法。


數(shù)據(jù)要求:

表達(dá)譜芯片或測(cè)序數(shù)據(jù)(已經(jīng)過(guò)預(yù)處理)


下游分析

得到PCA分析結(jié)果之后的分析有:

1.對(duì)組成主要成分的基因進(jìn)行后續(xù)分析,探究該情況下關(guān)鍵基因表達(dá)情況

2.對(duì)組成不同主成分簇的基因進(jìn)行后續(xù)分析,探究該情況下不同基因集的表達(dá)情況 檢測(cè)服務(wù)及數(shù)據(jù)分析助力取得2020年國(guó)自然面上十項(xiàng)、青年基金十八項(xiàng)。山東算法還原與開(kāi)發(fā)數(shù)據(jù)科學(xué)售后服務(wù)

    GeneInteraction基因互作:基因相互作用指miRNA、lncRNA、circRNA或其它RNA介導(dǎo)DNA轉(zhuǎn)錄,從而影響mRNA的表達(dá)過(guò)程。通俗意義上來(lái)說(shuō),基因互作關(guān)系指基于序列預(yù)測(cè)的靶基因?qū)ΑiRNA通過(guò)與靶mRNA的結(jié)合,或促使mRNA降解,或阻礙其翻譯,從而***目的基因的表達(dá)。競(jìng)爭(zhēng)性內(nèi)源RNA網(wǎng)絡(luò)是靶基因預(yù)測(cè)的研究深入,簡(jiǎn)稱ceRNA網(wǎng)絡(luò)。通過(guò)進(jìn)行ceRNA網(wǎng)絡(luò)的分析,我們能從一個(gè)更為宏觀的角度來(lái)解釋轉(zhuǎn)錄體如何構(gòu)建基因表達(dá)調(diào)控網(wǎng)絡(luò),從而進(jìn)一步挖掘基因在其中的調(diào)控機(jī)制?;驹恚簃iRNA主要通過(guò)與靶基因的非翻譯區(qū)(UTR)結(jié)合而發(fā)揮其作用,對(duì)miRNA和mRNA、lncRNA、circRNA結(jié)合進(jìn)行的預(yù)測(cè)稱為靶基因預(yù)測(cè)。靶基因預(yù)測(cè)使用軟件根據(jù)miRNA和靶基因間的結(jié)合的規(guī)律預(yù)測(cè)結(jié)合基因?qū)ΑT谏矬w內(nèi),miRNA可以通過(guò)與proteincoding特異性結(jié)合,影響相關(guān)基因的表達(dá),從而參與調(diào)控細(xì)胞內(nèi)的各項(xiàng)功能。ceRNA具有miRNA結(jié)合位點(diǎn),能后競(jìng)爭(zhēng)性地結(jié)合miRNA,***miRNA對(duì)靶基因的調(diào)控。例如lncRNA與miRNA競(jìng)爭(zhēng)性結(jié)合,影響miRNA調(diào)控mRNA的過(guò)程,**終導(dǎo)致的mRNA表達(dá)失調(diào)。我們使用基于序列預(yù)測(cè)的軟件對(duì)差異分析得到的miRNA與mRNA,lncRNA,circRNA進(jìn)行靶點(diǎn)預(yù)測(cè)和ceRNA網(wǎng)絡(luò)分析。 北京臨床統(tǒng)計(jì)數(shù)據(jù)科學(xué)售后分析目前能夠?qū)映^(guò)50家實(shí)驗(yàn)室。

    GSVA算法接受的輸入為基因表達(dá)矩陣(經(jīng)過(guò)log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù))以及特定基因集。**步,算法會(huì)對(duì)表達(dá)數(shù)據(jù)進(jìn)行核密度估計(jì);第二部,基于**步的結(jié)果對(duì)樣本進(jìn)行表達(dá)水平排序;第三步,對(duì)于每一個(gè)基因集進(jìn)行類似K-S檢驗(yàn)的秩統(tǒng)計(jì)量計(jì)算;第四步,獲取GSVA富集分?jǐn)?shù)。**終輸出為以每個(gè)基因集對(duì)應(yīng)每個(gè)樣本的數(shù)據(jù)矩陣。無(wú)監(jiān)督算法無(wú)監(jiān)督算法常常被用于數(shù)據(jù)挖掘,用于在大量無(wú)標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)些什么。它的訓(xùn)練數(shù)據(jù)是無(wú)標(biāo)簽的,訓(xùn)練目標(biāo)是能對(duì)觀察值進(jìn)行分類或區(qū)分等。核密度估計(jì)核密度估計(jì)(kerneldensityestimation)在概率論中用來(lái)估計(jì)未知的密度函數(shù),屬于非參數(shù)檢驗(yàn)方法之一。數(shù)據(jù)要求1、特定感興趣的基因集(如信號(hào)通路,GO條目等),列出基因集中基因2、基因表達(dá)矩陣,為經(jīng)過(guò)log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù)(基因名形式與基因集對(duì)應(yīng))下游分析1、基因集(如信號(hào)通路)的生存分析2、基因集(如信號(hào)通路)的差異表達(dá)分析3、基因集。

術(shù)語(yǔ)解讀:

TME: Tumormicroenvironment

TMEscore: TMEsignature score(使用PCA算法計(jì)算得到,高意味著對(duì)病毒和干擾素免疫***和應(yīng)答敏感。)  

PCA:Principal component analysis

CIBERSORT:Cell type identification by estimating relative subset of known RNA transcripts

CYT:Cytolytic activity

EMT:Epithelial-mesenchymal-transition

CR: Completeresponse

PR: Partialresponse  

PD:Progressive disease

TMB: Tumormutational burden

數(shù)據(jù)要求:

各細(xì)胞之間的相關(guān)關(guān)系、pvalue、聚類/分類結(jié)果、跟預(yù)后的關(guān)系表。 在基因組上同時(shí)展示突變位點(diǎn)和motif,為突變影響轉(zhuǎn)錄因子結(jié)合提供量化和可視化的證據(jù)。

    Adonis(置換多元方差分析,分析不同分組或環(huán)境因子對(duì)樣品差異的解釋度):ADONIS置換多元方差分析(Permutationalmultivariateanalysisofvariance,PERMANOVA),又稱非參數(shù)多因素方差分析(nonparametricmultivariateanalysisofvariance)、或者ADONIS分析。使用PERMANOVA可分析不同分組因素對(duì)樣品差異的解釋度,并使用置換檢驗(yàn)進(jìn)行***性統(tǒng)計(jì)?;驹恚褐脫Q多元方差分析(PERMANOVA,Adonis)是一種基于F統(tǒng)計(jì)的方差分析,依據(jù)距離矩陣對(duì)總方差進(jìn)行分解的非參數(shù)多元方差分析方法?;静襟E是基于OTU豐度表,計(jì)算樣本間樣本間Bray-curtis距離,然后adonis分析生成結(jié)果,繪圖展示。術(shù)語(yǔ)解讀:OTU:operationaltaxonomicunits,分類單元Df:自由度,其值=所比較的分組數(shù)量-1;SumsOfSqs:即Sumsofsquares,總方差,又稱離差平方和;MeanSqs:即Meansquares,均方(差);FModel:F檢驗(yàn)值;R2:即Variation(R2),方差貢獻(xiàn),表示不同分組對(duì)樣品差異的解釋度,即分組方差與總方差的比值,R2越大表示分組對(duì)差異的解釋度越高;Pr(>F):***性p值,小于***。數(shù)據(jù)要求:OTU豐度表或者樣本距離矩陣。 可對(duì)接各類公共數(shù)據(jù)庫(kù),切入各類接口,并對(duì)公共數(shù)據(jù)庫(kù)進(jìn)行大規(guī)模數(shù)據(jù)挖掘。成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)服務(wù)

承擔(dān)各類項(xiàng)目超過(guò)400余項(xiàng)。山東算法還原與開(kāi)發(fā)數(shù)據(jù)科學(xué)售后服務(wù)

    CNV(拷貝數(shù)變異分析):CNV(copy-numbervariant)是指拷貝數(shù)目變異,也稱拷貝數(shù)目多態(tài)性(copy-numberpolymorphism,CNP),是一個(gè)大小介于1kb至3MB的DN**段的變異,在人類及動(dòng)植物基因組中***分布,主要表現(xiàn)為亞顯微水平的缺失或重復(fù)。CNV是近年來(lái)基因組學(xué)的研究熱點(diǎn),是許多人類疾?。ㄈ?*、遺傳性疾病、心血管疾病等)發(fā)***展的重要分子機(jī)制之一。CNV的分析多見(jiàn)于易于發(fā)生染色體結(jié)構(gòu)變異的**研究中,也可用于復(fù)雜的神經(jīng)精神疾病的病因?qū)W研究,如智力障礙、帕金森病和孤獨(dú)癥等,也可用于其他疾病的易感性分析,如銀屑病、克羅恩病和一些自身免疫系統(tǒng)疾病。CNV研究既可用于單個(gè)的病例分析,找到遺傳高度異質(zhì)性的個(gè)體致病的遺傳學(xué)基礎(chǔ),如智力低下的病因診斷;也可用于大量的病例一對(duì)照分析,患病群體的常見(jiàn)CNV變異研究,還可用于**家系的研究,如疾病相關(guān)新發(fā)CNV的研究。基本原理目前主流的CNV檢驗(yàn)方法有RNA-seq和SNPArray,已有研究表明使用轉(zhuǎn)錄組數(shù)據(jù)分析到的CNV情況和。CNV分析的**步為篩選somaticCNVs。對(duì)正常人來(lái)說(shuō),基因組應(yīng)該是二倍體的,所以凡是測(cè)到非2倍體的地方都是CNV。但是CNV本身就是人群遺傳物質(zhì)多樣性的體現(xiàn),所以對(duì)**樣本來(lái)說(shuō)。 山東算法還原與開(kāi)發(fā)數(shù)據(jù)科學(xué)售后服務(wù)