四川公共數(shù)據(jù)庫(kù)挖掘數(shù)據(jù)科學(xué)歡迎咨詢

來(lái)源: 發(fā)布時(shí)間:2022-02-08

    GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關(guān)注的GO條目或KEGGPathway)在兩個(gè)生物學(xué)狀態(tài)(如**與對(duì)照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學(xué)意義。SubtypeGSEA是在GSEA的基礎(chǔ)上對(duì)不同亞型樣本中重要通路的富集情況進(jìn)行組間比較,能直觀比較不同亞型中相同通路富集情況?;驹鞧SEA主要分為基因集進(jìn)行排序、計(jì)算富集分?jǐn)?shù)(EnrichmentScore,ES)、估計(jì)富集分?jǐn)?shù)的***性水平并進(jìn)行多重假設(shè)檢驗(yàn)三個(gè)步驟。**步對(duì)輸入的所有基因集L進(jìn)行排序,通常來(lái)說(shuō)初始輸入的基因數(shù)據(jù)為表達(dá)矩陣,排序的過(guò)程相當(dāng)于特定兩組中(case-control、upper-lower等等)基因差異表達(dá)分析的過(guò)程。根據(jù)所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認(rèn)是signal2noise,GSEA官網(wǎng)有提供公式,也可以選擇較為普遍的foldchange),對(duì)基因進(jìn)行排序,并且Z-score標(biāo)準(zhǔn)化。第二步是GSEA的**步驟,通過(guò)分析預(yù)先定義基因集S在**步獲得的基因序列上的分布計(jì)算富集指數(shù)EnrichmentScore,并繪制分布趨勢(shì)圖Enrichmentplot。每個(gè)基因在基因集S的EnrichmentScore取決于這個(gè)基因是否屬于基因集S及其差異度量(如foldchange)。 基因組數(shù)據(jù)全鏈條處理、蛋白組代謝組個(gè)性化分析。四川公共數(shù)據(jù)庫(kù)挖掘數(shù)據(jù)科學(xué)歡迎咨詢

    Nomogram列線圖(nomogram,諾莫圖)是在平面直角坐標(biāo)系中,用一簇互不相交的線段表示多個(gè)臨床指標(biāo)或者生物學(xué)特征,用以預(yù)測(cè)一定的臨床結(jié)局或者某類事件發(fā)生的概率的圖。列線圖使預(yù)測(cè)模型的結(jié)果更具有可讀性,可個(gè)性化地計(jì)算特定**患者生存率,在臨床實(shí)踐中有較大的價(jià)值。一般可應(yīng)用的研究方向有:將回歸的結(jié)果進(jìn)行可視化呈現(xiàn),對(duì)個(gè)體樣本給出其發(fā)病風(fēng)險(xiǎn)或比例風(fēng)險(xiǎn);根據(jù)多個(gè)臨床指標(biāo)或生物學(xué)特征,判斷個(gè)體樣本的疾病分類或特征。基本原理:列線圖的理論于1884年提出,**早用于工程學(xué)。它能夠?qū)?fù)雜的計(jì)算公式以圖形的方式,快速、直觀、精確的展現(xiàn)出來(lái)。列線圖通過(guò)構(gòu)建多因素回歸模型(例如Cox回歸、Logistic回歸等),根據(jù)模型中各個(gè)影響因素對(duì)結(jié)局變量的影響程度的高低,即回歸系數(shù)的大小,給每個(gè)影響因素的每個(gè)取值水平進(jìn)行賦分。將各個(gè)評(píng)分相加得到總評(píng)分,通過(guò)總評(píng)分與結(jié)局事件發(fā)生概率之間的函數(shù)轉(zhuǎn)換關(guān)系,從而計(jì)算出該個(gè)體結(jié)局事件的預(yù)測(cè)概率。校準(zhǔn)曲線(calibrationcurve)為實(shí)際發(fā)生率和預(yù)測(cè)發(fā)生率的散點(diǎn)圖,常于用于化工行業(yè)溶液配制。在這里通過(guò)觀察預(yù)測(cè)值與實(shí)際值相差情況,判斷基于回歸模型構(gòu)建列線圖的有效性。 重慶公共數(shù)據(jù)庫(kù)挖掘數(shù)據(jù)科學(xué)共同合作OmicCircos圖可以對(duì)感興趣的多個(gè)基因,展示其染色體的位置、拷貝數(shù)變異等多個(gè)特征。

    STEM基因表達(dá)趨勢(shì)分析基因調(diào)控網(wǎng)絡(luò)是一個(gè)連續(xù)且復(fù)雜的動(dòng)態(tài)系統(tǒng)。當(dāng)生物體按照一定順序發(fā)生變化或者受到外界環(huán)境刺激(如受到不同濃度的化學(xué)藥物誘導(dǎo))時(shí),基因表達(dá)變化也會(huì)呈現(xiàn)趨勢(shì)特征。趨勢(shì)分析就是發(fā)現(xiàn)基因表達(dá)的趨勢(shì)特征,將相同變化特征的基因集中在一種變化趨勢(shì)中,從而找到實(shí)驗(yàn)變化過(guò)程中相當(dāng)有有代表性的基因群。STEM(ShortTime-seriesExpressionMiner),中文名短時(shí)間序列表達(dá)挖掘器。該軟件主要用于分析短時(shí)間實(shí)驗(yàn)數(shù)據(jù),也可用于多組小樣本數(shù)據(jù)。推薦3至8組數(shù)據(jù)。一般可應(yīng)用的研究方向有:多個(gè)時(shí)間點(diǎn)的時(shí)間序列數(shù)據(jù),例如多個(gè)發(fā)育時(shí)期、處理后多個(gè)時(shí)間點(diǎn)取樣?;驹鞸TEM采用了一種新的聚類算法來(lái)分析時(shí)間序列基因表達(dá)趨勢(shì)。聚類算法首先選擇一組不同的、有代表性的時(shí)間表達(dá)模式(temporalexpressionprofiles)作為模型(modelprofiles)。模型是**于數(shù)據(jù)選擇的,并從理論上保證了所選擇的模型剖面具有代表性。然后,根據(jù)每個(gè)標(biāo)準(zhǔn)化過(guò)后的基因表達(dá)模式,分配給模型中相關(guān)系數(shù)比較高的時(shí)間表達(dá)模式。由于模型的選擇是**于數(shù)據(jù)的,因此該算法可以通過(guò)排列測(cè)試,確定哪些時(shí)間表達(dá)模式在統(tǒng)計(jì)意義上***富集基因。對(duì)每一個(gè)基因都分配時(shí)間表達(dá)模式完成后。

    蛋白質(zhì)主要由碳、氫、氧、氮等化學(xué)元素組成,是一類重要的生物大分子。蛋白質(zhì)的功能由蛋白質(zhì)的三維結(jié)構(gòu)決定。蛋白質(zhì)三維結(jié)構(gòu)繪圖,可以直觀地展示蛋白質(zhì)三維功能結(jié)構(gòu),廣泛應(yīng)用于單核苷酸突變功能分析、藥物蛋白分子相互作用分析等研究領(lǐng)域?;驹淼鞍踪|(zhì)三維結(jié)構(gòu)繪圖主要分為蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)以及對(duì)結(jié)構(gòu)進(jìn)行可視化兩步。蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)是基于蛋白質(zhì)中氨基酸序列預(yù)測(cè)蛋白質(zhì)折疊結(jié)構(gòu)的步驟,**常用的預(yù)測(cè)方法為同源建模,同源建模的原理是序列相似的蛋白質(zhì)具有相似的蛋白質(zhì)結(jié)構(gòu),要推測(cè)一個(gè)未知結(jié)構(gòu)蛋白的三維結(jié)構(gòu),只需要找到與之序列高度相似的已知結(jié)構(gòu)模板。在無(wú)法進(jìn)行同源建模(找不到模型)的情況下,還有折疊識(shí)別及從頭建模法,但是計(jì)算量大運(yùn)行緩慢且建模準(zhǔn)確度不如同源建模。獲得蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)的pbd文件后還需要通過(guò)分子三維結(jié)構(gòu)軟件繪制可視化的三維圖,并分析特殊位點(diǎn)(分子對(duì)接或突變位點(diǎn)分析),常用的有pymol和DeepView等。數(shù)據(jù)要求目標(biāo)蛋白的氨基酸序列或者編碼蛋白的基因序列,突變數(shù)據(jù)等。下游分析突變位點(diǎn)靶向藥物分析等。 云生物深度理解科研需求、強(qiáng)大分析處理能力。

    PCA主成分分析測(cè)序技術(shù)的發(fā)展使得現(xiàn)在能夠從宏觀角度分析基因表達(dá),但是也在一定程度上增加了數(shù)據(jù)分析難度。許多基因之間可能存在相關(guān)性,如果分別對(duì)每個(gè)基因進(jìn)行分析,分析往往是孤立的,盲目減少指標(biāo)會(huì)損失很多有用的信息。PCA(PrincipalComponentAnalysis),即主成分分析方法,是一種使用*****的數(shù)據(jù)降維算法。一般可應(yīng)用的研究方向有:一組基因在多個(gè)分組中的差異情況,多個(gè)基因在該樣本中的差異情況?;驹鞵CA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來(lái)的k維特征。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標(biāo)軸,新的坐標(biāo)軸的選擇與數(shù)據(jù)本身是密切相關(guān)的。其中,**個(gè)新坐標(biāo)軸選擇是原始數(shù)據(jù)中方差**的方向,第二個(gè)新坐標(biāo)軸選取是與**個(gè)坐標(biāo)軸正交的平面中使得方差**的,第三個(gè)軸是與第1,2個(gè)軸正交的平面中方差**的。依次類推,可以得到n個(gè)這樣的坐標(biāo)軸。通過(guò)這種方式獲得的新的坐標(biāo)軸,我們發(fā)現(xiàn),大部分方差都包含在前面k個(gè)坐標(biāo)軸中,后面的坐標(biāo)軸所含的方差幾乎為0。于是,我們可以忽略余下的坐標(biāo)軸,只保留前面k個(gè)含有絕大部分方差的坐標(biāo)軸。事實(shí)上。 在分子生物、細(xì)胞生物、實(shí)驗(yàn)動(dòng)物、病理、臨床樣本方面已與長(zhǎng)三角100余家企業(yè)形成良好合作關(guān)系。山東臨床統(tǒng)計(jì)數(shù)據(jù)科學(xué)經(jīng)驗(yàn)豐富

采用機(jī)器學(xué)習(xí)算法對(duì)疾病的干性指數(shù)進(jìn)行分型分類研究。四川公共數(shù)據(jù)庫(kù)挖掘數(shù)據(jù)科學(xué)歡迎咨詢

    STEM基因表達(dá)趨勢(shì)分析數(shù)據(jù)要求表達(dá)譜芯片或測(cè)序數(shù)據(jù)(已經(jīng)過(guò)預(yù)處理)下游分析得到***富集的時(shí)間表達(dá)模式之后的分析有:1.時(shí)間表達(dá)模式中基因的功能富集2.時(shí)間表達(dá)模式中基因表達(dá)與性狀之間的相關(guān)性挖掘模塊的關(guān)鍵信息:1.找到時(shí)間表達(dá)模式中的**基因2.利用關(guān)系預(yù)測(cè)該時(shí)間表達(dá)模式功能文獻(xiàn)1:DynamicEBF1occupancydirectssequentialepigeneticandtranscriptionaleventsinB-cellprogramming(于2018年1月發(fā)表在GenesDev.,影響因子)EBF1動(dòng)態(tài)占據(jù)在B細(xì)胞中對(duì)序列表觀遺傳和轉(zhuǎn)錄過(guò)程的影響該文獻(xiàn)采用基因表達(dá)趨勢(shì)分析,探尋了EBF1誘導(dǎo)前后25kb轉(zhuǎn)錄起始位點(diǎn)內(nèi)基因轉(zhuǎn)錄水平的差異,來(lái)尋找EBF1對(duì)特定功能基因的影響以及造成影響的時(shí)間節(jié)點(diǎn)。文獻(xiàn)2:ComprehensivetranscriptionalprofilingofNaCl-stressedArabidopsisrootsrevealsnovelclassesofresponsivegenes(于2016年10月發(fā)表在BMCPlantBiol.,影響因子)該文獻(xiàn)采用基因表達(dá)趨勢(shì)分析,研究了高濃度鹽水作用不同時(shí)間下擬南芥根的基因表達(dá)差異,來(lái)探尋在遇到高濃度鹽水時(shí)擬南芥在基因?qū)用嫔系膽?yīng)對(duì)方式。 四川公共數(shù)據(jù)庫(kù)挖掘數(shù)據(jù)科學(xué)歡迎咨詢