STEM基因表達(dá)趨勢(shì)分析基因調(diào)控網(wǎng)絡(luò)是一個(gè)連續(xù)且復(fù)雜的動(dòng)態(tài)系統(tǒng)。當(dāng)生物體按照一定順序發(fā)生變化或者受到外界環(huán)境刺激(如受到不同濃度的化學(xué)藥物誘導(dǎo))時(shí),基因表達(dá)變化也會(huì)呈現(xiàn)趨勢(shì)特征。趨勢(shì)分析就是發(fā)現(xiàn)基因表達(dá)的趨勢(shì)特征,將相同變化特征的基因集中在一種變化趨勢(shì)中,從而找到實(shí)驗(yàn)變化過(guò)程中相當(dāng)有有代表性的基因群。STEM(ShortTime-seriesExpressionMiner),中文名短時(shí)間序列表達(dá)挖掘器。該軟件主要用于分析短時(shí)間實(shí)驗(yàn)數(shù)據(jù),也可用于多組小樣本數(shù)據(jù)。推薦3至8組數(shù)據(jù)。一般可應(yīng)用的研究方向有:多個(gè)時(shí)間點(diǎn)的時(shí)間序列數(shù)據(jù),例如多個(gè)發(fā)育時(shí)期、處理后多個(gè)時(shí)間點(diǎn)取樣?;驹鞸TEM采用了一種新的聚類(lèi)算法來(lái)分析時(shí)間序列基因表達(dá)趨勢(shì)。聚類(lèi)算法首先選擇一組不同的、有代表性的時(shí)間表達(dá)模式(temporalexpressionprofiles)作為模型(modelprofiles)。模型是**于數(shù)據(jù)選擇的,并從理論上保證了所選擇的模型剖面具有代表性。然后,根據(jù)每個(gè)標(biāo)準(zhǔn)化過(guò)后的基因表達(dá)模式,分配給模型中相關(guān)系數(shù)比較高的時(shí)間表達(dá)模式。由于模型的選擇是**于數(shù)據(jù)的,因此該算法可以通過(guò)排列測(cè)試,確定哪些時(shí)間表達(dá)模式在統(tǒng)計(jì)意義上***富集基因。對(duì)每一個(gè)基因都分配時(shí)間表達(dá)模式完成后。 糖尿病藥物基因組學(xué)分析找到新的作用靶點(diǎn)。云南臨床統(tǒng)計(jì)數(shù)據(jù)科學(xué)專(zhuān)業(yè)服務(wù)
mutationEvents**已存在的基因突變會(huì)影響其他基因的突變,突變分析時(shí)確定這些基因突變潛在的相互作用,能更好地了解健康細(xì)胞轉(zhuǎn)化為*細(xì)胞的過(guò)程和機(jī)制。DISCOVER,一種針對(duì)基因突變的統(tǒng)計(jì)檢驗(yàn)工具,幫助尋找***的基因突變間互斥性和共現(xiàn)性。一般可應(yīng)用的研究場(chǎng)景:探索一組基因是否在**中存在互斥性和共現(xiàn)性;基于基因突變的互斥性和共現(xiàn)性,研究**發(fā)***展的潛在機(jī)制?;驹恚篋ISCOVER(DiscreteIndependenceStatisticControllingforObservationswithVaryingEventRates)是一種用于檢測(cè)**基因組數(shù)據(jù)的共現(xiàn)性和互斥性的新統(tǒng)計(jì)檢驗(yàn)方法。與Fisher'sexacttest等用于這些任務(wù)的傳統(tǒng)方法不同的是,DISCOVER基于一個(gè)空模型,該模型考慮了總體**特異性的變化率,從而決定變化率的同時(shí)發(fā)生的頻率是否高于或低于預(yù)期。該方法避免了共現(xiàn)檢測(cè)中的虛假關(guān)聯(lián),提高了檢測(cè)互斥性的統(tǒng)計(jì)能力。DISCOVER的性能與其他幾個(gè)已發(fā)布的互斥性測(cè)試相比,在整個(gè)***性水平范圍內(nèi),DISCOVER在控制假陽(yáng)性率的同時(shí)更敏感。 遼寧診療軟件開(kāi)發(fā)數(shù)據(jù)科學(xué)云生物數(shù)據(jù)分析需要多久?
GSVA算法接受的輸入為基因表達(dá)矩陣(經(jīng)過(guò)log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù))以及特定基因集。**步,算法會(huì)對(duì)表達(dá)數(shù)據(jù)進(jìn)行核密度估計(jì);第二部,基于**步的結(jié)果對(duì)樣本進(jìn)行表達(dá)水平排序;第三步,對(duì)于每一個(gè)基因集進(jìn)行類(lèi)似K-S檢驗(yàn)的秩統(tǒng)計(jì)量計(jì)算;第四步,獲取GSVA富集分?jǐn)?shù)。**終輸出為以每個(gè)基因集對(duì)應(yīng)每個(gè)樣本的數(shù)據(jù)矩陣。無(wú)監(jiān)督算法無(wú)監(jiān)督算法常常被用于數(shù)據(jù)挖掘,用于在大量無(wú)標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)些什么。它的訓(xùn)練數(shù)據(jù)是無(wú)標(biāo)簽的,訓(xùn)練目標(biāo)是能對(duì)觀察值進(jìn)行分類(lèi)或區(qū)分等。核密度估計(jì)核密度估計(jì)(kerneldensityestimation)在概率論中用來(lái)估計(jì)未知的密度函數(shù),屬于非參數(shù)檢驗(yàn)方法之一。數(shù)據(jù)要求1、特定感興趣的基因集(如信號(hào)通路,GO條目等),列出基因集中基因2、基因表達(dá)矩陣,為經(jīng)過(guò)log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù)(基因名形式與基因集對(duì)應(yīng))下游分析1、基因集(如信號(hào)通路)的生存分析2、基因集(如信號(hào)通路)的差異表達(dá)分析3、基因集。
術(shù)語(yǔ)解讀:中位數(shù)Q2:二分之一分位數(shù)上四分位數(shù)Q1:序列由小到大排序后第(n+1)/4所在位置的數(shù)值下四分位數(shù)Q3:序列由小到大排序后第3(n+1)/4所在位置的數(shù)值**值:非異常范圍內(nèi)的**值,四分位距IQR=Q3-Q1,上限=Q3+最小值:非異常范圍內(nèi)的最小值,下限=數(shù)據(jù)要求:某一基因在各**及對(duì)應(yīng)的正常組織的表達(dá)數(shù)據(jù)。應(yīng)用示例1:(于2014年2月發(fā)表于Nature.,影響因子)文章研究了12種主要**類(lèi)型的突變景觀和意義,它首先使用小提琴圖展示了12種**的突變頻率分布情況,然后查找確定具有***意義的突變基因。應(yīng)用示例2:(于2017年1月發(fā)表在NatCommun.,影響因子)文章研究了Pancancer建模預(yù)測(cè)體細(xì)胞突變對(duì)轉(zhuǎn)錄程序背景的特異性影響。研究人員基于開(kāi)發(fā)的模型預(yù)測(cè)重要轉(zhuǎn)錄因子,然后使用預(yù)測(cè)出的突變轉(zhuǎn)錄因子的活性情況繪制泛*圖譜。 circos圖通過(guò)圓圈和連線(xiàn)展示多個(gè)亞組之間的關(guān)系,包括且不限于基因、基因片段、亞型。
STEM基因表達(dá)趨勢(shì)分析數(shù)據(jù)要求表達(dá)譜芯片或測(cè)序數(shù)據(jù)(已經(jīng)過(guò)預(yù)處理)下游分析得到***富集的時(shí)間表達(dá)模式之后的分析有:1.時(shí)間表達(dá)模式中基因的功能富集2.時(shí)間表達(dá)模式中基因表達(dá)與性狀之間的相關(guān)性挖掘模塊的關(guān)鍵信息:1.找到時(shí)間表達(dá)模式中的**基因2.利用關(guān)系預(yù)測(cè)該時(shí)間表達(dá)模式功能文獻(xiàn)1:DynamicEBF1occupancydirectssequentialepigeneticandtranscriptionaleventsinB-cellprogramming(于2018年1月發(fā)表在GenesDev.,影響因子)EBF1動(dòng)態(tài)占據(jù)在B細(xì)胞中對(duì)序列表觀遺傳和轉(zhuǎn)錄過(guò)程的影響該文獻(xiàn)采用基因表達(dá)趨勢(shì)分析,探尋了EBF1誘導(dǎo)前后25kb轉(zhuǎn)錄起始位點(diǎn)內(nèi)基因轉(zhuǎn)錄水平的差異,來(lái)尋找EBF1對(duì)特定功能基因的影響以及造成影響的時(shí)間節(jié)點(diǎn)。文獻(xiàn)2:ComprehensivetranscriptionalprofilingofNaCl-stressedArabidopsisrootsrevealsnovelclassesofresponsivegenes(于2016年10月發(fā)表在BMCPlantBiol.,影響因子)該文獻(xiàn)采用基因表達(dá)趨勢(shì)分析,研究了高濃度鹽水作用不同時(shí)間下擬南芥根的基因表達(dá)差異,來(lái)探尋在遇到高濃度鹽水時(shí)擬南芥在基因?qū)用嫔系膽?yīng)對(duì)方式。 診療軟件開(kāi)發(fā)、算法還原與開(kāi)發(fā)、臨床統(tǒng)計(jì)等數(shù)據(jù)科學(xué)工作。四川成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)售后服務(wù)
數(shù)據(jù)庫(kù)建設(shè)、公共數(shù)據(jù)庫(kù)挖掘。云南臨床統(tǒng)計(jì)數(shù)據(jù)科學(xué)專(zhuān)業(yè)服務(wù)
三角坐標(biāo)統(tǒng)計(jì)圖是采用數(shù)字坐標(biāo)形式來(lái)表現(xiàn)三項(xiàng)要素的數(shù)字信息圖像。三角形坐標(biāo)圖常用百分?jǐn)?shù)(%)來(lái)表示某項(xiàng)要素與整體的結(jié)構(gòu)比例。三條邊分別表示三個(gè)不同分量,三個(gè)頂點(diǎn)可以看作是三個(gè)原點(diǎn)。三角圖可以展示某特定值在一個(gè)整體中不同類(lèi)型的分布。在生物信息中三角圖可以方便地展示3種不同疾病或者3個(gè)不同分組之間某個(gè)指標(biāo)的相關(guān)性。
數(shù)據(jù)要求
多個(gè)樣本的三個(gè)變量值,或者多個(gè)基因在三個(gè)不同分組中的數(shù)據(jù)值,可以是突變頻率數(shù)據(jù)、基因表達(dá)數(shù)據(jù)、甲基化數(shù)據(jù)等。 云南臨床統(tǒng)計(jì)數(shù)據(jù)科學(xué)專(zhuān)業(yè)服務(wù)