云南數(shù)據(jù)庫(kù)建設(shè)數(shù)據(jù)科學(xué)共同合作

來(lái)源: 發(fā)布時(shí)間:2022-01-21

    GSEA分析:GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關(guān)注的GO條目或KEGGPathway)在兩個(gè)生物學(xué)狀態(tài)(如**與對(duì)照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學(xué)意義。普通GO/KEGG富集的思路是先篩選差異基因,然后確定這些差異基因的GO/KEGG注釋,然后通過(guò)超幾何分布計(jì)算出哪些通路富集到了,再通過(guò)p值或FDR等閾值進(jìn)行篩選。挑選用于富集的基因有一定的主觀性,沒(méi)有關(guān)注到的基因的信息會(huì)被忽視,所以有一定的局限性。在這種情況下有了GSEA(GeneSetEnrichmentAnalysis),其思路是發(fā)表于2005年的Genesetenrichmentanalysis:aknowledge-basedapproachforinterpretinggenome-wideexpressionprofiles。主要是要有兩個(gè)概念:預(yù)先定義的基因集S(基于先驗(yàn)知識(shí)的基因注釋信息)和待分析基因集L(一般初始輸入是表達(dá)矩陣);然后GSEA目的就是為了判斷S基因集中的基因是隨機(jī)分布于L(按差異表達(dá)程度對(duì)基因進(jìn)行排序),還是聚集分布在L的頂部或者底部(也就是存在差異性富集)。如果基因集中的基因***富集在L的頂部或者底部,這說(shuō)明這些基因的表達(dá)對(duì)定義的分組(預(yù)先分組)的差異有***影響(一致性)。在富集分析的理論中。 軟硬件配套,完成數(shù)據(jù)收集、整理、檢索、分析與智能化開(kāi)發(fā)工作。云南數(shù)據(jù)庫(kù)建設(shè)數(shù)據(jù)科學(xué)共同合作

industryTemplate北京算法還原與開(kāi)發(fā)數(shù)據(jù)科學(xué)共同合作數(shù)據(jù)庫(kù)建設(shè)、公共數(shù)據(jù)庫(kù)挖掘。

    mutationEvents**已存在的基因突變會(huì)影響其他基因的突變,突變分析時(shí)確定這些基因突變潛在的相互作用,能更好地了解健康細(xì)胞轉(zhuǎn)化為*細(xì)胞的過(guò)程和機(jī)制。DISCOVER,一種針對(duì)基因突變的統(tǒng)計(jì)檢驗(yàn)工具,幫助尋找***的基因突變間互斥性和共現(xiàn)性。一般可應(yīng)用的研究場(chǎng)景:探索一組基因是否在**中存在互斥性和共現(xiàn)性;基于基因突變的互斥性和共現(xiàn)性,研究**發(fā)***展的潛在機(jī)制?;驹恚篋ISCOVER(DiscreteIndependenceStatisticControllingforObservationswithVaryingEventRates)是一種用于檢測(cè)**基因組數(shù)據(jù)的共現(xiàn)性和互斥性的新統(tǒng)計(jì)檢驗(yàn)方法。與Fisher'sexacttest等用于這些任務(wù)的傳統(tǒng)方法不同的是,DISCOVER基于一個(gè)空模型,該模型考慮了總體**特異性的變化率,從而決定變化率的同時(shí)發(fā)生的頻率是否高于或低于預(yù)期。該方法避免了共現(xiàn)檢測(cè)中的虛假關(guān)聯(lián),提高了檢測(cè)互斥性的統(tǒng)計(jì)能力。DISCOVER的性能與其他幾個(gè)已發(fā)布的互斥性測(cè)試相比,在整個(gè)***性水平范圍內(nèi),DISCOVER在控制假陽(yáng)性率的同時(shí)更敏感。

    術(shù)語(yǔ)解讀:中位數(shù)Q2:二分之一分位數(shù)上四分位數(shù)Q1:序列由小到大排序后第(n+1)/4所在位置的數(shù)值下四分位數(shù)Q3:序列由小到大排序后第3(n+1)/4所在位置的數(shù)值**值:非異常范圍內(nèi)的**值,四分位距IQR=Q3-Q1,上限=Q3+最小值:非異常范圍內(nèi)的最小值,下限=數(shù)據(jù)要求:某一基因在各**及對(duì)應(yīng)的正常組織的表達(dá)數(shù)據(jù)。應(yīng)用示例1:(于2014年2月發(fā)表于Nature.,影響因子)文章研究了12種主要**類型的突變景觀和意義,它首先使用小提琴圖展示了12種**的突變頻率分布情況,然后查找確定具有***意義的突變基因。應(yīng)用示例2:(于2017年1月發(fā)表在NatCommun.,影響因子)文章研究了Pancancer建模預(yù)測(cè)體細(xì)胞突變對(duì)轉(zhuǎn)錄程序背景的特異性影響。研究人員基于開(kāi)發(fā)的模型預(yù)測(cè)重要轉(zhuǎn)錄因子,然后使用預(yù)測(cè)出的突變轉(zhuǎn)錄因子的活性情況繪制泛*圖譜。 與復(fù)旦大學(xué)問(wèn)附屬醫(yī)院合作,開(kāi)發(fā)人血液外泌體中RNA的數(shù)據(jù)庫(kù)。

    CNV(拷貝數(shù)變異分析):CNV(copy-numbervariant)是指拷貝數(shù)目變異,也稱拷貝數(shù)目多態(tài)性(copy-numberpolymorphism,CNP),是一個(gè)大小介于1kb至3MB的DN**段的變異,在人類及動(dòng)植物基因組中***分布,主要表現(xiàn)為亞顯微水平的缺失或重復(fù)。CNV是近年來(lái)基因組學(xué)的研究熱點(diǎn),是許多人類疾病(如**、遺傳性疾病、心血管疾病等)發(fā)***展的重要分子機(jī)制之一。CNV的分析多見(jiàn)于易于發(fā)生染色體結(jié)構(gòu)變異的**研究中,也可用于復(fù)雜的神經(jīng)精神疾病的病因?qū)W研究,如智力障礙、帕金森病和孤獨(dú)癥等,也可用于其他疾病的易感性分析,如銀屑病、克羅恩病和一些自身免疫系統(tǒng)疾病。CNV研究既可用于單個(gè)的病例分析,找到遺傳高度異質(zhì)性的個(gè)體致病的遺傳學(xué)基礎(chǔ),如智力低下的病因診斷;也可用于大量的病例一對(duì)照分析,患病群體的常見(jiàn)CNV變異研究,還可用于**家系的研究,如疾病相關(guān)新發(fā)CNV的研究?;驹砟壳爸髁鞯腃NV檢驗(yàn)方法有RNA-seq和SNPArray,已有研究表明使用轉(zhuǎn)錄組數(shù)據(jù)分析到的CNV情況和。CNV分析的**步為篩選somaticCNVs。對(duì)正常人來(lái)說(shuō),基因組應(yīng)該是二倍體的,所以凡是測(cè)到非2倍體的地方都是CNV。但是CNV本身就是人群遺傳物質(zhì)多樣性的體現(xiàn),所以對(duì)**樣本來(lái)說(shuō)。 調(diào)控區(qū)域ChiP-seq信號(hào)分布圖。云南數(shù)據(jù)庫(kù)建設(shè)數(shù)據(jù)科學(xué)共同合作

在基因組上同時(shí)展示突變位點(diǎn)和motif,為突變影響轉(zhuǎn)錄因子結(jié)合提供量化和可視化的證據(jù)。云南數(shù)據(jù)庫(kù)建設(shè)數(shù)據(jù)科學(xué)共同合作

    **突變頻譜分析(突變模式):目的:輸入突變數(shù)據(jù),用非負(fù)矩陣分解方法NMF分析突變特征,描述樣本集的突變模式。什么是突變模式:這也是對(duì)TCGA數(shù)據(jù)的深度挖掘,從而提出的一個(gè)統(tǒng)計(jì)學(xué)概念。文章(Signaturesofmutationalprocessesinhumancancer)研究了30種**,發(fā)現(xiàn)21種不同的mutationsignature。如果理解了,就會(huì)發(fā)現(xiàn)這個(gè)其實(shí)蠻簡(jiǎn)單的,他們并不重新測(cè)序,只是拿已經(jīng)有了的TCGA數(shù)據(jù)進(jìn)行分析,而且居然是發(fā)表在nature上面!文章研究了4,938,362mutationsfrom7,042cancers樣本,突變頻譜的概念只是針對(duì)于somatic的mutation。一般是對(duì)**病人的**組織和*旁組織配對(duì)測(cè)序,過(guò)濾得到的somaticmutation,一般一個(gè)樣本也就幾百個(gè)somatic的mutation。還有其它文章(Mutationalsignatures:thepatternsofsomaticmutationshiddenincancergenomes)也是這樣分析的從2013年提出到現(xiàn)在,已經(jīng)有30種mutationsiganures,在cosmic數(shù)據(jù)庫(kù)有詳細(xì)記錄,更新見(jiàn):MutationalSignatures。它的概念就是:根據(jù)突變上下文分成96類,然后每類突變的頻率不一樣畫一個(gè)條形圖,可視化展現(xiàn)。應(yīng)用場(chǎng)景:突變特征定義:體細(xì)胞突變是多個(gè)突變過(guò)程如DNA修復(fù)缺陷,暴露于外源或內(nèi)源誘變劑等綜合結(jié)果。 云南數(shù)據(jù)庫(kù)建設(shè)數(shù)據(jù)科學(xué)共同合作