四川文章成稿指導(dǎo)數(shù)據(jù)科學(xué)共同合作

來(lái)源: 發(fā)布時(shí)間:2021-09-28

    PPImodule蛋白質(zhì)互作蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction,PPI)是指兩個(gè)或兩個(gè)以上的蛋白質(zhì)分子通過(guò)非共價(jià)鍵形成蛋白質(zhì)復(fù)合體(proteincomplex)的過(guò)程。PPImodule是指共表達(dá)蛋白模塊或蛋白質(zhì)相互作用模塊。蛋白質(zhì)相互作用形成人體復(fù)雜的蛋白質(zhì)相互作用網(wǎng)絡(luò),對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊從而幫助我們理解細(xì)胞的功能。我們一般使用PPImodule把基因列表跟蛋白相互作用網(wǎng)絡(luò)聯(lián)系起來(lái)。例如RNA-seq獲得的差異表達(dá)基因,看他們?cè)诘鞍紫嗷プ饔镁W(wǎng)絡(luò)中,哪些基因處于同一module?;驹恚旱鞍踪|(zhì)在細(xì)胞中的功能取決于它與其他蛋白質(zhì)、核酸和小分子相互作用關(guān)系,對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊,各個(gè)蛋白模塊發(fā)揮不同的功能,我們將基因列表重疊于模塊上,查找基因列表所在的功能模塊,從而發(fā)現(xiàn)基因列表中的基因可能發(fā)揮的細(xì)胞功能。我們通過(guò)PPI數(shù)據(jù)庫(kù)找到共表達(dá)蛋白中的module,然后從模塊中篩選出基因列表的產(chǎn)物蛋白,篩選出的結(jié)果就是基因列表***表達(dá)的PPImodule。 胰腺疾病預(yù)后相關(guān)長(zhǎng)鏈非編碼RNA。四川文章成稿指導(dǎo)數(shù)據(jù)科學(xué)共同合作

sankey

?;鶊D(sankey)是一種數(shù)據(jù)流圖,每條邊**一條數(shù)據(jù)流,寬度**數(shù)據(jù)流的大小。一套數(shù)據(jù)集可能有多重屬性,每層屬性之間有交叉,就可以用這種圖來(lái)展示。一般應(yīng)用場(chǎng)景:分組與基因?yàn)槎鄬?duì)多關(guān)系,展示高頻突變基因所處的分組;miRNA和靶基因的關(guān)系;人群按性別、年齡、家族史等特征分組,展示不同分組得**的規(guī)律。


數(shù)據(jù)要求:

多個(gè)分組及其關(guān)系,包括且不限于基因表達(dá)、突變。


下游分析:

1.   補(bǔ)充展示部分的已有相關(guān)研究

2.   解釋展示部分對(duì)研究課題的意義 四川文章成稿指導(dǎo)數(shù)據(jù)科學(xué)共同合作微生物多樣性分析桌面軟件。

    PCA主成分分析測(cè)序技術(shù)的發(fā)展使得現(xiàn)在能夠從宏觀角度分析基因表達(dá),但是也在一定程度上增加了數(shù)據(jù)分析難度。許多基因之間可能存在相關(guān)性,如果分別對(duì)每個(gè)基因進(jìn)行分析,分析往往是孤立的,盲目減少指標(biāo)會(huì)損失很多有用的信息。PCA(PrincipalComponentAnalysis),即主成分分析方法,是一種使用*****的數(shù)據(jù)降維算法。一般可應(yīng)用的研究方向有:一組基因在多個(gè)分組中的差異情況,多個(gè)基因在該樣本中的差異情況?;驹鞵CA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來(lái)的k維特征。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標(biāo)軸,新的坐標(biāo)軸的選擇與數(shù)據(jù)本身是密切相關(guān)的。其中,**個(gè)新坐標(biāo)軸選擇是原始數(shù)據(jù)中方差**的方向,第二個(gè)新坐標(biāo)軸選取是與**個(gè)坐標(biāo)軸正交的平面中使得方差**的,第三個(gè)軸是與第1,2個(gè)軸正交的平面中方差**的。依次類推,可以得到n個(gè)這樣的坐標(biāo)軸。通過(guò)這種方式獲得的新的坐標(biāo)軸,我們發(fā)現(xiàn),大部分方差都包含在前面k個(gè)坐標(biāo)軸中,后面的坐標(biāo)軸所含的方差幾乎為0。于是,我們可以忽略余下的坐標(biāo)軸,只保留前面k個(gè)含有絕大部分方差的坐標(biāo)軸。事實(shí)上。

    RoastROAST是一種差異表達(dá)分析方法,有助于提高統(tǒng)計(jì)能力、組織和解釋結(jié)果以及在不同實(shí)驗(yàn)中的關(guān)聯(lián)表達(dá)模式,一般適用于microarray、RNA-seq的表達(dá)矩陣,用limma給全部基因做差異表達(dá)分析,不需要篩差異表達(dá)基因?;驹恚篟OAST是一種假設(shè)驅(qū)動(dòng)的測(cè)試,對(duì)結(jié)果基因集做富集分析,富集分析考慮基因集中基因的方向性(上調(diào)或下調(diào))和強(qiáng)度(log2倍變化),判斷上/下調(diào)基因是否***富于集目標(biāo)基因集;ROAST使用rotation,一種MonteCarlotechnology的多元回歸方法,適用于樣本數(shù)量較少的情況;roast檢驗(yàn)一個(gè)geneset,對(duì)于復(fù)雜矩陣,使用mroast做multipleroasttests。富集分析結(jié)果用barcodeplot展示,使上/下調(diào)基因在目標(biāo)基因集中的分布可視化。數(shù)據(jù)要求:表達(dá)矩陣。 軟硬件配套,完成數(shù)據(jù)收集、整理、檢索、分析與智能化開(kāi)發(fā)工作。

    術(shù)語(yǔ)解釋:互斥性(mutuallyexclusive):一組基因中只有一個(gè)在一種**中發(fā)生改變,這種現(xiàn)象被稱為互斥性。共現(xiàn)性(co-occurrence):不同途徑功能的基因突變可能發(fā)生在同一**中,這種現(xiàn)象被稱為共現(xiàn)性。數(shù)據(jù)要求:基因突變數(shù)據(jù)下游分析:對(duì)于存在共現(xiàn)性或互斥性的基因?qū)?基因集基因集的功能分析基因集相關(guān)的生存分析基于基因集的潛在靶向藥物分析文獻(xiàn)一:Functionalgenomiclandscapeofacutemyeloidleukaemia急性髓性白血病的功能基因組圖(于2018年10月發(fā)表在Nature.,影響因子)文獻(xiàn)中使用DISCOVER40方法評(píng)估531例白血病患者中**常見(jiàn)的復(fù)發(fā)性突變的共現(xiàn)性或排他性,并用點(diǎn)圖展示。文獻(xiàn)二:ALPK1hotspotmutationasadriverofhumanspiradenomaandspiradenocarcinoma文獻(xiàn)中利用DISCOVER共現(xiàn)性質(zhì)和互斥性分析工具對(duì)ALPK1和CYLD的互斥性進(jìn)行了評(píng)價(jià)。 circos圖通過(guò)圓圈和連線展示多個(gè)亞組之間的關(guān)系,包括且不限于基因、基因片段、亞型。四川文章成稿指導(dǎo)數(shù)據(jù)科學(xué)共同合作

構(gòu)建新的臨床預(yù)測(cè)模型。四川文章成稿指導(dǎo)數(shù)據(jù)科學(xué)共同合作

    LASSO是一種機(jī)器學(xué)習(xí)算法,通常被用來(lái)構(gòu)建可以預(yù)測(cè)預(yù)后情況的基因模型。也可以篩選與特定性狀相關(guān)性強(qiáng)的基因。LASSO對(duì)于高維度、強(qiáng)相關(guān)、小樣本的生存資料數(shù)據(jù)有較好的效果。LASSO的基本思想是在回歸系數(shù)的***值之和小于一個(gè)常數(shù)的約束條件下,使殘差平方和**小化,從而使某些回歸系數(shù)嚴(yán)格等于0,來(lái)得到可以解釋的模型。該方法的估計(jì)參數(shù)λ為調(diào)整參數(shù)。隨著l的增加,項(xiàng)就會(huì)減小,這時(shí)候一些自變量的系數(shù)就逐漸被壓縮為0,以此達(dá)到對(duì)高維資料進(jìn)行降維的目的。LASSO方法的降維是通過(guò)懲罰回歸系數(shù)的數(shù)量來(lái)實(shí)現(xiàn)的。基本原理LASSO回歸的特點(diǎn)是在擬合廣義線性模型的同時(shí)進(jìn)行變量篩選(VariableSelection)和復(fù)雜度調(diào)整(Regularization)。因此,不論目標(biāo)因變量(dependent/responsevaraible)是連續(xù)的(continuous),還是二元或者多元離散的(discrete),都可以用LASSO回歸建模然后預(yù)測(cè)。這里的變量篩選是指不把所有的變量都放入模型中進(jìn)行擬合,而是有選擇的把變量放入模型從而得到更好的性能參數(shù)。復(fù)雜度調(diào)整是指通過(guò)一系列參數(shù)控制模型的復(fù)雜度,從而避免過(guò)度擬合(Overfitting)。對(duì)于線性模型來(lái)說(shuō),復(fù)雜度與模型的變量數(shù)有直接關(guān)系,變量數(shù)越多,模型復(fù)雜度就越高。


四川文章成稿指導(dǎo)數(shù)據(jù)科學(xué)共同合作