如何使用TCGAbiolinks进行数据预处理？

＃＃＃设置barcodes参数，筛选符合要求的371个肿瘤样本数据和50正常组织数据

queryDown ＜－ GDCquery（project ＝＂TCGA－LIHC＂，

data．category ＝＂Transcriptome Profiling＂，

data．type ＝＂Gene Expression Quantification＂，

workflow．type ＝＂HTSeq － Counts＂，

barcode ＝ c（dataSmTP， dataSmNT））

＃barcode参数：根据传入barcodes进行数据过滤

上图为 queryDown＜－GDCquery（）的结果，仅选择了选择371个正常组织和50个肿瘤组织样本。

第二步：GDCdownload（）下载GDCquery（）得到的结果

＃下载数据，默认存放位置为当前工作目录下的GDCdata文件夹中。

GDCdownload（queryDown，method ＝＂api＂， directory ＝＂GDCdata＂，

files．per．chunk ＝ 10）

＃method ；＂API＂或者＂client＂。＂API＂速度更快，但是容易下载中断。

＃directory：下载文件的保存地址。Default： GDCdata。

＃files．per．chunk ＝ NULL：使用API下载大文件的时候，可以把文件分成几个小文件来下载，可以解决下载容易中断的问题。

GDCdownload（query ＝ queryDown）

说明：由于小编前面已经下载过该TCGA数据，所以这里显示的是421个文件已存在。如果还没有下载的话，可能需要根据自己的网速等待一些时间。

显示这样的结果，就算下载成功啦！文件默认保存在 Rstudio默认路径下的GDCdata中。前面就是我们利用第一期知识进行数据下载环节，权当温习功课吧——接下来我们就开始此期的数据处理～～

二、数据处理

第三步：GDCprepare（）将前面GDCquery（）的结果准备成R语言可处理的SE（SummarizedExperiment）文件。

＃读取下载的数据并将其准备到R对象中，在工作目录生成（save＝TRUE）LIHC＿case．rda文件

＃ GDCprepare（）：Prepare GDC data，准备GDC数据，使其可用于R语言中进行分析

dataPrep1 ＜－ GDCprepare（query ＝ queryDown， save ＝ TRUE， save．filename ＝

＂LIHC＿case．rda＂）

GDCprepare（）中的参数：

参数用法query来自GDCquery的结果save是否将结果保存为RData object，默认为TRUEsave．filename文件名，如果没有设置，系统将默认设置directory文件数据的文件夹，默认为“GDCdata”summarizedExperiment是否生成summarizedExperiment对象，默认TRUE

第四步：TCGAanalyze＿Preprocessing（）对数据进行预处理：使用spearman相关系数去除数据中的异常值

＃去除dataPrep1中的异常值，dataPrep1数据中含有肿瘤组织和正常组织的数据

＃ TCGAanalyze＿Preprocessing（object， cor．cut ＝ 0， filename ＝ NULL，

width ＝ 1000， height ＝ 1000， datatype ＝ names（assays（object））［1］）

＃函数功能描述：Array Array Intensity correlation （AAIC） and correlation boxplot to define outlier

dataPrep2 ＜－ TCGAanalyze＿Preprocessing（object ＝ dataPrep1，

cor．cut ＝ 0．6，

datatype ＝＂HTSeq － Counts＂）

＃将预处理后的数据dataPrep2，写入新文件“LIHC＿dataPrep．csv”

write．csv（dataPrep2，file ＝＂LIHC＿dataPrep．csv＂，quote ＝ FALSE）

余下全文 2/3

如何使用TCGAbiolinks进行数据预处理？

相关推荐