###设置barcodes参数,筛选符合要求的371个肿瘤样本数据和50正常组织数据
queryDown <- GDCquery(project = "TCGA-LIHC",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts",
barcode = c(dataSmTP, dataSmNT))
#barcode参数:根据传入barcodes进行数据过滤
上图为 queryDown<-GDCquery()的结果,仅选择了选择371个正常组织和50个肿瘤组织样本。
第二步:GDCdownload()下载GDCquery()得到的结果
# 下载数据,默认存放位置为当前工作目录下的GDCdata文件夹中。
GDCdownload(queryDown,method = "api", directory = "GDCdata",
files.per.chunk = 10)
#method ;"API"或者"client"。"API"速度更快,但是容易下载中断。
#directory:下载文件的保存地址。Default: GDCdata。
#files.per.chunk = NULL:使用API下载大文件的时候,可以把文件分成几个小文件来下载,可以解决下载容易中断的问题。
GDCdownload(query = queryDown)
说明:由于小编前面已经下载过该TCGA数据,所以这里显示的是421个文件已存在。如果还没有下载的话,可能需要根据自己的网速等待一些时间。
显示这样的结果,就算下载成功啦!文件默认保存在 Rstudio默认路径下的GDCdata中。前面就是我们利用第一期知识进行数据下载环节,权当温习功课吧——接下来我们就开始此期的数据处理~~
二、数据处理
第三步:GDCprepare()将前面GDCquery()的结果准备成R语言可处理的SE(SummarizedExperiment)文件。
#读取下载的数据并将其准备到R对象中,在工作目录生成(save=TRUE)LIHC_case.rda文件
# GDCprepare():Prepare GDC data,准备GDC数据,使其可用于R语言中进行分析
dataPrep1 <- GDCprepare(query = queryDown, save = TRUE, save.filename =
"LIHC_case.rda")
GDCprepare()中的参数:
参数用法query来自GDCquery的结果save是否将结果保存为RData object,默认为TRUEsave.filename文件名,如果没有设置,系统将默认设置directory文件数据的文件夹,默认为“GDCdata”summarizedExperiment是否生成summarizedExperiment对象,默认TRUE
第四步:TCGAanalyze_Preprocessing()对数据进行预处理:使用spearman相关系数去除数据中的异常值
# 去除dataPrep1中的异常值,dataPrep1数据中含有肿瘤组织和正常组织的数据
# TCGAanalyze_Preprocessing(object, cor.cut = 0, filename = NULL,
width = 1000, height = 1000, datatype = names(assays(object))[1])
# 函数功能描述:Array Array Intensity correlation (AAIC) and correlation boxplot to define outlier
dataPrep2 <- TCGAanalyze_Preprocessing(object = dataPrep1,
cor.cut = 0.6,
datatype = "HTSeq - Counts")
#将预处理后的数据dataPrep2,写入新文件“LIHC_dataPrep.csv”
write.csv(dataPrep2,file = "LIHC_dataPrep.csv",quote = FALSE)