开始使用TCGA

魔法师LQ

准备工作

下载数据

直接下载

可以看到现在(2019.4)其已经收齐了33549个案例,涉及68种癌症位置,22872个基因,3142246个突变。

点击Project->TCGA LUAD(肺腺癌)

点击右上方,可以直接以,下载TSV和JSON格式的数据。

下方是项目介绍,和具体的文件,LUAD项目,涉及585个案例,17052个文件,以及96项注解。

数据类型按照数据类型和实验策略来划分如下,

Cases and File Counts by Data Category | 依据数据类型

Data Category 数据类型 案例 文件数
Sequencing Reads序列度数 582 2,462
Transcriptome Profiling转录组分析 519 2,916
Simple Nucleotide Variation简单核苷酸变异 569 5,368
Copy Number Variation复制数变化 518 2,295
DNA Methylation DNA甲基化 579 657
Clinical 临床 585 623
Biospecimen 试样 585 2,731

Cases and File Counts by Experimental Strategy | 依据实验方法

Experimental Strategy Cases Files
Diagnostic Slide 诊断影像 478 541
Tissue Slide 组织切片影像 514 1,067
WXS(Whole Exome Sequencing全外泌体测序) 582 6,668
RNA-Seq RNA序列 515 2,377
miRNA-Seq 微小RNA序列 513 1,701
Genotyping Array 基因分型阵列 518 2,295
Methylation Array 甲基化阵列 579 657

点击相应数据类型或者诊断方法的数据,加入到购物车,通常只能选择非限制的数据。

通过下载工具下载

还可以下载Mainfest文件,再借助Data Transfer Tools(GDC APPS以及首页下方有链接)来下载数据。

进入GDC Data Transfer Tool,下载gdc-client_v1.4.0_Ubuntu_x64.zip

运行gdc-client

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
qi@ghost:~/Downloads/BioInfo$ ./gdc-client -h
usage: gdc-client [-h] [--version] {download,upload,settings} ...

The Genomic Data Commons Command Line Client

optional arguments:
-h, --help show this help message and exit
--version show program's version number and exit

commands:
{download,upload,settings}
for more information, specify -h after a command
download download data from the GDC
upload upload data to the GDC
settings display default settings

全局使用的话,需要使用export PATH=$PATH:/[到gdc-client的路径]加入环境变量中。

通过命令行下载数据,

1
gdc-client download -m [manifest_file] -d [download_dir]
1
2
3
4
5
6
7
70% [#####################################################                      ] ETA:  0:00:22 543.28 kB/s 
100% [###########################################################################] Time: 0:07:31 90.81 kB/s
100% [###########################################################################] Time: 0:01:05 645.43 kB/s
100% [###########################################################################] Time: 0:01:11 422.25 kB/s
100% [##############################################################################] Time: 0:09:50 85.15 kB/s

Successfully downloaded: 4

下载后的数据为,

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
.
├── 0458c57f-316c-4a7c-9294-ccd11c97c2f9
│   ├── annotations.txt
│   ├── logs
│   │   └── TCGA.LUAD.mutect.0458c57f-316c-4a7c-9294-ccd11c97c2f9.DR-10.0.somatic.maf.gz.parcel
│   └── TCGA.LUAD.mutect.0458c57f-316c-4a7c-9294-ccd11c97c2f9.DR-10.0.somatic.maf.gz
├── 3fa04c26-8b39-44ac-8510-fdb626881c93
│   ├── annotations.txt
│   ├── logs
│   │   └── TCGA.LUAD.somaticsniper.3fa04c26-8b39-44ac-8510-fdb626881c93.DR-10.0.somatic.maf.gz.parcel
│   └── TCGA.LUAD.somaticsniper.3fa04c26-8b39-44ac-8510-fdb626881c93.DR-10.0.somatic.maf.gz
├── 6f5cde97-d259-414f-8122-6d0d66f49b74
│   ├── annotations.txt
│   ├── logs
│   │   └── TCGA.LUAD.muse.6f5cde97-d259-414f-8122-6d0d66f49b74.DR-10.0.somatic.maf.gz.parcel
│   └── TCGA.LUAD.muse.6f5cde97-d259-414f-8122-6d0d66f49b74.DR-10.0.somatic.maf.gz
└── acb6852e-dd48-4ca5-80f2-3d1a2c7d7ceb
├── annotations.txt
├── logs
│   └── TCGA.LUAD.varscan.acb6852e-dd48-4ca5-80f2-3d1a2c7d7ceb.DR-10.0.somatic.maf.gz.parcel
└── TCGA.LUAD.varscan.acb6852e-dd48-4ca5-80f2-3d1a2c7d7ceb.DR-10.0.somatic.maf.gz

参考

[1] TCGA入门——数据下载、整合及简单应用