当前位置: 代码网 > 科技>人工智能 > GEO生信数据挖掘(二)下载基因芯片平台文件及注释

GEO生信数据挖掘(二)下载基因芯片平台文件及注释

2024年07月31日 人工智能 我要评论
检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例上节我们,但是矩阵行名称是芯片探针需要转换为基因名。

目录

下载平台文件

1.annotgpl参数改为true,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

2.手工去geo官网下载

转换芯片探针id为gene name

拓展:通过bioconductor注释包

# 找到gpl6244相应的注释包hgu133a.db



上节我们下载了geo数据集,并提取了基因表达矩阵,但是矩阵行名称是芯片探针需要转换为基因名。

下载平台文件

1.annotgpl参数改为true,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

注意:下载好soft文件,才可以直接可以提取注释,没下载好,注释内容全为空,后续代码可以运行但是,不能得到正确数据的矩阵。

# 提取注释信息
annotation <- featuredata(gse_info[[1]])  

library(geoquery)
# 指定geo数据集的id
gse_id <- "gse1297"
# 使用getgeo函数获取数据集的基础信息
gse_info <- getgeo(gse_id, destdir = ".", annotgpl = true )

# 提取注释信息
annotation <- featuredata(gse_info[[1]])  #下载好soft,可以直接可以提取注释,没下载好注释内容全为空

#查看平台文件列名
colnames(annotation)

#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=annotation[,c(1,11)]

#还可以尝试单独下载gpl96平台文件

gse_gp<-getgeo('gpl96',destdir =".")  #  网速不佳 下载失败提示 failed to download ./gpl96.soft.gz!

2.手工去geo官网下载

geo accession viewerncbi's gene expression omnibus (geo) is a public archive and resource for gene expression data.icon-default.png?t=n7t8https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=gpl96

dir() #打印项目文件列表
# 读取芯片平台文件txt
platform_file <- read.delim("gpl96-57554.txt", header = true, sep = "\t", comment.char = "#")
#查看平台文件列名
colnames(platform_file)

#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=platform_file[,c(1,11)]

转换芯片探针id为gene name

先将上节中提取到的表达矩阵转换格式。

表达矩阵是matrix对象,而我们接下来要用到的merge函数不能对matrix对象使用,因此要先将表达矩阵转换为data.frame对象。否则会报错。error in fix.by(by.x, x) : 'by'必需指定唯一有效的列

#将matrix格式表达矩阵转换为data.frame格式
exprset <- data.frame(expression_data)


#给表达矩阵新增加一列id
exprset$id <- rownames(exprset) # 得到表达矩阵,行名为id,需要转换,新增一列

#矩阵表达文件和平台文件有相同列‘id’,使用merge函数合并
express <- merge(x = exprset, y = platform_file_set, by.x = "id")

#删除探针id列
express$id =null

最终将探针id列删除,剩余32列,即得到有基因名称的表达矩阵。

大家观察最后一列,一个芯片探针匹配到多个基因,下节我们来看看处理方案

拓展:通过bioconductor注释包

gpl96hgu133a
# 找到gpl6244相应的注释包hgu133a.db

gpl    bioc_package    title
gpl32    mgu74a    [mg_u74a] affymetrix murine genome u74a array
gpl33    mgu74b    [mg_u74b] affymetrix murine genome u74b array
gpl34    mgu74c    [mg_u74c] affymetrix murine genome u74c array
gpl71    ag    [ag] affymetrix arabidopsis genome array
gpl72    drosgenome1    [drosgenome1] affymetrix drosophila genome array
gpl74    hcg110    [hc_g110] affymetrix human cancer array
gpl75    mu11ksuba    [mu11ksuba] affymetrix murine 11k suba array
gpl76    mu11ksubb    [mu11ksubb] affymetrix murine 11k subb array
gpl77    mu19ksuba    [mu19ksuba] affymetrix murine 19k suba array
gpl78    mu19ksubb    [mu19ksubb] affymetrix murine 19k subb array
gpl79    mu19ksubc    [mu19ksubc] affymetrix murine 19k subc array
gpl80    hu6800    [hu6800] affymetrix human full length hugenefl array
gpl81    mgu74av2    [mg_u74av2] affymetrix murine genome u74a version 2 array
gpl82    mgu74bv2    [mg_u74bv2] affymetrix murine genome u74b version 2 array
gpl83    mgu74cv2    [mg_u74cv2] affymetrix murine genome u74 version 2 array
gpl85    rgu34a    [rg_u34a] affymetrix rat genome u34 array
gpl86    rgu34b    [rg_u34b] affymetrix rat genome u34 array
gpl87    rgu34c    [rg_u34c] affymetrix rat genome u34 array
gpl88    rnu34    [rn_u34] affymetrix rat neurobiology u34 array
gpl89    rtu34    [rt_u34] affymetrix rat toxicology u34 array
gpl90    ygs98    [yg_s98] affymetrix yeast genome s98 array
gpl91    hgu95av2    [hg_u95a] affymetrix human genome u95a array
gpl92    hgu95b    [hg_u95b] affymetrix human genome u95b array
gpl93    hgu95c    [hg_u95c] affymetrix human genome u95c array
gpl94    hgu95d    [hg_u95d] affymetrix human genome u95d array
gpl95    hgu95e    [hg_u95e] affymetrix human genome u95e array
gpl96    hgu133a    [hg-u133a] affymetrix human genome u133a array
gpl97    hgu133b    [hg-u133b] affymetrix human genome u133b array
gpl98    hu35ksuba    [hu35ksuba] affymetrix human 35k suba array
gpl99    hu35ksubb    [hu35ksubb] affymetrix human 35k subb array
gpl100    hu35ksubc    [hu35ksubc] affymetrix human 35k subc array
gpl101    hu35ksubd    [hu35ksubd] affymetrix human 35k subd array
gpl198    ath1121501    [ath1-121501] affymetrix arabidopsis ath1 genome array
gpl199    ecoli2    [ecoli_asv2] affymetrix e. coli antisense genome array
gpl200    celegans    [celegans] affymetrix c. elegans genome array
gpl201    hgfocus    [hg-focus] affymetrix human hg-focus target array
gpl339    moe430a    [moe430a] affymetrix mouse expression 430a array
gpl340    mouse4302    [moe430b] affymetrix mouse expression 430b array
gpl341    rae230a    [rae230a] affymetrix rat expression 230a array
gpl342    rae230b    [rae230b] affymetrix rat expression 230b array
gpl570    hgu133plus2    [hg-u133_plus_2] affymetrix human genome u133 plus 2.0 array
gpl571    hgu133a2    [hg-u133a_2] affymetrix human genome u133a 2.0 array
gpl886    hgug4111a    agilent-011871 human 1b microarray g4111a (feature number version)
gpl887    hgug4110b    agilent-012097 human 1a microarray (v2) g4110b (feature number version)
gpl1261    mouse430a2    [mouse430_2] affymetrix mouse genome 430 2.0 array
gpl1318    xenopuslaevis    [xenopus_laevis] affymetrix xenopus laevis genome array
gpl1319    zebrafish    [zebrafish] affymetrix zebrafish genome array
gpl1322    drosophila2    [drosophila_2] affymetrix drosophila genome 2.0 array
gpl1352    u133x3p    [u133_x3p] affymetrix human x3p array
gpl1355    rat2302    [rat230_2] affymetrix rat genome 230 2.0 array
gpl1708    hgug4112a    agilent-012391 whole human genome oligo microarray g4112a (feature number version)
gpl2112    bovine    [bovine] affymetrix bovine genome array
gpl2529    yeast2    [yeast_2] affymetrix yeast genome 2.0 array
gpl2891    h20kcod    ge healthcare/amersham biosciences codelink™ uniset human 20k i bioarray
gpl2898    adme16cod    ge healthcare/amersham biosciences codelink™ adme rat 16-assay bioarray
gpl3154    ecoli2    [e_coli_2] affymetrix e. coli genome 2.0 array
gpl3213    chicken    [chicken] affymetrix chicken genome array
gpl3533    porcine    [porcine] affymetrix porcine genome array
gpl3738    canine2    [canine_2] affymetrix canine genome 2.0 array
gpl3921    hthgu133a    [ht_hg-u133a] affymetrix ht human genome u133a array
gpl3979    canine    [canine] affymetrix canine genome 1.0 array
gpl4032        [maize] affymetrix maize genome array
gpl4191    h10kcod    codelink uniset human i bioarray
gpl5188    huex10sttranscriptcluster    [huex-1_0-st] affymetrix human exon 1.0 st array [probe set (exon) version]
gpl5689    hgug4100a    agilent human 1 cdna microarray (g4100a) [layout c]
gpl6097    illuminahumanv1    illumina human-6 v1.0 expression beadchip
gpl6102    illuminahumanv2    illumina human-6 v2.0 expression beadchip
gpl6244    hugene10sttranscriptcluster    [hugene-1_0-st] affymetrix human gene 1.0 st array [transcript (gene) version]
gpl6246    mogene10sttranscriptcluster    [mogene-1_0-st] affymetrix mouse gene 1.0 st array [transcript (gene) version]
gpl6885    illuminamousev2    illumina mouseref-8 v2.0 expression beadchip
gpl6947    illuminahumanv3    illumina humanht-12 v3.0 expression beadchip
gpl8300    hgu95av2    [hg_u95av2] affymetrix human genome u95 version 2 array
gpl8321    mouse430a2    [mouse430a_2] affymetrix mouse genome 430a 2.0 array
gpl8490    illuminahumanmethylation27k    illumina humanmethylation27 beadchip (humanmethylation27_270596_v.1.2)
gpl10558    illuminahumanv4    illumina humanht-12 v4.0 expression beadchip
gpl11532    hugene11sttranscriptcluster    [hugene-1_1-st] affymetrix human gene 1.1 st array [transcript (gene) version]
gpl13497    hsagilentdesign026652    agilent-026652 whole human genome microarray 4x44k v2 (probe name version)
gpl13534    illuminahumanmethylation450k    illumina humanmethylation450 beadchip (humanmethylation450_15017482)
gpl13667    hgu219    [hg-u219] affymetrix human genome u219 array
gpl14877    hgu133plus2    affymetrix human genome u133 plus 2.0 array [brainarray version 13, hgu133plus2_hs_entrezg]
gpl15380    gghumanmethcancerpanelv1    illumina sentrix array matrix (sam) - goldengate methylation cancer panel i
gpl15396    hthgu133b    [ht_hg-u133b] affymetrix ht human genome u133b array [custom cdf: entrez brainarray v. 14]
gpl17556    hugene10sttranscriptcluster    [hugene-1_0-st] affymetrix human gene 1.0 st array [hugene10stv1_hs_entrezg_17.0.0]
gpl17897    hthgu133a    [ht_hg-u133a] affymetrix human genome u133a array (custom cdf: hthgu133a_hs_entrezg.cdf version 17.0.0)
gpl18190    hugene11sttranscriptcluster    [hugene-1_1-st] affymetrix human gene 1.1 st array [cdf: brainarray hugene11stv1_hs_entrezg_15.1.0]
 

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com