Giter Club home page Giter Club logo

idmap3's Introduction

下载全部表达芯片平台的探针的碱基序列自主注释到基因ID

郑重申明:此包idmap3存放在GitHub,仅仅是一个草稿,不会再维护,也不会更新,是为了说明我最后的annoprobe包的开发历程。

前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种bioconductor包的方法,大家无需下载几十个bioconductor包,然后自己一个个提取基因信息,我全部为大家做好啦,也就是 idmap1 这个目前host在GitHub, R包:

但是第一个包只能是解决有bioconductor包的那些芯片平台,毕竟是少数,所以我又开发了第二个万能芯片探针ID注释平台包,参见:第二个万能芯片探针ID注释平台R包 , 把全部表达芯片的soft文件下载好后,提前它们的芯片和基因symbol对应关系并存储好,最后是 idmap2 这个目前也host在GitHub, R包:

大量的GPL平台的soft文件并不提供基因注释新

比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827

能拿到的信息就探针序列,所以是idmap1和idmap2都是无法注释的,这个时候就需要我们的idmap3啦!

image-20191203175638181

我下载了全部提供探针碱基序列的GPL平台,然后批量比对到其对应的参考基因组,比如human,mouse,rat ,然后注释到其最新版gtf文件,获取探针比对到参考基因组坐标后注释到的基因信息。

安装我的idmap3包

idmap1解决了bioconductor包下载困难的问题,idmap2解决了GPL平台的soft文件下载困难,而这个idmap3解决了那些并不提供探针的注释信息的平台。

library(devtools)
install_github("jmzeng1314/idmap3")
library(idmap3)

因为有40M,所以下载安装会比较慢哦,喝杯咖啡吧!也欢迎赞助我一杯咖啡,我们一起喝!

关于GitHub下载困难

在**大陆,大部分人访问GitHub还是很困难的,如果你确实无法下载, 就需要下载我的微云版本:

然后参考我以前的教程:安装GitHub的R包困难解决方案

使用idmap3

比如如果想获取Agilent-079487 Arraystar Human LncRNA microarray V4 (Probe Name version)的注释信息,一行代码就搞定!它的平台是:GPL21827

library(idmap3)
ids=idmap3::get_pipe_IDs('GPL21827')
head(ids) 

这个平台,GPL21827,Agilent-079487 Arraystar Human LncRNA microarray V4 因为在GEO里面仅仅是提供了探针序列,所以我们前面的两个R包都无能为力,只能这个idmap3哦!

你想知道我们支持哪些平台吗,当然是可以看的:

data(gpl_list)
gpl_list[,1:4]

希望你的平台,在我们的列表,能帮助你进行芯片注释。

比较soft文件自带的注释信息和我们的流程注释

rm(list = ls())
options(stringsAsFactors = F)
library(idmap2)
library(idmap3)
# Agilent-011521 Human 1A Microarray G4110A  (Feature Number version)   GPL885
ids2=get_soft_IDs('GPL885')
ids3=get_pipe_IDs('GPL885')
tmp=merge(ids2,ids3,by.x='ID',by.y='probe_id')
table(tmp$symbol.x==tmp$symbol.y)

length(unique(tmp[,1]))
length(unique(tmp[tmp$symbol.x==tmp$symbol.y,1]))
length(unique(tmp[tmp$symbol.x!=tmp$symbol.y,1]))

data("gpl_list")
gpl_list[,1:2]

可以看到很多有趣的问题:

image-20191203180442503

其实很多探针,会同步注释在一个lncRNA和一个mRNA上面,因为lncRNA和mRNA坐标是有交叉的。

而且soft文件自带的注释信息的基因名字都太陈旧了。

image-20191203180613910

An 800 kb deletion at 17q23.2 including the MED13 (THRAP1) gene, revealed by aCGH in a patient with a SMC 17p.

Name:ATRAID. Synonyms:APR3, C2orf28.

Complete information for ASIC5 gene (Protein Coding), Acid Sensing Ion Channel Subunit Family Member ... Previous HGNC Symbols for ASIC5 Gene. 

是不是需要更新你的注释啦

那么,赶快使用我们的包吧!

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

idmap3's People

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

idmap3's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.