去掉ensembl id的vision信息

原创豆豆花花生信星球

2019年02月14日 15:16

今天是生信星球陪你的第279天

大神一句话，菜鸟跑半年。我不是大神，但我可以缩短你走弯路的半年~

就像歌儿唱的那样，如果你不知道该往哪儿走，就留在这学点生信好不好~

这里有豆豆和花花的学习历程，从新手到进阶，生信路上有你有我！

情人节快乐啊筒几们。由于豆花各回各家过年了，还没有接头成功，所以今天木有狗粮嗯。大家还是乖乖吃点GEO分析的代码吧。

version其实就是小数点后面的部分，ensembl_id与其他基因id进行转换时是不带有小数点的。如果你拿到的数据有小数点，那就没法顺利的merge了，所以就要把它去掉。现在有两种炫酷的方法可以去掉，拿六个id来练手

ENSG00000000003.13
ENSG00000000005.5
ENSG00000000419.11
ENSG00000000457.12
ENSG00000000460.15
ENSG00000000938.11

将以上基因id保存在e1.txt，存放于工作目录下。

rm(list=ls())
options(stringsAsFactors = F)
a=read.table('e1.txt')
library(org.Hs.eg.db)

方法一：str_split

这是一个处理字符串的操作，在处理多个字符串（组成的向量）时，会返回列表，还需要把列表给拆了。

library(tidyverse)
g2s <- toTable(org.Hs.egSYMBOL)
g2e <- toTable(org.Hs.egENSEMBL)
a1=a
a1$V1 = apply(a1[1], 1,function(x){
  str_split(x,'[.]')[[1]][1]
}) %>% unlist()

方法二：separate

这个操作就炫酷一些，是tidyr里的。
这个数据对separate来说有些小儿科，into后面只写一个列名，就会默认把小数点后的部分默默去掉，但是会给一个warning信息。
如果强迫症不要warning信息，可以规规矩矩拆两列，然后select去掉第二列。

a2 <- separate(a,V1,into = "ensembl_id",sep = "[.]")
a3 <- separate(a,V1,into = c("ensembl_id","drop"),sep = "[.]") %>%
  select(-drop)

全部代码可以直接复制粘，即使新手也可以运行一下。

简书：小洁忘了怎么分身
隔壁生信技能树公益视频合辑（学习顺序是linux，r，软件安装，geo，小技巧，ngs组学！）
国内看B站，教学视频链接：https://m.bilibili.com/space/338686099
国外看YouTube，教学视频链接：https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
友情链接：
生信工程师入门最佳指南
学徒培养
资料大全

点击底部的“阅读原文”，获得更好的阅读体验哦😻

初学生信，很荣幸带你迈出第一步。

我们是生信星球，一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号，竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到Bioplanet520@outlook.com，每一条都会看到的哦~

继续滑动看下一个