cover_image

去掉ensembl id的vision信息

豆豆花花 生信星球
2019年02月14日 15:16

图片图片 今天是生信星球陪你的第279天图片


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!

情人节快乐啊筒几们。由于豆花各回各家过年了,还没有接头成功,所以今天木有狗粮嗯。大家还是乖乖吃点GEO分析的代码吧。

version其实就是小数点后面的部分,ensembl_id与其他基因id进行转换时是不带有小数点的。如果你拿到的数据有小数点,那就没法顺利的merge了,所以就要把它去掉。现在有两种炫酷的方法可以去掉,拿六个id来练手

ENSG00000000003.13
ENSG00000000005.5
ENSG00000000419.11
ENSG00000000457.12
ENSG00000000460.15
ENSG00000000938.11

将以上基因id保存在e1.txt,存放于工作目录下。

rm(list=ls())
options(stringsAsFactors = F)
a=read.table('e1.txt')
library(org.Hs.eg.db)

方法一:str_split

这是一个处理字符串的操作,在处理多个字符串(组成的向量)时,会返回列表,还需要把列表给拆了。

library(tidyverse)
g2s <- toTable(org.Hs.egSYMBOL)
g2e <- toTable(org.Hs.egENSEMBL)
a1=a
a1$V1 = apply(a1[1], 1,function(x){
  str_split(x,'[.]')[[1]][1]
}) %>% unlist()

方法二:separate

这个操作就炫酷一些,是tidyr里的。
这个数据对separate来说有些小儿科,into后面只写一个列名,就会默认把小数点后的部分默默去掉,但是会给一个warning信息。
如果强迫症不要warning信息,可以规规矩矩拆两列,然后select去掉第二列。

a2 <- separate(a,V1,into = "ensembl_id",sep = "[.]")
a3 <- separate(a,V1,into = c("ensembl_id","drop"),sep = "[.]") %>%
  select(-drop)

全部代码可以直接复制粘,即使新手也可以运行一下。


简书:小洁忘了怎么分身

图片隔壁生信技能树公益视频合辑(学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!)

国内看B站,教学视频链接:https://m.bilibili.com/space/338686099 
国外看YouTube,教学视频链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists 

友情链接:

生信工程师入门最佳指南
学徒培养

资料大全


点击底部的“阅读原文”,获得更好的阅读体验哦😻

初学生信,很荣幸带你迈出第一步。

我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号,竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到Bioplanet520@outlook.com,每一条都会看到的哦~

图片

继续滑动看下一个
生信星球
向上滑动看下一个