SNPedia Annotation

The World's Top 11 annotated man(2009/06/26 Now ^^)

순위 이름 Annotation 비고
1 NA07022_whole 5906 Whole
2 YanHuang_whole 5495 Whole
3 David Ewing Duncan_pooled 5351 pooled
4 Timothy Richard Gall_pooled 4858 pooled
5 JerryEmanuelson_pooled 4767 pooled
6 Ngnomics_pooled 4756 pooled
7 Kim Seong-jin_whole 4413 Whole
8 Dichro_pooled_2 4328 pooled
9 David Ewing Duncan_23andme 4307 23andMe
10 Dichro_23andme_v2 4297 23andMe_v2
11 Hyungyong Kim_23andme_v2 4193 23andMe_v2

David Duncan라는 사람이 URDB(The Universal Record Database)에 따르면 자신의 유전정보에 대한 어노테이션(Promethase의 분석 결과로 나온 정보)이 전세계적으로 가장 많이 되어 있다고, 즉 자신의 정보를 가장 많이 알 수 있다는 글 을 올렸고, 이에 대해서 대략적인 결론은 SNPedia의 Mike가 더 많은 어노테이션이 된 사람이 있고, 빠르게 급변하는 genomic 영역에서 이런 따위?는 무의미 하다는 글을 남기기도 했다.

SNPedia의 데이터에 따르면 NA07022라는 백인 샘플?이 5,906개의 정보를 가지고 있기 때문에 가장 많다. 그 다음은 양 후안밍(중국) 박사가 5495개로 그 뒤를 따르고 있다. 이 두명은 특정 플랫폼을 사용해서 genotyping을 한것이 아니라 whole 지놈을 분석한 사람이고, 그 뒤를 이어서 Duncan이 5351개로 3위에 있다. Duncan은 위의 두명과는 달리 23andMe, decodeme, navigenics 총 3개의 서비스를 합친 정보에 대한 5351개의 정보를 가지고 있다.

snpedia_02
모든 사람들의 주석처리된 정보 수(from SNPedia Data)

23andme
23andeMe 서비스를 받은 사람들은 평균 3874개의 정보를 지니고 있다.
(23andMe's  average annotation: 3874)

decode
deCODEme 서비스를 받은 사람들은 평균 3187개의 정보를 지니고 있다.
(deCODEme's  average annotation: 3187)

pgp102
PGP10에 참가한 사람들은 평균 1131개의 정보를 지니고 있다.
(PGP10's  average annotation: 1131)

whole
Navigenics 서비스를 받은 사람들은 평균 1439개의 정보를 지니고 있다
Whole Genome 시퀀싱을 한 사람들은 평균 4946개의 정보를 지니고 있다.

(Navigenics's  average annotation: 1439,
Whole genome sequecing average annotation: 4946 )

각 서비스별로 플랫폼이 다르고 플랫폼이 찾아낼 수 있는 SNP의 갯수가 다르기 때문에 어노테이션되는 갯수도 이에 따라 달라지게 된다. 무의미하지만 각각의 서비스를 비교해본다면,

1. Whole genome sequencing : 4946
2. 23andMe: 3874(Illumina 600,000 SNP detection)
3. deCODEme: 3187 (Illumina 1M array?)
4. Navigenics: 1439 (Affymetrix 6.0 array?)
5. PGP10: 1131(??)

내일이면 바뀔지 모르는 데이터입니다. Maybe it will be a changed tomorrow : )

Posted by hongiiv

2009/06/26 16:17 2009/06/26 16:17
, ,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/595

R을 이용한 3차원 PCA plot 그리기

3차원의 scatter plot을 그리기

주성분분석(PCA)에서는 1,2주성분에 대해서 각각 x,y의 2차원상에서 plot을 그려서 보여준다. 그런데 어느 논문에서 각 개체의 1부터 7까지 주성분을 모두([1,2주성분],[3,4주성분],[5,6주성분],[7,8주성분] - 총 4개의 그래프를 죄다 보여주는)보여주는 것을 보고는 저럴 필요가지 있을까라는 생각이 들긴 했지만, 그렇다면 개체의 1,2,3 주성분(x,y,z축으로)을 3차원으로 보여주는 것도 괜찮을 것 같다는 생각이 들었다.

우선 R의 rgl패키지의 plot3d()를 이용할것이므로 rgl 패키지를 설치한다.

>library(rgl)
>data<-read.table("point2.dat",header=TRUE)
>p1=prcomp(data,scale=TRUE)
>p2<-predict(p1)
>plot3d(p2[,1:3])

또는 prcomp() 대신 princomp()를 이용할 경우에는

>p3<-princomp(data,scale=TRUE)
>plot3d(p3$scores[,1:3])

이렇게 그려진 plot은 다음과 같이 OpenGL을 이용하여 그려지게 되고, 마우스 줌과 회전이 가능해진다. 마우스로 적당한 포즈?를 취한 후에는 snapshot()을 이용해서 그림 파일로 저장이 가능하다.

>rgl.snapshot("3dplot.png")

rgl plot3d

그림 파일이 아닌 동영상(움직이는 gif)로 저장하고 싶다면 ImageMagick을 설치한 후 movie3d()를 실행하면 지정된 tmp 폴더에 movie.gif 라는 움직이는 동영상이 저장된다.

>movie3d(spin3d(),duration=20,convert=TRUE)


이건 신모박사님의 데이터를 잠깐 빌려서 그려본 3D PCA plot  ^^;;
Picture 4

Posted by hongiiv

2009/06/25 15:58 2009/06/25 15:58
,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/594

구글 fusion tables - 대용량의 서막

R과 엑셀이 결합해서 수백만 로우의 데이터를 한방에 로드하고 이를 엑셀에서 확인한 후 R을 돌려서 그 결과를 깔끔하게 엑셀의 표나 그래프 형식으로 볼 수 있다면... 이라는 생각을 줄곧 했었는데...

그런데 구글이 이것을 fusion tables라는 이름으로 만들어 버렸다. 지금은 테이블당 100MB로(이것도 무진장 큰 데이터이건만...그래도 모자라 보이는건...-.-;;) 한정되어 있지만 향후 다룰 수 있는 데이터가 점점 커진다면 ^^;;

조만간 생물학 데이터들도 google의 fusion tables을 통해서 전세계 연구자이 협업을 통해 데이터를 완성해 나가고 결국은 이렇게 만들어진 데이터를 가지고 갖가지 분석을 해버리는 날이 오게 될것만 같다...

Google Fusion Tables
해당 셀에 대해서 협업자들끼리 의견을 교환

Google Fusion Tables
지역에 대한 정보가 있는 셀은 이렇게 구글어스 아이콘이 나오고 이를 클릭하면 아래와 같이 해당 지역을 구글맵을 통해서 확인할 수 있다.

Google Fusion Tables

Google Fusion Tables
각 컬럼에 대해서 간단한 계산(sum, min, max값 등등)을 수행하고 그 결과를 지도에 표시해서 보여주기도 한다.

Posted by hongiiv

2009/06/23 21:10 2009/06/23 21:10
,
Response
No Trackback , 2 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/593

« Previous : 1 : 2 : 3 : 4 : 5 : ... 178 : Next »


야후 블로그 벳지


Site Stats

Total hits:
262438
Today:
25
Yesterday:
206