Bioinformatics를 위한 Hadoop

Hadoop World: NYC 2009에서 아마존 웹 서비스의 Deepak Singh가 Hadoop for Bioinformatics라는 재미있는 주제로 발표를 했다. 넥스알의 한재선 박사님도 이메일 아카이빙 솔루션인 Terapot에 대해서도 발표를 하셨군요.

1. 엄청난 데이터가 몰려들어와 있고, 몰려들고 있다.
직접 발표를 들은것이 아니라, 슬라이드만 보고 혼자 생각한것을 적어본다면, 1-30 페이지까지는 엄청나게 쏟아져나오는 데이터에 대해서 이야기 하고 있는것 같습니다. 이부분에 대해서는 저도 제작년 발표때 언급을 한것인데, 추가 된것이라면 NGS를 이용한 엄청난 데이터에 대해서 더 언급 되어있습니다.

5-7페이지: 공개된 많은 생물학 데이터(genebank, pdb 등등)들이 있다고 합니다.
9페이지: 월컴 트러스터의 전시홀에 전시된 휴먼 지놈을 프린트해 놓은 책
10페이지: SNP을 찾는 Affymetrix의 칩입니다. 참고로 23andMe는 illumina의 칩을 사용하죠.
11-12 페이지: NGS 기계로 차세대 시퀀싱 기계입니다.
13페이지: 컴플리트 지놈이나 패시픽 바이오사이언스 등의 회사에서 NGS를 이용해 시퀀싱을 하고 있죠.
14-20: 많은 데이터가 빠르게 생성되고 있다.
29페이지: 1.1페타의 스토리지 용량을 보여주고 있습니다. 정말 후덜덜한 용량이 아닐 수 없네요, 출처는 Bioteam의 사장인 Chris Dagdigian씨의 터미널을 캡처한 것 같은데,,, 지난번 온 마이클의 사장님 되겠습니다. ^^

2. 그렇다면 어떻게 해야할까?
30-37페이지까지의 슬라이드에서는 이러한 문제에 대해서 알고리즘, 컴퓨팅 파워, 데이터의 관리, 데이터의 공유, 경영상의 마음가짐, 확장성 등에 대해서 다시 한번 생각해봐야 한다고 말하고 있습니다. 여기서 정확히 operational mindset의 의미를 모르겠지만, 제가 생각하기에 실제 조직내에서 이러한 데이터의 증가에 따른 경영진(생물학만을 전공한 윗분)의 확실한 뒷받침이 필요하다 정도일것 같습니다.

3. 두개의 핵심 트렌드를 잡아라.
38-44페이지에서는 바로 아마존의 웹서비스와 하둡을 언급합니다.

4. 실제 예를 보여줍니다.
47페이지부터는 지놈상의 숏리드(짧은 서열 조각들)를 레퍼런스와 매핑하는 방법에 대해서 이야기하고 시간이 많이 소요되는 작업임을 이야기 하고 있습니다. 그래서 이것을 MapReduce를 이용해서 매핑하는 CloudBurst라는 프로그램에 대해서 이야기 합니다. CloudBurst는 이미 아마존에서 사용할 수 있습니다.

58페이지에서는 보타이(Bowtie:나비넥타이)라는 가장 널리 사용하는 align 프로그램에 대해서 이야기 합니다. 그 다음으로 SOAPsnp으로 이렇게 정렬(align)된 서열로 부터 SNP을 찾아내는 프로그램에 대해서 이야기 합니다. 마지막으로 crossbow라는 snp 분석 프로그램에 대해서도 언급하네요. 이 프로그램들은 CloudBurst와는 달리 MapReduce로 작성된 프로그램이 아닌 시리얼한 프로그램인데 이것을 MapReduce로 하는 방법에 대해서 이야기를 하고 있습니다.

5. 이것뿐이냐?
78페이지에서부터는 이전에 서열정렬 부분이 아닌, 1)드노보 어셈블링(아까 본 서열 정렬 프로그램은 레퍼런스가 있어서 레퍼런스에 맞추는 것이지만, 드노보 어셈블링은 레퍼런스 없이 지들끼리 정렬, 따라서 더 시간이 소요) 2) 머신런닝이나 통계적인 처리 부분 3)단백질의 구조 예측 등등 많은 생물정보학과 하둡의 결합 부분을 이야기 하고 있습니다.

마지막으로 아마존에서 고이 간직하고 있는 public data set에 생물학 관련 데이터들이 있고, 사용 가능한 상태라는 언급을 하고  있습니다.

전체적으로 제가 예전에 발표했던 거랑 맥락은 같으나 실제 예가 더 포함 되어 있네요,,, 지금 서열 정렬부분에 한해서 예를 들었는데, 저는 좀 다른 부분(SNP의 분석쪽)에 관해서 준비하고 있습니다. 그럼 조금만 기다려 주시면,,,

View more presentations from Deepak Singh.

Posted by hongiiv

2009/10/26 15:36 2009/10/26 15:36
,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/607

오늘 뉴스 기사에 안중근 의사의 후손의 DNA를 확보했다는 기사를 봤다. 이는 향후 안중근 의사의 유골을 찾았을때 실제 안중근 의사가 맞는지 확인하기 위해서라고 한다.

잠깐 미국으로 건너가 보자. 토마스제퍼슨은 미국의 3대 대통령으로 그의 사생활은 좀 복잡하다. 그의 부인은 일찍 죽었고, 부인의 이복 동생인 흑인 노예 사이에 자식을 둔 것이다. 당시 제퍼슨은 이 사실에 대해서 별 반응이 없었고 그냥 제퍼슨에게 흑인 노예와의 자식이 있더라라는 소문만 무성했다고 한다. 그 후 제퍼슨의 후손이라고 주장하는 사람이 나타났고 이를 위해서 Y 염색체의 STR 마커를 이용해서 진짜 제퍼슨의 후예인지를 확인하는 작업을 진행하게 된다.

하지만 문제는 Y 염색체는 남자에게만 있다는 사실, 즉 제퍼슨의 후손이라고  주장하는 자(남자), 제퍼슨의 진짜 남자 후손이 필요한데, 아쉽게도 제퍼슨의 남자 후손은 대가 끊겨 없다는 것이다. 다행히 제퍼슨 사촌의 남자 후손이 있었고, 이를 통해 제퍼슨의 후손임이 밝혀졌다고 한다.

Screen shot 2009-10-26 at 2.57.16 PM
샐리 해밍스(제퍼슨의 노예 아내?)의 막내 아들(이스턴 해밍스)의 후손과 제퍼슨의 사촌인 필드 제퍼슨의 후손과 STR 마커가 일치하는걸 알 수 있다.
참고, 위키피디아- 제퍼슨의 DNA

그렇다면 나도 어떻게 될줄 모르니까? 남자 후손 하나,,,쯤은 남겨 두어야 하는건가??

Posted by hongiiv

2009/10/26 15:02 2009/10/26 15:02
, ,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/606

인류가 겪은 두 번의 시련

아프리카로부터 시작된 인류는 아시아와 북아메리카를 잇는 베링육교를 통해 이주되었다고도 한다. 베링해협의 얕은 바다가 해수면이 낮아지면 이동이 가능했다고 한다. 그런데 특이한 것은 아시아, 유럽, 아메리카 인디언의 사이의 다양성보다 아프리카내 원주인의 다양성이 많다는 것이다.

아프리카 대륙을 떠난 인류가 다양하게 당양성을 보였지만, 아프리카에서 유럽으로 갈때 한번, 아시아에서 아메리카 대륙으로 갈때 한번 이렇게 두번에 걸쳐 유전적 다양성이 감소했다는 것이다. 즉, 두 번의 보틀넥에 걸려서 유전적인 다양성이 확 감소해버렸다는 것이다.

아프리카 대륙의 원주민들간은 얼마나 유전적으로 다양한지에 대한 글은 Expansive genetic diversity in Africa revealed 여기를 참고하시면 될 듯합니다.

시간이 되시는 분들은 여기에 관한 Dienekes의 블로그의 댓글을 읽어보시는것도 좋을 듯합니다.

Tamm E, Kivisild T, Reidla M, Metspalu M, Smith DG, et al. (2007) Beringian Standstill and Spread of Native American Founders. PLoS ONE 2(9): e829.

doi:10.1371/journal.pone.0000829
Proceedings of the Royal Society B
Evidence that two main bottleneck events shaped modern human genetic diversity
W. Amos and J. I. Hoffman
 Screen shot 2009-10-26 at 1.50.20 PM
베링육교를 지나서 아메리카 대륙으로,,,


Posted by hongiiv

2009/10/26 14:42 2009/10/26 14:42
, ,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/605

« Previous : 1 : 2 : 3 : 4 : 5 : ... 181 : Next »


야후 블로그 벳지


Site Stats

Total hits:
288720
Today:
107
Yesterday:
211