« Previous : 1 : 2 : 3 : 4 : 5 : ... 34 : Next »

Bioinformatics를 위한 Hadoop

Hadoop World: NYC 2009에서 아마존 웹 서비스의 Deepak Singh가 Hadoop for Bioinformatics라는 재미있는 주제로 발표를 했다. 넥스알의 한재선 박사님도 이메일 아카이빙 솔루션인 Terapot에 대해서도 발표를 하셨군요.

1. 엄청난 데이터가 몰려들어와 있고, 몰려들고 있다.
직접 발표를 들은것이 아니라, 슬라이드만 보고 혼자 생각한것을 적어본다면, 1-30 페이지까지는 엄청나게 쏟아져나오는 데이터에 대해서 이야기 하고 있는것 같습니다. 이부분에 대해서는 저도 제작년 발표때 언급을 한것인데, 추가 된것이라면 NGS를 이용한 엄청난 데이터에 대해서 더 언급 되어있습니다.

5-7페이지: 공개된 많은 생물학 데이터(genebank, pdb 등등)들이 있다고 합니다.
9페이지: 월컴 트러스터의 전시홀에 전시된 휴먼 지놈을 프린트해 놓은 책
10페이지: SNP을 찾는 Affymetrix의 칩입니다. 참고로 23andMe는 illumina의 칩을 사용하죠.
11-12 페이지: NGS 기계로 차세대 시퀀싱 기계입니다.
13페이지: 컴플리트 지놈이나 패시픽 바이오사이언스 등의 회사에서 NGS를 이용해 시퀀싱을 하고 있죠.
14-20: 많은 데이터가 빠르게 생성되고 있다.
29페이지: 1.1페타의 스토리지 용량을 보여주고 있습니다. 정말 후덜덜한 용량이 아닐 수 없네요, 출처는 Bioteam의 사장인 Chris Dagdigian씨의 터미널을 캡처한 것 같은데,,, 지난번 온 마이클의 사장님 되겠습니다. ^^

2. 그렇다면 어떻게 해야할까?
30-37페이지까지의 슬라이드에서는 이러한 문제에 대해서 알고리즘, 컴퓨팅 파워, 데이터의 관리, 데이터의 공유, 경영상의 마음가짐, 확장성 등에 대해서 다시 한번 생각해봐야 한다고 말하고 있습니다. 여기서 정확히 operational mindset의 의미를 모르겠지만, 제가 생각하기에 실제 조직내에서 이러한 데이터의 증가에 따른 경영진(생물학만을 전공한 윗분)의 확실한 뒷받침이 필요하다 정도일것 같습니다.

3. 두개의 핵심 트렌드를 잡아라.
38-44페이지에서는 바로 아마존의 웹서비스와 하둡을 언급합니다.

4. 실제 예를 보여줍니다.
47페이지부터는 지놈상의 숏리드(짧은 서열 조각들)를 레퍼런스와 매핑하는 방법에 대해서 이야기하고 시간이 많이 소요되는 작업임을 이야기 하고 있습니다. 그래서 이것을 MapReduce를 이용해서 매핑하는 CloudBurst라는 프로그램에 대해서 이야기 합니다. CloudBurst는 이미 아마존에서 사용할 수 있습니다.

58페이지에서는 보타이(Bowtie:나비넥타이)라는 가장 널리 사용하는 align 프로그램에 대해서 이야기 합니다. 그 다음으로 SOAPsnp으로 이렇게 정렬(align)된 서열로 부터 SNP을 찾아내는 프로그램에 대해서 이야기 합니다. 마지막으로 crossbow라는 snp 분석 프로그램에 대해서도 언급하네요. 이 프로그램들은 CloudBurst와는 달리 MapReduce로 작성된 프로그램이 아닌 시리얼한 프로그램인데 이것을 MapReduce로 하는 방법에 대해서 이야기를 하고 있습니다.

5. 이것뿐이냐?
78페이지에서부터는 이전에 서열정렬 부분이 아닌, 1)드노보 어셈블링(아까 본 서열 정렬 프로그램은 레퍼런스가 있어서 레퍼런스에 맞추는 것이지만, 드노보 어셈블링은 레퍼런스 없이 지들끼리 정렬, 따라서 더 시간이 소요) 2) 머신런닝이나 통계적인 처리 부분 3)단백질의 구조 예측 등등 많은 생물정보학과 하둡의 결합 부분을 이야기 하고 있습니다.

마지막으로 아마존에서 고이 간직하고 있는 public data set에 생물학 관련 데이터들이 있고, 사용 가능한 상태라는 언급을 하고  있습니다.

전체적으로 제가 예전에 발표했던 거랑 맥락은 같으나 실제 예가 더 포함 되어 있네요,,, 지금 서열 정렬부분에 한해서 예를 들었는데, 저는 좀 다른 부분(SNP의 분석쪽)에 관해서 준비하고 있습니다. 그럼 조금만 기다려 주시면,,,

View more presentations from Deepak Singh.

Posted by hongiiv

2009/10/26 15:36 2009/10/26 15:36
,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/607

오늘 뉴스 기사에 안중근 의사의 후손의 DNA를 확보했다는 기사를 봤다. 이는 향후 안중근 의사의 유골을 찾았을때 실제 안중근 의사가 맞는지 확인하기 위해서라고 한다.

잠깐 미국으로 건너가 보자. 토마스제퍼슨은 미국의 3대 대통령으로 그의 사생활은 좀 복잡하다. 그의 부인은 일찍 죽었고, 부인의 이복 동생인 흑인 노예 사이에 자식을 둔 것이다. 당시 제퍼슨은 이 사실에 대해서 별 반응이 없었고 그냥 제퍼슨에게 흑인 노예와의 자식이 있더라라는 소문만 무성했다고 한다. 그 후 제퍼슨의 후손이라고 주장하는 사람이 나타났고 이를 위해서 Y 염색체의 STR 마커를 이용해서 진짜 제퍼슨의 후예인지를 확인하는 작업을 진행하게 된다.

하지만 문제는 Y 염색체는 남자에게만 있다는 사실, 즉 제퍼슨의 후손이라고  주장하는 자(남자), 제퍼슨의 진짜 남자 후손이 필요한데, 아쉽게도 제퍼슨의 남자 후손은 대가 끊겨 없다는 것이다. 다행히 제퍼슨 사촌의 남자 후손이 있었고, 이를 통해 제퍼슨의 후손임이 밝혀졌다고 한다.

Screen shot 2009-10-26 at 2.57.16 PM
샐리 해밍스(제퍼슨의 노예 아내?)의 막내 아들(이스턴 해밍스)의 후손과 제퍼슨의 사촌인 필드 제퍼슨의 후손과 STR 마커가 일치하는걸 알 수 있다.
참고, 위키피디아- 제퍼슨의 DNA

그렇다면 나도 어떻게 될줄 모르니까? 남자 후손 하나,,,쯤은 남겨 두어야 하는건가??

Posted by hongiiv

2009/10/26 15:02 2009/10/26 15:02
, ,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/606

인류가 겪은 두 번의 시련

아프리카로부터 시작된 인류는 아시아와 북아메리카를 잇는 베링육교를 통해 이주되었다고도 한다. 베링해협의 얕은 바다가 해수면이 낮아지면 이동이 가능했다고 한다. 그런데 특이한 것은 아시아, 유럽, 아메리카 인디언의 사이의 다양성보다 아프리카내 원주인의 다양성이 많다는 것이다.

아프리카 대륙을 떠난 인류가 다양하게 당양성을 보였지만, 아프리카에서 유럽으로 갈때 한번, 아시아에서 아메리카 대륙으로 갈때 한번 이렇게 두번에 걸쳐 유전적 다양성이 감소했다는 것이다. 즉, 두 번의 보틀넥에 걸려서 유전적인 다양성이 확 감소해버렸다는 것이다.

아프리카 대륙의 원주민들간은 얼마나 유전적으로 다양한지에 대한 글은 Expansive genetic diversity in Africa revealed 여기를 참고하시면 될 듯합니다.

시간이 되시는 분들은 여기에 관한 Dienekes의 블로그의 댓글을 읽어보시는것도 좋을 듯합니다.

Tamm E, Kivisild T, Reidla M, Metspalu M, Smith DG, et al. (2007) Beringian Standstill and Spread of Native American Founders. PLoS ONE 2(9): e829.

doi:10.1371/journal.pone.0000829
Proceedings of the Royal Society B
Evidence that two main bottleneck events shaped modern human genetic diversity
W. Amos and J. I. Hoffman
 Screen shot 2009-10-26 at 1.50.20 PM
베링육교를 지나서 아메리카 대륙으로,,,


Posted by hongiiv

2009/10/26 14:42 2009/10/26 14:42
, ,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/605

한국인의 유전정보에 따른 와파린 투여량

와파린은 혈관이 막혀서 발생하는 질환의 치료와 예방에 사용되는 항응고제(혈전 생성을 억제)된다고 합니다. 이 와파린을 투여시 용량이 부족하면 혈관이 막히게 되고, 과도하게 투여하면 내출혈 등을 초래하기 때문에 와파린 투여량의 조절은 매우 중요하다고 합니다.

저도 지난 포스팅들에서 언급했듯이 혈관쪽이 유전적으로 좋지 않은 상황이고, 갑자기 뇌 혈관이 꽁 막혀서 죽을 ^^;; 위험도 있다고 나와서 관상동맥 질환 뇌심혈관 질환등등에 대해서 관심있게 보고 있습니다.

식약청에서 한국인 565명을 대상으로 와파린과 관련이 있는 유전자 검사를 수행하고 유전형과 와파린의 사용량의 상관관계를 분석했다고 합니다. 그 결과 개인별 와파린 사용량이 46%차이를 보였다고 합니다.

이에 따라 식약청에서는 와파린에 대해 유전형에 따라 용법용량을 달리 하는 허가사항을 반영한 내용을 발표했습니다. 이번 허가사항은 유전형에 따른 한국인의 개인별 맞춤약물 시대의 첫 발을 내딛는다고 볼 수 있겠습니다.

자, 그럼 저에게 와파린이 투여된다면 얼마나 투여되어야 하는지 한번 살펴보도록 하겠습니다. 이번 연구 결과는 한국인에 대한 것이기 때문에 저에게 물론 해당되겠죠 ^^

geno
유전형별 와파린 유지용량(출처: 식약청)

빨간색으로 표시한 부분은 저의 유전형입니다. 따라서 저는 다른 유전형분들보다 비교적 적은 와파린 투여량으로 혈전이 생기는것을 막을 수 있습니다. 뭐 하루에 3.6mg 정도면 되겠네요. 혹시나 제가 갑가지 억~하고 쓰러져 와파린을 투여할 일이 생기면 담당 의사 선생님에게 저의 유전자 타입은 저렇게 나왔고, 따라서 와파린에 민감하니, 식약청에서 허가사항으로 내놓은 대로 위와 같이 투여해 달라고 해주세요 ^^;;

인종별 각 유전형 빈도를 보면, CYP2C9(rs1057910) 유전자형은 인종별 차이가 작지만, VKORC1(rs9934483, rs7294)의 경우 백인(CEU) 및 흑인(YRI)과 상반된 결과를 보이고 있다. 여기서 보듯이 와파린의 투여량은 단순히 외국의 기준을 따르는 것이 아니라 한국인에 맞는 즉, 한국인의 유전형에 맞는 투여가 필요한 것이다.

geno2
와파린 관련 유전변이의 인종별 유전형 빈도

Posted by hongiiv

2009/08/12 20:14 2009/08/12 20:14
, , ,
Response
No Trackback , 4 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/603

중국의 유전자 검사

얼마전 CNN기사에 중국의 여름캠프에 대한 기사가 나왔다. 중국 충칭의 Children's Place에서는 880달러의 5일간의 캠프에서 30여명의 3~12세 아이들과 부모의 유전자검사를 수행하고 이를 가지고 아이들의 선척적인 재능을 판별하고 미래를 예측하는 프로그램을 하고 있다는 내용이었다.

이곳의 디렉터인 Zhao Mingyou씨는 이 유전자 검사에 대한 이야기(아마도 23andMe 서비스를 들은듯...)를 듣고 바로 중국에서 성공할 수 있다고 판단했다고 한다.

면봉으로 채취한 타액으로 11가지 유전자를 분리한 후 이를 통해 지능, 감정조절, 집중력, 기억력, 운동능력 등의 정보와 5일간 전문가들에 의해 스포츠에서 예술분야에 이르기까지 평가하고 이에 대한 결과를 통해 아이들의 진로에 대해 부모들에게 추천하는데 사용된다고 한다.

이러한 유전자 검사 실험은 Shanhai Biochip Corporation에서 이루어진다고 하는데, 홈페이지에 가보니 Affymetrix Authorized Provider라고 되어있다. 아마도 Affymetrix chip을 이용한 듯 보인다.

이 프로젝트를 이끄는 Huang Xinhua박사는  “청각을 시험하고 그 결과 음악에 재능이 있는지 알 수 있다“, “집중력이 좋으니 경영쪽에 종사해야한다.”라고 언급하고 있다.

여기까지만 본다면 분명 무슨 시골 장날 약장수 같기만 한 이야기였지만, 기술 담당자인 Yang Yangquing씨 언급한 중국의 일가구 일자녀 정책에 의해 한 가정에 아이가 한 명 뿐이고, 정부에서는 중국을 대표하기 위해 어린나이의 어린이를 일찍이 선별해 국가대표로 키우는 상황에서 중국의 이러한 서비스는 어느 정도 이해가 가기도한다.

이러한 중국의 사례가 단지 중국만의 예가 아니라 우리나라에서도 곧 현실화 될것만 같은 불안한 예감은 무엇인지...

아직은 23andMe와 같은 서비스가 국내 및 동아시아에 정착하기 위해서는 서구와는 다른 문화적 차이와 함께 과학적 결과를 받아들일 성숙한 자세, 얄팍한 상술(부모들의 심리, 환자들의 심리)들이 헤쳐나가야 할 관문인듯 하다.

Posted by hongiiv

2009/08/09 13:46 2009/08/09 13:46
Response
No Trackback , 2 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/602

How to install BioSMACK

BioSMACK 설치하기
BioSMACK은 바이오인포매틱스 관련 툴들을 미리 컴파일하여 설치해 놓은 운영체제로 각종 툴 뿐만 아니라 GWA 분석 과정에 대해서 매뉴얼을 작성하여 손쉽게 연구에 사용할 수 있도록 해놓은 우분투 리눅스 기반 운영체제입니다.

설치과정은 이미지 파일(ISO 확장자)을 다운로드 하고 이를 시디 또는 USB 메모리에 이미지를 넣은 후 기존의 컴퓨터로 부팅하여 사용하시면 됩니다.

1. BioSMACK 이미지 다운로드
현재 개발중인 버전으로 지금 배포되는 버전은 알파버전입니다. 여기를 눌러서 다운로드 하세요. 꼭 바이오 연구자들만 아니라 일반인들도 사용가능합니다. 몇몇 프로그램이 설치된 것외에는  Ubuntu 9.04와 동일합니다.

2. BioSMACK 시디 만들기
다운로드 한 iso 이미지 파일은 네로와 같은 프로그램을 이용해서 손쉽게 시디로 구울 수 있습니다. 또는 Ultra ISO를 이용하시면 손쉽게 이미지 파일을 시디로 옮길 수 있습니다.

3. BioSMACK USB 만들기
시디가 아닌 USB로 만들기 위해서는 unetbootin을 이용하시면 됩니다. 우선 1GB 이상의 USB 메모리를 준비하시고 노트북이나 데스크탑의 USB 포트에 메모리를 삽입합니다.

unebootin을 실행한 후 Diskimage를 선택하시고 다운로드한 BioSMACK 이미지 파일을 선택합니다. 그리고 마지막 하단에 삽입한 USB 드라이브를 선택해 주시면 해당 USB 드라이브에 BioSMACK이 쓰여지게 됩니다. 이때 시간이 좀 걸릴 수 있으니 느긋하게 기다려 주세요.

Picture 8

4. 컴퓨터 셋업
이제 부팅이 가능한 시디 또는 USB 메모리가 만들어졌습니다. 이제 자신의 컴퓨터가 시디 또는 USB로 먼저 부팅이 될 수 있도록 설정해야 합니다. 컴퓨터에 전원을 넣은 후 바로  F1, F2, DEL키(컴퓨터에 따라 다름)를 눌러 부팅 우선 순위(boot order) USB 또는 CD를 맨 상단에 위치하도록 합니다.

5. 부팅하기
unebootin을 사용해서 만든 USB로 부팅을 했다면 잠시 기다리면 바로 USB로 부팅이 됩니다. 시디로 부팅을 하셨다면 엔터만 두번 쳐 주시면 시디로 부팅이 됩니다. 이때 기존의 하드디스크에 있는 내용은 절대 지워지지 않으니 염려 하지 않으셔도 됩니다.

6. 사용하기
부팅이 완료되면 다음과 같은 초기 화면이 나오거나 에러 메세지 박스가 뜨는 경우가 있습니다. 에러메세지 박스의 경우 Delete를 선택하시면 됩니다.

Screenshot

상단에는 홈버튼과 현재 실행중인 프로그램의 목록들이 나타납니다. 화면 왼쪽에는 현재 설치된 프로그램의 목록들이 나타나며, Favorites 메뉴에는 BioSMACK을 실행하기 위한 아이콘들이 있습니다. 첫번째 아이콘인 Launcher for BioSMACK을 실행하면 각 툴들을 실행할 수 있는 런처가 실행됩니다.

Screenshot

이제 각 버튼을 눌러서 해당 프로그램과 매뉴얼을 보시면 됩니다. USB나 시디로 부팅해서 프로그램을 실행하는 경우 디스크 용량 문제나 실행속도가 느립니다. 이때에는 직접 하드디스크에 설치하셔서 사용하시면 됩니다.

BioSMACK에서는 maxius라는 프로그램에 의해서 기본적으로 프로그램을 실행하면 전체화면으로 실행해서 보여주게 되어있습니다. 간혹 자바 프로그램(BioSMACK 런처, Haploview  등)의 경우 프로그램을 실행하면 아무것도 보이지 않은 경우가 있습니다. 이때에는 상단의 메뉴바에 마우스 오른쪽 버튼을 눌러 Unmaximize를 선택하시면 됩니다.

Screenshot-3

7. 설치하기
시디나 USB가 아니라 직접 하드디스크에 설치하시려면 우측의 Desktop을 클릭하신 후  Install을 클릭하셔서 설치를 진행하시면 하드디스크에 설치가 됩니다.

Screenshot3

9. 설치된 프로그램과 예제 데이터

현재 BioSMACK에 설치된 프로그램은 plink, Eigensoft, Haploview, Structure, Metal, R-package가 설치되어 있습니다. 각 프로그램은 /software 폴더에 있으며, 예제 데이터는 /software/example_data에 있습니다.

10. 인터넷 연결하기
무선인터넷에 연결하기 위해서 오른쪽 상단의 WIFI를 선택하면 연결 가능한 무선 AP들이 보입니다. 그럼 그 중 하나를 선택해서 연결하시면 됩니다.

Screenshot-2


Posted by hongiiv

2009/07/30 15:45 2009/07/30 15:45
Response
No Trackback , 6 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/600

SNPedia에서는 자신의 유전정보를 공개한 사람들에 대해서 질병이나 신체적 특징에 대한 정보를 분석해서 보여주는데, 이 정보에 대해서 태그 클라우드를 만들어서 보여주기도 한다. 최근 추가된 컨텐츠로 아직 완벽하진 않다. - Thank you Mike ^^
 
앞선 포스팅들에서도 언급했듯이 내 유전정보는 아직까지는 별다른 특이한 점이 없다. 따라서 좀 시시 한면이 없지 않아 있다. ^^;;

Picture 2
아직 완벽하진 않다는 점을 염두에 두고,,,, B 이건 내 혈액형, approximately asian 아마도 아시아인, 당뇨도 좀 보이고 flush 이건 술먹으면 얼굴이 빨개 지는것. 이렇듯 자신의 유전정보 중에서 신뢰도가 높은 순으로 글자가 크다.  암이나 알츠하이머가 큰 글씨로 떡하니 보인다면 -.-;;

아무튼 다양한 방법으로 유전정보를 보여주려고 노력하는 SNPedia에게 감사를... 일전에 좀 정리좀 해서 보여달라고 했더니 "그럼 니가 해" 라고 말하더니만,,, 이런걸 준비하고 있었구만,,,

Posted by hongiiv

2009/07/30 00:33 2009/07/30 00:33
, ,
Response
No Trackback , 2 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/601

넷북을 위한 우분투 기반의 OS로 넷북 하드웨어에 맞게 커널을 수정하고 메인 인터페이스 또한 그놈을 기반으로 아주 이쁘게 꾸며놨다. 거기에 더해서 Jolicloud 서버와 연동되어 갖가지 클라우드 서비스를 받을 수 있도록 되어있다. 현재 초대 받은 사람들에 한해서 다운로드와 함께 연동 서비스를 받을 수 있다. 하지만 넷북만 사용하기에는 너무 이쁜 인터페이스를 가지고 있기 때문에 한번 맥북에 라이브시디로 부팅을 시켜봤다. 역시나 커널을 왕창 건드르지 않았기에 잘 부팅이 되었다.

Jolicloud
라이브 시디로 맥북에서 부팅된 Jolicloud

Jolicloud
그놈 기반의 멋드러진 메인 인터페이스 - 부팅과 동시에 메인 인터페이스가 작동하기 때문에 바탕화면이란게 없다. - 그놈 데스크탑의 설정을 읽어오기 때문에 자신의 입맛대로 바꿀 수 있다.

Jolicloud
프로그램을 실행하면 사각형안에 Loading이라는 팝업이 뜨면서 실행된다.

Jolicloud
폴더를 열어본 모습

Jolicloud
클라우드 서비스 및 기타 프로그램 설치등의 서비스를 받기 위해서는 로그인이 필요한데, 이부분은 초대를 받아야 하기 때문에,,, ^^;; 모질라 프리즘을 기반으로 돌아가고 있다.

어서 빨리 공개되었으면 하는 바램과 함께  오픈소스로 공개되어 다른 그놈 기반 데스크탑에서도 사용할 수 있도록 해줬으면 좋겠다...는...

Posted by hongiiv

2009/07/23 01:25 2009/07/23 01:25
,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/599

인간과 침팬지 지놈 얼마나 다를까?

좀 오래된 이야기이지만, 96~98% 정도 동일하다고 합니다. 그리고 우리가 흔히 보는 dbSNP의 상단에 보면 Ancestral Allele는 바로 침팬지의 것이라고 합니다. 여기에서 "How does dbSNP determine the ancestral allele of a SNP?" 부분을 보시면 알 수 있습니다.

chimp

University of Nebraska State Museum의 침팬치와 인간의 비교

Posted by hongiiv

2009/07/21 21:01 2009/07/21 21:01
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/598

스티커 나눠 드립니다.

MacBook

BioSMACK(바이오인포매틱스 툴들이 설치된 라이브 시디)을 알리기 위해 제작했던 스티커입니다. 트위터 주소가 적혀진 스티커로 행사때 쓰고도 많이 남았네요 ^^;; 필요하신 분들은 이번주 금요일까지 주소를 비밀댓글로 남겨주시면 우편으로 보내드리겠습니다. 그 옛날 KLDP에서 봉투와 우표를 넣어서 보내주면 리눅스 스티커를 나눠줬던게 생각나네요 ^^

3725080867_28a303a33e_b

Posted by hongiiv

2009/07/21 18:10 2009/07/21 18:10
Response
No Trackback , 7 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/597

개인 유전정보 공유의 위험성

본 글은  ScienceDaily 의 "Risks Of Sharing Personal Genetic Information Online Need More Study, Bioethicists Say"의 내용으로  국립보건연구원 유전체센터 소식지에 번역된 내용이 실린것을 두치정도의 수정을 가하고 올립니다 : )

개인 유전정보 공유의 위험성(사회연결망과 유전정보)
유전자 분석기술의 발달로 399달러와 약간의 타액만 있으면 일반인들도 유방암에서부터 당뇨병에 이르는 각종 질병의 유전적 위험에 대해 알 수 있는 시대가 도래 하였다. 그리고 최근 개인 유전자 분석회사에 의해 설립된 사회연결망 때문에 인터넷 상에서 가족, 친구 심지어 타인의 유전자정보까지도 공유할 수 있는 시대가 되었다.

하지만, 온라인상에서 개개인의 유전 정보를 공유하는 것은 심각한 윤리적 문제를 일으킬 수 있다. 유전정보 활용은 개인 사생활 침해와 개인정보 활용에 대한 동의와 같은 문제들이 복잡하게 얽혀있고 본인뿐만 아니라 가족 및 자손들에게까지 영향을 미칠 수 있기 때문이다. 한 예로, A라는 사람이 유전자 분석을 통해 유방암 위험에 대한 정보를 얻고 분석결과를 다른 사람들과 공유한다면 이는 A의 딸에게 유방암 유전정보 공유에 대한 동의를 구하지 않은 채 딸의 정보까지 타인과 공유하게 되는 셈일 수 있다고 스탠퍼드 의과대학의 생명윤리학자들은 말하였다.  

Network
Network

스탠퍼드대 생명윤리센터의 선임연구원인 Sandra Soo-Jin Lee 박사와 소아과 조교수이자 생명윤리학자인 LaVera Crawley 박사는 온라인상에서 유전정보 공유가 가지는 잠재적 영향력에 대한 공동연구를 진행하고 있다. 유전정보공유의 영향력에 대해 충분히 이해하기 위해서는 누가 유전정보를 제공해주고 있고 또 그것이 어떻게 사용되고 있는지에 대한 데이터가 많이 필요하다고 연구자들은 말한다.

유전자 분석을 원하는 소비자들이 유전정보를 어떻게 해석하고 반응하는지 이해하고 누구와 그 정보를 공유하는지에 대해 알아보기 위하여 인류학 분야와 밀접한 관련이 있는 사회연결망분석(Social Network Analysis)기법을 사용할 예정이다. 사회연결망분석기법은 개개인이 다른 사람들과 어떻게 관계를 형성하고 주변에 있는 특정 단체들이나 사상들과 어떻게 연결되어 있는지를 맵핑하는 시스템이다. 이를 통해 사람들이 유전정보를 기반으로 어떠한 연결고리를 형성해 나갈지에 대해 알아보고자 국립인간유전체연구소(NHGRI)에서 지원을 받아 연구 중에 있다. 이에 대한 내용은 ‘American Journal of Bioethics' 6월 5일자에 특별 이슈로 다루어져 있다.

 DNA 시퀀싱 비용이 떨어짐에 따라, 유전자 검사 산업은 급속도로 팽창하고 있다. 현재, 실리콘밸리에 기반을 둔 가장 큰 회사 두 곳인 23andMe와 Navigenics를 포함하여 전 세계적으로 약 100여개의 기업이 소비자에게 직접 유전자검사 결과를 제공하고 있다. 대부분의 경우, 고객들은 시퀀싱을 위한 DNA 샘플을 우편으로 보내고 원본 데이터와 그들의 유전적 특징을 설명한 내용을 받게 된다. 23andMe를 포함한 일부 회사들은 회사에서 후원하는 사회연결망사이트를 통해 고객 개개인의 유전정보를 공유할 수 있도록 하고 있다. 

아직까지는 온라인에서 유전자 정보를 교환하는 것을 통제할 수 있는 법이 존재하지 않는다. 그러나 유전자 분석이 더 저렴해지고 확산됨에 따라 많은 사람들이 본인의 DNA 코드를 알고자 할 것이고, 이에 따라 소비자들은 본인과 가족들에게 다가올 유전자 정보 공개의 잠재적인 위험을 인지하지 못한 채 유전자 정보를 공유하게 될 수도 있다는 것을 생명윤리전문가들은 우려하고 있다.

23andMe의 과학 고문이며 스탠퍼드대학 유전학과 교수인 Russ Altman 박사는 “오늘날 우리가 해석할 수 없는 유전정보들이 존재하지만 5년 내에는 해석이 가능해질 것”이라고 말하면서 유전자 정보 공개의 위험성을 인식하지 못하는 개인이 자신의 유전자 정보 공개가 특별한 문제를 일으키지 않을 것이라고 생각하여 데이터 공유를 허락할 수 있지만, 훗날 심각한 질병과 연관되어 있는 경우에서는 유전자 정보 공개가 개인생활에 불이익을 가져다 줄 수도 있다고 말하였다. 또한, 그는 본인의 유전정보를 공유하는 것은 걱정하지 않지만, 유전정보 공유를 원하지 않는 가족들에게 예상하지 못한 영향을 미칠 수 있으므로 정보를 타인과 공유하게 되면 본인보다 가족에게 더 큰 위험이 될 수 있다고 말하였다.

유전정보 분석 결과는 분석에 이용되는 유전정보 마커의 수와 그 유형에 달려있으며 데이터베이스가 얼마나 정확하게 분석할 수 있는 능력을 갖추고 있느냐에 영향을 받는다. 유전정보 분석회사들은 고객에게 그들의 유전자 분석결과가 의미하는 바를 충분히 이해시켜야 하며 앞으로 개인 유전정보 취급에 대한 보다 광범위한 논의와 대책마련이 필요할 것이다.

덧글
개인적으로 저는 23andMe에서는 신청하는 모든 사람들과 연결을 형성하고 있는데, 대부분 한국인과 아시아쪽이고, 제 데이터는 SNPedia와 Haplo Group을 연구하는 곳에 공개되어 있는 상황이죠 ^^;; 연구결과가 꽤 흥미롭겠는데요. 번역하고 글쓰는데 수고하신 김연구원양?께 감사를...

Posted by hongiiv

2009/07/15 17:36 2009/07/15 17:36
,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/596

SNPedia Annotation

The World's Top 11 annotated man(2009/06/26 Now ^^)

순위 이름 Annotation 비고
1 NA07022_whole 5906 Whole
2 YanHuang_whole 5495 Whole
3 David Ewing Duncan_pooled 5351 pooled
4 Timothy Richard Gall_pooled 4858 pooled
5 JerryEmanuelson_pooled 4767 pooled
6 Ngnomics_pooled 4756 pooled
7 Kim Seong-jin_whole 4413 Whole
8 Dichro_pooled_2 4328 pooled
9 David Ewing Duncan_23andme 4307 23andMe
10 Dichro_23andme_v2 4297 23andMe_v2
11 Hyungyong Kim_23andme_v2 4193 23andMe_v2

David Duncan라는 사람이 URDB(The Universal Record Database)에 따르면 자신의 유전정보에 대한 어노테이션(Promethase의 분석 결과로 나온 정보)이 전세계적으로 가장 많이 되어 있다고, 즉 자신의 정보를 가장 많이 알 수 있다는 글 을 올렸고, 이에 대해서 대략적인 결론은 SNPedia의 Mike가 더 많은 어노테이션이 된 사람이 있고, 빠르게 급변하는 genomic 영역에서 이런 따위?는 무의미 하다는 글을 남기기도 했다.

SNPedia의 데이터에 따르면 NA07022라는 백인 샘플?이 5,906개의 정보를 가지고 있기 때문에 가장 많다. 그 다음은 양 후안밍(중국) 박사가 5495개로 그 뒤를 따르고 있다. 이 두명은 특정 플랫폼을 사용해서 genotyping을 한것이 아니라 whole 지놈을 분석한 사람이고, 그 뒤를 이어서 Duncan이 5351개로 3위에 있다. Duncan은 위의 두명과는 달리 23andMe, decodeme, navigenics 총 3개의 서비스를 합친 정보에 대한 5351개의 정보를 가지고 있다.

snpedia_02
모든 사람들의 주석처리된 정보 수(from SNPedia Data)

23andme
23andeMe 서비스를 받은 사람들은 평균 3874개의 정보를 지니고 있다.
(23andMe's  average annotation: 3874)

decode
deCODEme 서비스를 받은 사람들은 평균 3187개의 정보를 지니고 있다.
(deCODEme's  average annotation: 3187)

pgp102
PGP10에 참가한 사람들은 평균 1131개의 정보를 지니고 있다.
(PGP10's  average annotation: 1131)

whole
Navigenics 서비스를 받은 사람들은 평균 1439개의 정보를 지니고 있다
Whole Genome 시퀀싱을 한 사람들은 평균 4946개의 정보를 지니고 있다.

(Navigenics's  average annotation: 1439,
Whole genome sequecing average annotation: 4946 )

각 서비스별로 플랫폼이 다르고 플랫폼이 찾아낼 수 있는 SNP의 갯수가 다르기 때문에 어노테이션되는 갯수도 이에 따라 달라지게 된다. 무의미하지만 각각의 서비스를 비교해본다면,

1. Whole genome sequencing : 4946
2. 23andMe: 3874(Illumina 600,000 SNP detection)
3. deCODEme: 3187 (Illumina 1M array?)
4. Navigenics: 1439 (Affymetrix 6.0 array?)
5. PGP10: 1131(??)

내일이면 바뀔지 모르는 데이터입니다. Maybe it will be a changed tomorrow : )

Posted by hongiiv

2009/06/26 16:17 2009/06/26 16:17
, ,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/595

R을 이용한 3차원 PCA plot 그리기

3차원의 scatter plot을 그리기

주성분분석(PCA)에서는 1,2주성분에 대해서 각각 x,y의 2차원상에서 plot을 그려서 보여준다. 그런데 어느 논문에서 각 개체의 1부터 7까지 주성분을 모두([1,2주성분],[3,4주성분],[5,6주성분],[7,8주성분] - 총 4개의 그래프를 죄다 보여주는)보여주는 것을 보고는 저럴 필요가지 있을까라는 생각이 들긴 했지만, 그렇다면 개체의 1,2,3 주성분(x,y,z축으로)을 3차원으로 보여주는 것도 괜찮을 것 같다는 생각이 들었다.

우선 R의 rgl패키지의 plot3d()를 이용할것이므로 rgl 패키지를 설치한다.

>library(rgl)
>data<-read.table("point2.dat",header=TRUE)
>p1=prcomp(data,scale=TRUE)
>p2<-predict(p1)
>plot3d(p2[,1:3])

또는 prcomp() 대신 princomp()를 이용할 경우에는

>p3<-princomp(data,scale=TRUE)
>plot3d(p3$scores[,1:3])

이렇게 그려진 plot은 다음과 같이 OpenGL을 이용하여 그려지게 되고, 마우스 줌과 회전이 가능해진다. 마우스로 적당한 포즈?를 취한 후에는 snapshot()을 이용해서 그림 파일로 저장이 가능하다.

>rgl.snapshot("3dplot.png")

rgl plot3d

그림 파일이 아닌 동영상(움직이는 gif)로 저장하고 싶다면 ImageMagick을 설치한 후 movie3d()를 실행하면 지정된 tmp 폴더에 movie.gif 라는 움직이는 동영상이 저장된다.

>movie3d(spin3d(),duration=20,convert=TRUE)


이건 신모박사님의 데이터를 잠깐 빌려서 그려본 3D PCA plot  ^^;;
Picture 4

Posted by hongiiv

2009/06/25 15:58 2009/06/25 15:58
,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/594

구글 fusion tables - 대용량의 서막

R과 엑셀이 결합해서 수백만 로우의 데이터를 한방에 로드하고 이를 엑셀에서 확인한 후 R을 돌려서 그 결과를 깔끔하게 엑셀의 표나 그래프 형식으로 볼 수 있다면... 이라는 생각을 줄곧 했었는데...

그런데 구글이 이것을 fusion tables라는 이름으로 만들어 버렸다. 지금은 테이블당 100MB로(이것도 무진장 큰 데이터이건만...그래도 모자라 보이는건...-.-;;) 한정되어 있지만 향후 다룰 수 있는 데이터가 점점 커진다면 ^^;;

조만간 생물학 데이터들도 google의 fusion tables을 통해서 전세계 연구자이 협업을 통해 데이터를 완성해 나가고 결국은 이렇게 만들어진 데이터를 가지고 갖가지 분석을 해버리는 날이 오게 될것만 같다...

Google Fusion Tables
해당 셀에 대해서 협업자들끼리 의견을 교환

Google Fusion Tables
지역에 대한 정보가 있는 셀은 이렇게 구글어스 아이콘이 나오고 이를 클릭하면 아래와 같이 해당 지역을 구글맵을 통해서 확인할 수 있다.

Google Fusion Tables

Google Fusion Tables
각 컬럼에 대해서 간단한 계산(sum, min, max값 등등)을 수행하고 그 결과를 지도에 표시해서 보여주기도 한다.

Posted by hongiiv

2009/06/23 21:10 2009/06/23 21:10
,
Response
No Trackback , 2 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/593

PCA(Principal Components Analysis) - Using R

각 라면에 대하여 면발, 라면 그릇의 모양(크기), 국물맛에 대한 점수가 있다고 한다면, 3개의 변수(면, 그릇, 국물)를 가지고 PCA 분석을 해보자.

Picture 2

1. 데이터를 read.table()을 이용해서 로드한다.

Picture 3

2. 이제 각 변수를 표준화하고, 이에 대한 상관행렬을 구한다.

Picture 5

3. EigenValue, EigenVector 값을 구한다. 첫번째 주성분(PC1)의 기여율은 Cumulative Proportion이 0.524 즉, 52%의 기여율을 보인다. 이것은 PC1이 분석대상의 데이터가 가지고 있던 정보가 PC1 주성분에 어느정도 집약 되어 있는지에 대한 대략적인 크기가 된다.

Picture 6

4. 각각에 대한 제1주성분, 제2주성분 점수를 구한다.

Picture 7

5. 제1주성분 점수와 제2주성분 점수를 토대로 그래프 작성

Picture 8

생성된 pdf 파일은 다음과 같다. 결론은 짬뽕, 김치, 쇠고기가 좋은 것으로 묶이고 국물이 역시 좋아야 한다는 결론,, -.-;;

R PCA

Posted by hongiiv

2009/06/23 17:48 2009/06/23 17:48
,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/592

오늘 센터 세미나 시간에 "The first Korean genome sequence and analysis: Full genome sequencing for a socio-ethnic group(김성진 박사의 시퀀싱에 관한 논문)" 의 안성민 교수가 "차세대 시퀀싱 기술을 이용한 인간게놈 시퀀싱의 가능성 및 한계"라는 주제로 발표가 있었습니다.

"Whole Genome Sequencing: How Many SNPs Remain?"에서는 whole-genome 시퀀싱에 따른 SNP에 대한 글을 내놓기도 했는데, 위의 김성진박사의 논문을 포함해서 whole-genome을 한 Europe (2), Africa (1), and Asia (2) 총 5명의 발굴된 SNP을 비교해 놓았다.

The first Korean
그림출처: MassGenomics

위의 그림에서는 SJK(김성진)박사의 SNP은 344만개정도 이고, 그 중 42만개가 dbSNP에는 없는 Novel한 SNP이라고 나와있다.(논문을 토대로 만들어짐)

그런데 문제는 이러한 정보는 논문이 발표되기전에 미리 언론에 나왔었고 이 부분에 대해서는  사회적, 의료적 중요성이 대중에게 중요한 뉴스였기 때문에 먼저 발표한 것이라는 내용이었습니다.

그러나 먼저 언론에 발표한 내용에서는 예측된 SNP이 323만개이며 이중 50%인 160만개가 dbSNP에는 없는 것이라고 나왔습니다. 그러면서 이는 한국인 SNP이 dbSNP에는 대량으로 등록된적이 없어서 그런것이라고 말하고 있습니다.

논문 발표전에는 160만개이던 Novel한 SNP이, 논문에서는 42만개로 확 줄어버린 것입니다. 그럼 논문 발표전에 dbSNP에 등록하고 그중 42만개는 논문에 쓰려고 남겨둔건가?? 논문 게재 안하고 발표한 사연 이라는 기사를 보면 너무 많은 SNP갯수로 인해 BRIC에서 오가던 내용들이 나옵니다. 그래서 오늘 세미나 시간에 이부분에 대해 질문했지만, 답변을 얻을 수는 없었습니다.

혹시 제가 이부분에 대해서 뭔가 잘못알고 있는것인지, 아니면 언론 보도시 분석 결과와 논문 작성시의 결과와의 차이가 있는건지. 그렇다면 언론보도는 뭐고, 논문은 무엇인지 사회적, 의료적으로 궁금한 대중은 혼란스럽기만 합니다. ^^;; 이 부분에서는 뭔가 확실히 해주었으면 하는 바램입니다.

The first Korean

Posted by hongiiv

2009/06/12 15:15 2009/06/12 15:15

« Previous : 1 : 2 : 3 : 4 : 5 : ... 34 : Next »


야후 블로그 벳지


Site Stats

Total hits:
291447
Today:
54
Yesterday:
166