« Previous : 1 : 2 : 3 : 4 : 5 : Next »

PlatformDay 컨퍼런스

구글이 어떻게 수많은 데이터를 저장하고 처리하는지, 과연 이것을 어떻게 생물학의 데이터 처리에 활용할지에 대한 힌트를 얻고자 한다면 여기 PlatformDay 컨퍼런스에서 찾을실 수 있을겁니다. 솔직히 말씀드리면 당장은 자신이 하고 있는 연구에 적용해서 능수능란하게 사용하실 여건은 되지 않을것이지만, 충분한 아이디어는 얻을 수 있을것입니다.

download.blog
PlatformDay (출처 : NEXR 블로그)

다양하고 방대한 생물학 데이터를 여러가지 기계학습(machine learning) 기법을 통해 어떻게 처리해야 하는지에 대해 집단지성 프로그래밍 책을 통해 학습하고, 대량의 데이터의 기계학습을 위한 대용량저장/처리 방법을 PlatformDay에서 아이디어를 얻는다면 참 좋을것 같습니다.(말이 참 매끄럽지 않네,,,^^)

시간: 2008년 5월 30일 금요일 10:00 ~ 18:00 (예정)
장소: 서울대 엔지니어하우스 (310동) 대강당 (101호)
인원: 200명 (추후 선착순으로 등록)
대상: 플랫폼에 관심있는 누구나(대학, 기업, 연구소 등)
비용: 무료
주최: NexR Inc.

참고
2008년도 5월30일 개최될 PlatformDay 행사
2007년도 PlatformDay 행사
PlatformDay를 기억하시나요? 그럼 Web2Hub는??

Posted by hongiiv

2008/04/28 13:12 2008/04/28 13:12
, ,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/391

당신의 실험 데이터가 논병아리에

당신의 소중한 데이터와 결과를 논병아리에 보관하시겠습니까??

논병아리 어미와 새끼
(자료 출처 : http://www.flickr.com/photos/narkosearzt/253071046/)

Bio::Blogs #8 의  Reviews and tips에도 소개되었던 Bioinformatics Zen의 organized as a dry lab scientist의 내용은 요즘 회자되고 있는 Electronic Lab Note나 단순히 야동을 긁어 모으는 사람이나 모두에게 한번 생각해 볼 문제이다. 누구나 다 자신만의 방법으로 폴더나 파일을 만들고 데이터를 저장하는데 있어 어떠한 것이 최선이고 모범답안이라고 할 수는 없겠지만, 이러한 것들이 유용함에도 불구하고 논병아리에 아무 의미있는 Noname1, Noname2라는 이름으로 데이터가 들어있지는 않은지,,나 역시 파일찾기를 한다면 Noname의 접두사를 가진 파일이 꽤 나올터,,,, 그림들만 죽 보시면 이해가 가실겁니다. 무슨 이야기를 할려고 하는지.

논병아리
논병아리와 그의 친구들
(자료 출처: 내컴퓨터 바탕화면)

문서 형태의 산출물을 위한 디렉토리 예제
깔끔하게 정리된 폴더

파일 이름에 의미를 부여하고,

K-20080415-390738

구조적인 폴더로 정리

K-20080415-390883

의미있는 파일과 폴더명, 그리고 구조적인 폴더를 통한 나의 자료관리는 필수이지 않을까 싶다. 알고 있으면서 행하지 못하는 내 자신에 강한 채찍질을 하기 위해 포스팅합니다. 뭐 자신만의 데이터 관리 팁을 가지고 계신다면 저에게 살짝쿵~~ :)


Posted by hongiiv

2008/04/15 10:36 2008/04/15 10:36
,
Response
A trackback , 5 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/379

아침마다 하는 일이지만,,, 바쁘면 살짝 빼먹기도 하지만,, BioBlogRSS에 최신글들의 제목을 보다가 Life Science Virtual Conference and Expo 라는 제목의 글을 보고 바로 클릭 요즘 V로 시작하는 단어(Virtual, Visual)만 보면 나도 모르게 마우스가 스르륵,,,

IBM의 Deep Computing에서 주최하는 컨퍼런스(Life Sciences Virtual Conference and Expo)인데 재미있는 것이 Location: Virtual 입니다. 단순한 웹 세미나가 아니라는군요 전시 부스도 있고 ㅋㅋㅋ Agenda를 보니 꽤 재미있는 세션이 많이 있네요^^ 바로 등록 신청했습니다. IBM의 Deep Computing(슈퍼컴 파는곳??)에서 주최하는 것이라 이런류의 세션이 많이 있네요.
  • Translational Biomedical Research and the Cancer Biomedical Informatics Grid
  • Real-Time Medical Imaging Using Parallel Computing Architectures
  • Parallel Sequence Search with mpiBLAST
시간되시면 같이 컨퍼런스에 참가해요 ^^ 등록 신청하면 컨퍼런스를 들을 수 있는 환경인지 체크하고, 메일로 알려준답니다.

check


Posted by hongiiv

2008/04/15 09:49 2008/04/15 09:49
,
Response
A trackback , 7 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/378

bioblog

생긴것은 위의 그림처럼 바뀌었습니다. 최근글의 경우에는 RSS를 읽어와서 간단하게 표시해 줄 수 있기 때문에 인기글에 대한 정보를 제공해 주고 있습니다.

그럼 인기글의 선정은 어떠한 방식으로 되는 걸까요? 인기글은 우선 로그인하지 않은 상태에서도 추천, 반대 기능을 사용이 가능합니다. 따라서 아무나 들어와서 '좋아' 버튼을 그냥 아무 부담없이 꾹 눌러 주시면 됩니다. 그리고 인기글 선정은 다음과 같은 아주 복잡한 과정을 거쳐서 선정됩니다.

추천한 사람이 많고 작성된지 48시간 이내인 글에 대해서 인기글이 선정되며, 7일 지난 글에 대해서는 호감도를 계산하지 않습니다.

아주 복잡하죠 ^^;; 그럼 자신의 블로그나 웹페이지 어떻게 삽입하냐? 코드 생성 위자드 같은걸 만들 수도 있지만, 아직은 베타 버전이기 때문에,, 다음의 코드를 그냥 보여주고 싶은 부분에 삽입만 하면 간단하게 끝납니다.

<script type="text/javascript" id="bioblogrss_widget" src="http://www.hongiiv.com/bioblogrss/bioblog.js?width=160&height=300">
</script>


width와 height는 자신이 원하는 적당한 크기로 조절해서 사용하시면 되겠습니다. 기타 잘 작동하지 않거나,, 개선 사항이 있으시면 아시죠 ^^;;


Posted by hongiiv

2008/04/11 09:30 2008/04/11 09:30
, ,
Response
No Trackback , 4 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/374

바이오인포매틱스 분야에서도 많은 부분에서 컴퓨팅 파워를 필요로 하지만, 그 중에서도 대표적인 부분은 genome comparison과 alignment 일것이다. 이러한 대용량 컴퓨팅 파워에서 그래픽 카드의 비약적인 발전으로 GPU의 그래픽 이외의 계산에 응용되기 시작했다. 그런데 여기서 한가지 짚고 넘어가야 할 것이 있다.

슈퍼컴퓨팅 분야에서 클러스터를 이용한 방법은 비교적 값싼 하드웨어를 통해서 높은 성능을 얻을 수 있다는 장점으로 많이 사용되고 있다. 그러나 각 컴퓨터에 분산된 메모리에 접근해서 사용하기 위해서는 MPI와 같은 라이브러리를 이용해서 병렬 프로그래밍을 해야만 한다. 그래야 분산된 메모리를 마치 하나의 메모리처럼 사용하여 프로그래밍을 할 수 있다. 마찬가지로 GPU의 성능이 아무리 뛰어나더라도 좀 더 좋은 성능을 얻기 위해서는 GPU를 장착한 컴퓨터들을 클러스터링 하는 방법이 사용되어져야 한다는 것이다.

따라서 프로그래머는 GPU의 병렬 프로그래밍 + MPI 병렬 프로그래밍의 이중적인 작업을 해야한다는 것이다. 이건 가뜩이나 MPI 프로그래밍을 통한 병렬화도 버거운 상황에서 GPU 병렬화 프로그래밍까지 섭렵해야 한다는 것이다. 이 둘을 적절하게 병렬화 한다는 것은 그리 쉽지만은 않을 것이다.

국내의 바이오인포매틱스를 연구하는 곳에서 이러한 고급의 병렬 프로그래밍을 통해 알고리즘을 만들어 구현해서 사용할 곳이 얼마나 있을까? 논문을 보더라도 바이오인포매틱스 분야에서 병렬화나 고속화에 관련한 국내의 논문들이 거의 전무한것에 반해 외국에서는 이러한 연구가 꾸준히 지속되고 있다는점은 참 부러운 일이다.

그렇다고 가만히 있을 수 만은 없지 않은가? 여기에서 GPU의 여러가지 자료를 분석해서 얼마나 우리에게 유용할지에 대한 해답을 한번 찾아 보려고 한다. 먼저 GPU와 CPU의 성능을 비교한 자료이다.

CPU vs. GPU
GPU vs. CPU(좀 오래된 2007년이 빠진,,, 출처 http://www.cs.uaf.edu/2007/fall/cs441/proj1notes/favier/)

대략 GPU는 200~400Gflops의 성능을 내고있다.(언뜻 보니까 1TFlops의 GPU 이야기도 나오던데,,뭐~) 이것은 이론성능일 테고 실제 성능은 이론성능의 약 50%정도 낸다고 가정하면(너무 많은가 ^^)  GPU 한개 즉 그래픽 카드 한개가 약 150Gflops의 성능을 낼 수 있는 것이다. 이것은 우리 센터의 94노드 클러스터가 612Gflops를 내는 것에 비하면 그래픽 카드 약 5개면 즉 PC 5대면 많아야 10대 정도면(노드간의 통신 지연, 네트워크 지연 등등을 고려한다면) 즉, 천만원 정도면(서버 한대값 정도도 안되는 가격으로) 엄청 비싸게 구축한 우리 센터의 94노드 클러스터와 맞먹게 된다는 소리가 된다.

물론 이것저것 고려해야 할 것들이 많이 있겠지만, 단순하게 생각해 본다면 말이다 ^^;; 물론 앞서서 언급한 병렬 프로그램이 지원해줘야 하는것이지만,, 가격이 싸진다면야 많은 활용이 가능해 지고, 그에 따라 많은 인력들과 응용들이 지속적으로 생겨나고, 이것에 흥미를 가지는 사람들도 많아지고 그러겠지....그러면 당연히 바이오인포매틱스 관련 슈퍼컴퓨팅 분야에서 우리나라의 입지가 점차 좋아지겠지. ^^

그나저나 GPU의 병렬 프로그래밍 + MPI 프로그래밍의 이중적인 작업이 GPU 기반 클러스터에서 사용되야 하는거 맞는거죠?? 맞는건가??


Posted by hongiiv

2008/03/27 18:54 2008/03/27 18:54
, , , ,
Response
No Trackback , 4 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/363

생물정보학에서의 서열 유사성 검색의 중요성은 굳이 설명하지 않아도 다들 이해하시리라 믿는다. 여기서는 String Match라는 관점에서 서열 데이터(text)로 부터 주어진 서열 찾는 Suffix Tree 알고리즘과 이 알고리즘을 GPU를 통해서 구현하는 방법에 대해서 알아보고자 한다.

GPU(Graphics Processing Unit)는 무엇인가?
간단하게 말하면 컴퓨터에 있는 그래픽 카드의 CPU라고 생각하면 될것이다. 요즘 게임들은 3D와 실사와 정말 유사한 화면을 제공하는데, 이러한 것들을 CPU가 아닌 그래픽 카드의 GPU에서 처리하게 함으로써 좀 더 빠르게 게임을 할 수 있는 환경을 제공하는 것이다. 그런데 이 GPU의 아키텍처의 특성상 이것만 하기에는 너무 아깝기 때문에 범용적인 수치연산과 응용계산에서도 사용할 수 있도록 한 것이 바로 GPGPU(범용계산GPU, General-Purpose computation on GPUs)가 되겠다.

geforce_8800_gtx
Geforce 8800 GTS

이것에서 좀더 발전해서 GPGPU를 통해서 일반적인 응용계산을 수행할 수 있는 프로그래밍을 할 수 있는 프레임워크가 바로 CUDA(Compute Unified Device Architecture)인 것이다. 단순하게 말해서 프로그래머는 엔비디아 그래픽 카드를 컴퓨터에 장착하고 CUDA를 설치한 후 C언어로 부동소수점 연산을 많이 하는 프로그래밍을 하면 엄청난 속도 향상을 얻을 수 있는 것이다.

gpu_architecture
Geforce 8800 Architecture - 중간의 녹색은 스트림 프로세서가 16개가 한개의 그룹으로 되어있다.

cuda_07


GPGPU와 CUDA에서의 병렬 처리

앞서도 잠깐 언급했지만, GPU는 그래픽 처리를 위한 것으로 범용적인 용도로 사용하기에 무리가 있기 때문에 GPGPU라는 범용의 GPU가 탄생하기에 이르렀고, 엔비디아는 이러한 GPU의 스트림 프로세서를 활용하여 그래픽 처리 뿐만 아니라 쓰레드 단위의 병렬 처리가 가능한 CUDA에 이르게 된것이다.

cuda_08
CUDA를 이용한 각 분야의 속도 향상(일반 CPU와 비교했을 경우)

CUDA는 메모리와 ALU 사이의 Parallel Data Cache를 통해서 데이터를 여러개의 ALU에서 사용함으로서 쓰레드 단위의 병렬처리를 수행하게 된다. 이를 통해서 데스크탑이나 노트북을 가지고도 슈퍼컴퓨터에 맞먹는 컴퓨팅 파워를 제공할 수 있는 시대가 다가오고 있다. 이미 엔비디아에서는 여러 분야에서의 활용 사례를 통해 그 성능을 입증하고 있다. 이제 기상관측, 물리 연산, 바이오인포매틱스 등 다양한 분야(물론 슈퍼컴퓨터가 필요한 모든 분야)에서 CPU에 비해 몇백배 빠른 연산 처리가 가능해지고 있다. 물론 데스크탑 하나로도 ^^;;

cuda_06
CUDA에서의 병렬처리

Bioinformatics에서의 활용
적어도 연구비가 부족한(?) 대학의 연구실이나 개인들이 비교적 저렴한 비용으로 슈퍼컴퓨터의 성능에는 미치지 않겠지만, 비교적 만족스러울 만한 성능을 얻을 수 있는 길이 열리게 된 것이다. 물론 기존의 MPI와 같은 복잡한? 과정보다 비교적 널리 사용될? CUDA 환경을 이용할 수 있게 되는것 또한 무시 못할 것이다.(아무리 성능도 좋다 하더라도 그 사용자 층에 얇다면 성능이 좀 떨어지더라도 사용자 층이 두터운 것이 향후 개발이나 문제에 무딪혔을때 여러모로 유용한 것은 당연한 일이다) 따라서 CUDA 환경은 이러한 여러가지 잇점을 태생적으로 타고 태어났으며, 그 반향은 향후 병렬 컴퓨팅에 많은 도움을 줄 것이라고 믿는다.

그럼 리눅스 클러스터나 슈퍼컴퓨터를 사용하기 어려운 Bioinformatics 관련 연구소나 대학의 일차적인 컴퓨팅 파워는 비교적 값싼 CUDA 환경으로 해결됐다. 이제 남은건 실제 이를 활용한 병렬 프로그램이 되겠다. 그럼 여기서는 Suffix Tree를 이용해서 서열의 유사성 검색에 활용해 보도록 하자.

Suffix Tree 알고리즘(문자열 매칭 알고리즘)을 통한 서열 매칭

Suffix Tree는 문자열 매칭에서 유용한 알고리즘으로 주어진 문자 S에 대해서 모든 suffix를 가지고 있는 트리를 생성해서 검색하는 방법이다.

suffixtree
Suffix Tree

이제 "ATA"를 찾아보면, 다음과 같다 Suffix Tree는 O(n2)의 복잡도를 가진다.

search
Suffix Tree Search

CDUA로 구현하는 서열 검색
이제 Suffix Tree를 CUDA를 통해 병렬처리 할 수 있도록 하면, 앞서 nvida에서 말한 47배의 속도 향상이 있겠죠 ^^;; 이 부분은 아직 CUDA에 대해서 공부 좀 하고 어느 부분에서 병렬화 처리가 가능한지,,, 어떻게 구현해야 하는지 차근 차근 포스팅 해야겠습니다.


Posted by hongiiv

2008/03/26 10:17 2008/03/26 10:17
, , ,
Response
No Trackback , 6 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/359

사단법인 분자설계연구소(연세대학교내)에서 "Virtual Laboratory based on GRID Technology workshop"에 다녀왔습니다.

아침에 7720번 버스를 타고 연세대학교로 향하는 길은 출근을 하지 않는다는 것만으로도 ㅋㅋㅋ^^ 더 잊기전에 기억에 남는 세션만 간략하게 정리해봅니다. 미투데이에 간략하게 남기다가,, 인터넷 사정이 별로 좋지 않아서 그만두고 메모 남기기를 포기했습니다. ㅋㄷㅋㄷ

IMG_0751
Large Scale Computing for Bioinformatics
Yutaka Akiyama, Tokyo Institute of Technology, Japan

기억에 남는건 GPU(graphics processing unit)에 SSD까지 이용해서 클러스터를 구축해서 높은 성능 향상을 얻었다는 내용이었다. 이전에 nvidia에서 GPU를 이용하는 병렬 컴퓨팅환경에 관련한 뉴스를 본적도 있고, 가끔 논문에서도 GPU를 이용해서 뭔가 했다는 내용을 본적이 있어서 그냥 그려려니 했건만,,, 이제 대세인가?? GPU를 이용할 수 있는 C 라이브러리인 CUDA에 관련한 홈페이지를 오늘 찾았다. 이제 CUDA를 이용한 프로그래밍까지... 음 한번 적용해 봐야할것 같다.(할일이 생겼다 ^^)

IMG_0750
Grid Workflow-Integrated Computing Architecture and Its Application for Advanced Healthcare Services
Chan-Hyun Yoon, Information and Communications University, Korea

원래는 워크플로우에 대해서 많은 내용을 언급할 줄 알고 잔뜩 기대했건만, 거의 PACS(의료에 사용되는 영상정보)에 관한 내용이어서 좀 실망했다. 전체적으로 Healthcare에 대한 내용이었다.

IMG_0770
OBIGrid: Operating Experiences of a Distributed Platform for Bioinformatics
Fumikazu Konishi, Tokyo Institute of Technology, Japan

일본의 Open Bioinformatics Grid에 관련된 내용으로 가장 흥미로운 세션이었다. 가장 잼있었던, 의약업체, IT 기업, 통신사, 연구소, 대학들을 묶어서 Grid를 구축하여 운영하는 OBIGrid에 대한 내용이었다. 서로의 이익을 위해서 뭉치기 힘들것 같은데,, 말씀하시기로는 뭐 보안, 협업 환경, 분산되고 heterogeneous한 리소스 이야기를 하셨다. 나중에 컴퓨팅자원을 조금이라도 보태면 OBIGrid에 합류할 수 있다는 이야기와 이것저것 혼자 생각해보니,,, 뭐 한번 뭉쳤다는데에 의의가 있지,, 그 이상의 시너지는 글쎄... 잘 모르겠다.(내가 잘못 생각할 수도 있다) 한참 재미있었는데,,, 사진에 보면 바로 앞에 뒷모습이 보이시는 아키야마 교수님의 한마디에 잼있는 부분이 휙휙 지나가 버렸다. ㅜㅜ

전체적으로 한중일의 연구자들이 모여서 이런저런 이야기를 나눌 수 있는 아주 좋은 장이 된것같지만,, 외부 사람으로서 느끼는 이 왠지 모를 어정쩡한 느낌은...

마지막으로 행사 진행하시느라 너무 바쁘셨던 김한조 박사님박박사님의 주선으로 짧게나마 좋은 대화를 나눌 수 있어서 좋았다. 암튼 간만에 재미난 워크샵하나 들었다.

IMG_0771
마지막으로 멋진 강의실 모습


Posted by hongiiv

2008/03/24 23:58 2008/03/24 23:58
, ,
Response
No Trackback , 4 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/358

BioBlogRSS 서비스가 이렇게 바뀌었습니다.

기존의 Bioinformatics 관련 블로거들의 글들을 수집해서 보여주던 BioBlogRSS는 DB를 사용하고 있지 않아서 좀 느리고, 제목과 해당 블로그로 갈 수 있는 링크만을 제공했었죠,, 그나마 레몬펜을 통해서 블로그 글에 대한 자신의 의견이나 블로그의 내용등을 이용자가 직접 작성할 수 있도록 만든 메타 블로그 사이트였습니다.

bioblogrss_old
기존의 BioBlogRSS (http://www.hongiiv.com/bioblogrss_/bioblog.html) 링크는 살려두었습니다. ^^

이번에 공개된 설치형 메타 블로그 인 날개(Wing)으로 바꾸고 약간의 스킨변경과 레몬펜을 달았습니다. 제자신이 생각하기에 기존에는 레몬펜의 역할을 많이 기대했는데,, 그냥 일반적인 메타 블로그 형태가 더 나을것 같다는 생각에 바꿔 봤습니다. ^^;;

bioblogrss_new

여러가지 기능들을 제공하고 있는데,, BioBlogRSS에 맞도록 지속적으로 업그레이드 해야겠습니다. 가장 큰 기능적 특징은 등록된 블로그에서 원하는 글만 가져올 수 있습니다. 따라서 Bioinformatics와 관련이 없는 글은 과감히 배제하는 방향으로 하려고 합니다. 많은 호응 부탁드립니다.


Posted by hongiiv

2008/03/21 11:25 2008/03/21 11:25
, ,
Response
No Trackback , 6 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/355

생명 과학 분야에서 그리드를 이용한(e-Science라고 불러도 되겠죠 ^_^) 본격적인 응용이 개발되고 있습니다. 이전까지 기반 기술에 대한 연구가 어느 정도 된 상태이기 때문에 이젠 본격적으로 이러한 그리드 기반 기술을 이용한 다양한 응용이 이루어지는 원년이라고 봐도 될것같습니다. 이제 몇년 후에는 신기술이 아니라, 우리가 인터넷으로 메일을 보내는 것처럼 자신의 분야에 맞는 그리드를 이용한 연구가 자연스러워질 거라고 확신하고 있습니다.

지금까지 제가 알아 본 생명 과학 분야의 그리드 응용은 다음과 같습니다.
  • KISTI의 e-Science 사업단(http://escience.or.kr/ , 단장 변옥환)의 응용연구팀에서 "BT/NT분야 응용연구"를 수행 중
  • 대전 한국정보통신대학교의 ITRC Grid Middleware Center (http://gmc.icu.ac.kr/html2007/main.php 센터장 윤창현)에서 "시맨틱 그리드 기반 생물정보학 응용 기술 개발" 프로젝트를 진행 중
  • 숙명여대의 컴퓨터과학과(김윤희 교수님연구실 http://dslab.sookmyung.ac.kr/)에서도 "An e-Science Environment for BT Application Components" 프로젝트를 진행 중
  • 숭실대학교의 HG2C 프로젝트는 "그리드에 기반한 신약 후보물질의 독성예측시스템(HG2C)" 프로젝트를 이미 수행
이정도 입니다. 뭐 Biopipe니 Bioworks는 단순한 workflow이기 때문에 넣지 않습니다. BMC Bioinformatics의 2006년도 Review 논문에 생명 과학에서의 그리드 트랜드라는 아주 유용한 내용이 있어서 정리하고자 합니다. 마땅히 저녁에 할 일도 없고, 뭐~ 특별히 어려운 주제도 아니기 때문에 참고 삼아 한번 읽어보시면 향후 다가올 연구 환경에 도움에 되겠죠 ^^
 
저자는 그리드 컴퓨팅을 3가지 영역으로 나누어서 각 영역에 대해서 설명하고 있는데요. 각각의 영역은 다음과 같습니다.
  • Computing 그리드
  • Data 그리드
  • Knowledge 그리드
Computing 그리드
High-throughput 컴퓨팅 관점에서의 그리드입니다. 뭐 듣자면 귀에 딱지가 앉을 정도로 들어본 내용입니다. 데이터가 크기가 커지면서 그에 따른 대용량 데이터를 처리하기 위한 컴퓨팅 능력을 얻기 위한 그리드가 되겠다.

이러한 High-throughput 컴퓨팅은 생명 과학 분야에서Numberical 처리와 Symbolic 처리로 나누어 볼 수 있는데, Numberical 처리는 단백질 folding, metabolic pathway와 같이 문제를 해결하기 위한 parameter sweep(입력값을 변화시켜가면서..)이나 stochastic 모델링과 같은 기술이 사용되는 분야이다. 이에 반해 Symbolic 처리는 상동성 검색, Genome 비교, Genome-wide 스캔 분석과 같은 시간이 많이 소요되는 분야이다.

고등과학원 이주영 교수님이 하시는 계산적 방법으로 단백질 구조를 예측하는 연구에 필요한 고속처리 컴퓨팅은 Numberical 처리가 되겠고, 대량의 Blast를 돌리는 작업은 Symbolic 처리가 되겠다. ^^

Data 그리드
우리가 사용하는 유전자 DB나 Blast와 같은 도구들은 그 접근에 있어서 변화가 심하면 안된다. 바로 자동화된 처리가 어려워지기 때문이다. 따라서 이러한 생명 과학 분야의 DB와 도구들에 접근하기 위한 표준적인 방법이 있어야 하고 이러한 표준 접근 방식을 기반으로 웹 서비스나 워크플로우 도구(Biopipe, Bioworks, Taverna 등등)를 통해서 이러한 자원에 접근하고 자동화된 처리가 가능해 진다.

Data 그리드는 바로 이분에 대한 내용으로 바이오인포매틱스 서비스를 연동하기 위한 표준과 이 표준을 기반으로 웹이나 그리드 서비스를 최종사용자가 워크플로우 도구를 통해 사용할 수 있도록 하는것이다.

여기서 또한 중요한 것이 바로 안전한 데이터 접근이 되겠다. 우리가 흔히 인터넷 뱅킹에서 사용하는 인증서와 같이 PKI기반하에서 그리드 데이터나 로컬의 데이터베이스 자원을 안전하게 사용하는 부분도 바로 Data 그리드가 담당하는 부분인 것이다.

Knowledge 그리드
바로 웹 2.0의 공유,협업을 통한 지식창출 부분이 되겠다. 더 이상 무슨 말이 필요할까???

이상 생명과학 분야의 그리드 컴퓨팅을 3부분으로 나누어 간단하게 살펴봤다. 이러한 각각의 부분으로 나누어 생각하는것도 중요하고, 각 부분부분 모두 중요하지만, 정작 중요한 것은 최종 사용자인 연구자들이 거부감 없이 이를 받아들일 수 있을 때 까지의 꾸준한 노력이 더 필요한 부분이라고 생각한다. 바로 홍보/교육 그리드가 필요한 ^^;; 근데 아직 아무것도 눈에 보이는것이 없는데,, 무슨 홍보/교육 ㅋㅋㅋ

참고로 e-Science관련 워크샵과 포럼입니다.

3월 24~25일 사단법인 분자설계연구소(연세대학교내)에서 "Virtual Laboratory based on GRID Technology workshop"
주요 프로그램
Large Scale Computing for Bioinformatics - Yutaka Akiyama, Tokyo Institute of Technology, Japan
Grid Workflow-Integrated Computing Architecture and Its Application for Advanced Healthcare Services - Chan-Hyun Yoon, Information and Communications University, Korea
OBIGrid: Operating Experiences of a Distributed Platform for Bioinformatics - Fumikazu Konishi, Tokyo Institute of Technology, Japan
HG2C Project and its IT support in e-Science Environments - Jaeyoung Choi, Soongsil University, Korea

3월 27일 KISTI의 e-Sciecne 포럼에서 주최(한국과학재단 학연산 교류동 2층 대회의실)하는 "2008 e-Science 설명회"가 있습니다.
주요 프로그램
e-Science 란 무엇인가? - 정갑주 건국대학교 교수
국내외 e-Science 동향 - 변옥환 한국과학기술정보연구원 단장
e-Science 활용사례 - 김종암 서울대학교 교수


Posted by hongiiv

2008/03/19 21:25 2008/03/19 21:25

유전체 연구에서의 e-Science

escience

대용량 데이터(개방된 혹은 철저히 베일에 가린)와 이를 분석하고 시뮬레이션할 수 있는 계산 능력
꺼리낌 없이 자연스러운 협업(참여)기반의 연구 개발 패러다임
타 연구 분야간 융합을 통한(창발성에 대한 대안?? 모든 문제에 대한 대안은 되겠지 ^^;;) 문제 해결 방안 모색 및 문제 해결
이 모든것을 해결함으로서 막대한 시너지 창출(집단 지성의 표출)

이것은 지금 현재 생물학뿐만 아니라 모든 과학 분야에 해당될 것이다. 이것을 해결하고자 하는 솔루션이 현재 회자되고 있는 e-Science, Science 2.0이 아닐까? 생각한다.

Posted by hongiiv

2008/03/12 16:02 2008/03/12 16:02
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/339

Engineers hate complexity - Bio:Blog #19

Bio:Blog를 접하고 나서 오! 이런 짓거리를 다하다니,,, 정말 놀라울 따름이었다. 국내에서도 이런 시도를 할 수 있을까? 라는 생각에 혼자서 국내에 관련 블로거들을 검색엔진으로 온갖 키워드를 넣어가면서 검색하다가 비누인형님의 블로그도 알게 되었고(나와 같은 것?에 흥미를 가지고 있는 사람이 있다는것이 이렇게 기쁠 수가!!), 그 초석을 다지고자 하는 마음으로 BioBlogRss라는 서비스도 만들고 레몬펜도 껴 넣으면서 나름 짝퉁 Bio::Blog를 만들어보고자 했다.

조엘의 Joel on Software 라는 책에서 읽었던가?? 누군가 알아주기를 바라서가 아니라,,, 너의 뜻에 동참하지 않는다고 하더라도 너 혼자서라도 꾸준히 하라는(책에는 뭐라 써있었는지 기억은 확실치 않지만, 지금 내 머리속에 각인된 내용은) 이걸 보고 혼자서 우리팀이 사용할 Blog, wiki, trac을 적절히 배치한 나름 엔터프라이즈 포털(?)을 만들어 놓고 혼자 열심히 써보기도 했던... 이이야기는 왜하는지...(^________^)

어김없이 Bio::Blog 19번째 내용은 나왔고 앞서 비누인형님의 간단한? 요약과 의견을 읽었던 터라. 비누인형님의 "대부분의 포스트들은 Abstraction 을 하는데 있어 필요한 정보들이 어떻게 Handling 되어야 하는지에 대한 것이지"라는 대목과 복잡한거 싫고 간결함이 좋아라는 대목을 가슴속 깊게 새겨놓고 나름 한번 쭉 둘러 보았다.

ㅋㄷㅋㄷ 처음에는 창발성 운운하고 거창하게 나갔지만, 결론은 이번 주제대로 Enginnering이닷!! 이미 언급된 많은 블로그의 글들은 이미 BioBlogRss에도 얼굴을 내비췄던 터라. 혼자 보면서 엥~이글들이 요번 에디션에 포함됐네,,,라는 반가움 마음마저 들게 했다.

커다란 데이터를 html을 통해서 간단하게 보여주는 - On The Visualization Of Huge Chunks Of Data, 워크플로우(tarverna와 같은)의 이점에 대해서 다시 한번 생각케 하는 - Can every workflow be automated?, 바이오인포매틱스 코드 작성시 유용한 - BioRuby and Ruby on Rails: Active BioRecords와 같은 엔지니어링 부분은 지금 상황에(Genome Browser ^^) 밑거름이 되어줄 주옥같은 글이기에 나름 이번 Bio::Blog 에디션은 유용하다고 생각되었다.

국내 블로거의 이름도 머지않아 Bio::Blog에서 보는 날이 곧 오지 않을까?라는 생각을 하면서 시간이 되면, 이번 에디션의 글들에 대해서 자세한 포스팅을 해야겠다라는 마음을 먹었는데... 이리저리 돌아다니다, "Bioinformatics process management : information flowvia a computational journal"이라는 요상한 논문을 보고 말았다. 모든것을 접어두고 이 요상한 놈을 봐야겠다.


Posted by hongiiv

2008/03/11 11:05 2008/03/11 11:05
Response
No Trackback , 2 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/337

Genome Browser 진행상황 및 근황

요즘 일할 맛이 하나도 나지 않고 온통 이상한 일들만 일어나고 있다. 물론 나자신에게도 아무런 문제가 없다고는 할 수 없지만,,, 사회라는 것이 자신의 밥그릇을 챙기지 않는다면, 그 누구도 대신 챙겨주지 않는다고 했던가!! ㅜㅜ 고로 내 밥그릇 하나 못챙기는 나는 사회 부적응자!!! <-무릎팍 말투로

암튼 신세 한탄은 여기서 마무리하고 말하자면야 끝이 없을꺼 같다. 본론은 원래 없지만,, 본론으로 들어가서 Genome Browser는 현재 원하는 기능이 모두 구현되었음에도 불구하고 아직 베타 버전 조차 나오지 않고 있다. 이거 손대야 하는데,,, 손 놓고 있다. 주말동안에 혼자 방에서 뒹구르르 구르면서 css와 javascript쪽에 튜닝작업(? 코드 줄맞추기 정도^^)을 마쳤다.

이제 본격적으로 작업에 들어가야 하는데,,, 영 신이 나질 않으니 이거 도대체 나 자신에게 넌 도대체 뭐하는 놈이냐 라는 말이 절로 나오게 만든다... 고로 오늘 밤샌다...

Posted by hongiiv

2008/03/10 16:34 2008/03/10 16:34
, , , ,
Response
No Trackback , 2 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/333

mash-ups to science - mix, match, mutate

IMG_0669

Posted by hongiiv

2008/03/05 16:00 2008/03/05 16:00
,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/330

생물학 분야만큼이나 공개된 데이터가 많은 과학분야가 또 있을까?? 기존에는 연구소나 정부기관들이 컨소시엄등을 구성하여 연구한 데이터를 공개하는 경우가 대부분이었다. 여기서 더불어 단지 공개만 하는것이 아니라,, 다른 연구자들이 이를 손쉽게 가져가서 사용할 수 있도록 Open API(거의 대부분이 웹서비스방식이며, DDBJ에서 REST 방식으로 최근 정보를 제공)를 제공하고 있는 추세이다.

지난 포스팅들에서 이러한 공개된 데이터를 가져다 사용하는 방법에 대해서 여러번 언급했으므로 패스,, 그런데 이러한 데이터의 공개는 이제 일반 회사에서도 이루어지고 있다. 특히나 일반 회사들이 이러한 공개를 한다는 것은 정말이지 쉽지 만은 않은 일이었을거다. Forbes지에 Biology Gose Open Source라는 글을 보면 제약회사들도 자신들의 데이터를 공개하고 있다는것이다. 이것을 Open Source라고 표현한 것이 좀 재미있다. 데이터의 공개를 통해 향후 좀더 나은 결과를 가져온다는것은 이미 IT 업계에서는 이미 당연하게 생각하고 있는 추세이기도 하다. 얼마전 선마이크로시스템즈에서 Java나 스토리지관리소프트웨어를 Open한것만 보아도 알 수 있다.

오늘은 Genome Browser를 만들면서 여기에 다른 곳의 유용한 데이터를 어떻게 스며들게 할지에 대해서 고민하다가 programmableweb의 Medical 디렉토리에 들어가봤더니 Kegg를 비롯한 5개의 서비스들이 등록되어 있었다. 단지 데이터만을 공개한 곳은 이것보다 많지만, 체계적으로 API를 제공하는 곳은 아직 그리 많지는 않다. 그렇다면 데이터를 몽땅 가져와서 나름대로 파싱해서 사용해야하는 노가다(?)를 할 수 밖엔 없는 상황인것이다. 생물학 분야에서도 많은 API들이 나와서 연구자들이나 새로운 서비스를 만드는 사람들에게 좀 더 많은 기회를 주어야 할텐데...

medicalopenapi

국내에는 어디 없나~~~!!!!!!!!!!!!!!!!!!!

Posted by hongiiv

2008/03/04 21:38 2008/03/04 21:38
,
Response
No Trackback , 2 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/329

K-20080304-035877
끄적거리고 있는 놈 ^^

점점 기능을 추가하다가 보니 우째 생긴게 점점 닮아가냐~~ 원래 벤치마킹한것이 X:Map이지만,,, 이건 완전히 생긴게...     
 
K-20080304-370570
X:Map


Posted by hongiiv

2008/03/04 10:17 2008/03/04 10:17
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/328

Genome Browser - 미흡한 기능들 추가

데이터베이스에서 정보를 읽어와 그림파일(Google Map의 Tile)로 저장하는 기능은 완료된 상태이다. 이제부터는 자신이 원하는 정보를 보여주기 위한 세세한 기능들을 추가하는 기능을 하나씩 만들어 가고 있다. 여기서 잠깐 기본적으로 미흡하나마 지금까지 추가된 기능들을 하나씩 소개하는 시간을 가지도록 하겠다. ^^

주메뉴 살펴보기


menu
주메뉴의 모습

View Data by Chromosome
Genome Browser는 chromosome 하나씩 보여줄 수 있기 때문에 자신이 원하는 chromosome을 Select Box를 통해서 선택할 수 있다. 또한 자신이 원하는 chromosome의 특정 영역으로 빠르게 소환(?)할 수 있도록 [genome-wide view]를 선택하면 아래 그림과 같은 창이 뜨고 여기서 원하는 chromosome의 원하는 영역을 선택하면 바로 이동된다.(이동 기능은 아직 구현안됨)

lightwindows
빠르게 소환할 수 있도록

Search Position
현재 자신이 chromosome상의 어느 위치에 있는지, 또한 자신이 원하는 위치를 Text Box에 입력하고 검색 버튼을 누르면 바로 이동할 수 있다.

Position Information
마우스로 클릭한 부분이나 search position으로 이동한 부분은 붉은색 선이 나타나면서 자신이 어느부분에 있는지를 알려준다. 이때 현재 자신이 있는 위치의 정보들을 나열해 준다.

position
저 여기 있어요!!

Keyword Search
뭔가를 찾고 싶을때 Text Box에 원하는 키워드를 넣고 검색 버튼을 누르면 해당 키워드에 대한 정보를 찾아 보여준다.(구현 안됨)

Select layer
처음 Genome Browser를 실행하면(주소치고 들어가면) 간단한 정보만 보여준다. 여기서 추가로 보고 싶은 정보를 선택하면 해당 정보를 같이 보여주게된다.

layer
Cytogenetic Band를 선택하여 정보가 추가된 모습(사다리꼴과 I/O라고 되어있는것이 추가됨)

기타
줌기능은 현재 4개의 레벨을 지원하고 있다. 원래 마우스의 휠을 돌려서 줌인/아웃이 되도록 했는데 이거 쓰다보니깐 귀찮기도 해서 빼버렸는데,, 뭐 넣어도 되려나....



Posted by hongiiv

2008/03/03 09:41 2008/03/03 09:41
, ,
Response
No Trackback , No Comment
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/325

« Previous : 1 : 2 : 3 : 4 : 5 : Next »


야후 블로그 벳지


Site Stats

Total hits:
291973
Today:
143
Yesterday:
234