
프로젝트에서 유전자 분석을 위한 IGV(Integrative Genomics Viewer) 사용을 해봤다.
IGV란 유전체 데이터셋을 시각화 해주는 그래픽 기반 프로그램으로 오픈소스이다.
igv 사이트에 들어가면 자바스크립트, 노트북, 보고서에 대한 개발 가이드가 나와있어
google Colab 으로 테스트해보았다.
어떤건지 잘 모를 수 있으니 먼저 igv 분석 결과를 보여주겠다.
위 표를 보고 돌연변이DNS와 같은 비정상적인 염색체를 구분해 낼 수 있다.
이러한 지표를 통해 유전자분석이 이루어진다.
유전자 데이터(FASTQ)
DNA 데이터에 기본이 되는 항목이다.
인간세포의 DNA를 추출해 일정 길이로 잘라 NGS 기계에 넣으면,
4가지 색깔의 이미지로 BCL 파일을 만들고,
BCL 파일을 다시 FASTQ파일로 변환하는 작업을 한다.
(NGS란 Next Generation Sequencing의 약자로 차세데 염기서열 분석법으로 DNA를 각각 하나씩 분석하는 방식)
FASTQ 파일은 DNA의 서열에 대해 4줄씩 저장한 파일이다.
(시퀀스ID, 서열정보, +, 품질점수)
이 파일로 돌연변이와 질병을 찾아 생물학적 분석을 할 수 있다.
분석용 데이터(bam)
유전자 데이터는 FASTQ 라는 파일이였다,
DNS 분석하기 위해 유전자 데이터를 쭉 이어붙여 파일로 만든게 bam 파일이다.
이 때, 표준 유전체와 비교하여 염색체가 어디에 있는지 찾아줘야하는데
이를 매핑/정렬 이라고 한다.
(bam 파일이 생성되면 인덱스를 저장한 .bai 파일도 만들어야함)
(.bai 파일을 통해 데이터 분석을 더 빠르게 색인하여 찾을 수 있음)
현재 인간의 표준 유전체는 GRC(Genome Reference Consortium)에서 공개한 2가지 버전이 많이 쓰인다.
- hq19 (GRCH37) : 2009년 발표
- hq38 (GRCH38) : 2013년 발표
참고로 bam 파일은 바이너리로 되어 있다.
분석파일을 보기 쉽게(sam)
유전자 분석을 위한 bam 파일은 바이너리로 되어있어 우리가 읽을 수 없다.
이 데이터를 읽기 위해 sam 파일로 변경하는데 이 파일은 ASCII(한글자당 7bit)로 구성되어 사람이 읽을 수 있다.
타 블로그의 bam->sam 변환 용량을 보면 약 3배의 차이가 났다고한다(bam:90mb, sam:280mb)
인간의 유전체는 약 31억 개의 DNA 염기로 이루어져 있어
sam 파일로 보려면 용량이 어마어마하게 크기 때문에 bam 파일로 변환하여 분석에 사용한다.
Next.
유전자 데이터에 대해 공부했고,
이 데이터를 samtools로 변환하는 것을 포스팅하겠다.
참고사이트
IGV: Integrative Genomics Viewer
The IGV Team is based at UC San Diego and the Broad Institute of MIT and Harvard. The best way to reach us for support questions, bug reports, feature requests, and suggestions is by posting to the igv-help forum or by creating new issues in our GitHub rep
igv.org
FASTQ 파일 포맷 : DNA 생(raw) 데이터 정보를 담은 포맷
FASTQ 데이터는 NGS기계에서 추출한 DNA 정보를 '데이터'형태로 보여주는 첫 파일입니다. 즉, FASTQ는 DNA 정보를 담고있는 아무 정제없는 가장 날 것의 데이터 입니다. 1. FASTQ의 구성 FASTQ는 아래 4줄이
bio-info.tistory.com
Bam/Sam 파일 포맷: 인간유전체 정보를 담은 포맷
안녕하세요 저번 포스팅에서는 DNA를 직접 NGS기기에 넣어 나오는 생(raw) 데이터 FASTQ에 대해서 알아보았습니다. FASTQ : DNA 생(raw) 데이터!! 완벽 정리 FASTQ 데이터는 NGS기계에서 추출한 DNA 정보를 '
bio-info.tistory.com
'엔지니어링 > 유전자' 카테고리의 다른 글
[유전자분석] samtools 유전자 데이터 컨트롤하기 (0) | 2022.09.05 |
---|---|
[유전자분석] samtools (0) | 2022.09.05 |