페어드 엔드 리드(paired-end reads)란


 페어드 엔드 리드(paired-end reads)란, 서로의 대략적인 거리를 알고 있는 한 쌍의 리드를 의미한다. 예를 들어 Illumina 시퀀싱은 약 500bps의 리드를 생성하고, 이 리드의 양쪽 끝
75bps의 염기 서열을 읽어낸다. 이때 두 리드를 읽는 방향은 3’와 5’로 각각 반대가 된다. 두 리드 사이의 350bps 구간에 대한 염기 서열은 알아낼 수 없으나, 이를 통해 양쪽 75bps의 염기 서열 둘이 약 350bps 떨어져 있다는 정보를 얻어낼 수 있다. 이렇게 얻어진 거리 정보를 가진 75bps 리드 한 쌍을 페어드 엔드 리드라 한다. 페어드 엔드의 거리는 시퀀싱 방식에 따라 다르지만, 하나의 시퀀싱 방식으로 생성되는 페어드 엔드의 길이는 거의 일정하다.


 페어드 엔드를 이용하면 유전체 구조 변이를 조사할 수 있다. 예를 들어, 페어드 엔드 사이의 거리가 레퍼런스 시퀀스에서의 거리보다 멀 경우 짧은 삽입(Insertion)이 있으며, 반대로 가까울 경우 짧은 삭제(Deletion)가 있다는 것을 알아낼 수 있다. 또한 페어드 엔드의 방향 정보를 통해 역위(Inversion) 여부도 파악할 수 있다.


 리드 생성에 사용된 염기 서열을 테스트 시퀀스(test sequence)라 한다. 테스트 시퀀스에서 페어드 엔드 리드를 얻는 구체적인 예는 다음과 같다. Illumina에서는 약 500bps의 길이의 페어드 엔드 리드를 제공하는데 페어드 엔드의 길이는 조금씩 달라질 수 있으므로 오차율을 설정해줄 필요가 있다. 한 페어드 엔드의 오차율을 100bps로 설정하였다고하면 한 페어드 엔드의 길이는 400~600bps 정도이다. 전체 염기 서열에서 임의의 영역을 선택한 후, 그곳에서부터 연속된 400~600bps 영역을 추출하고, 추출된 영역에서 양 끝의 75bps를 잘라내어 페어드 엔드 리드를 생성한다. 이러한 과정으로 생성된 리드 길이의 합이 전체 염기 서열의 길이의 n배가 될 때까지 반복한다. 이러한 n을 커버리지(coverage)라 하고, 생성된 리드들을 테스트 쿼리(test query)라 한다. 커버리지가 높아질수록 보다 정확한 정보를 얻을 수 있으나 비용이 많이 소요된다는 단점이 있다. 아래 그림은 리드의 길이 3bps, 리드 사이의 거리 14bps인 페어드 엔드 리드의 생성 예를 보여준다.


차세대 시퀀싱 방식을 시뮬레이터를 이용한 페어드 엔드 리드의 생성 예



참고 : 차세대 시퀀싱으로 생성된 페어드 엔드 리드를 이용한 CNV 발견 기법, 문영진외

0 개의 댓글:

댓글 쓰기