banner

소식

Nov 19, 2023

다중

Nature Biotechnology 40권, 1458~1466페이지(2022)이 기사 인용

58k 액세스

49 인용

186 알트메트릭

측정항목 세부정보

단일 세포에서 여러 오믹스 양식을 동시에 측정하기 위한 실험 방법의 출현에도 불구하고 대부분의 단일 세포 데이터 세트에는 하나의 양식만 포함됩니다. 여러 양식의 오믹스 데이터를 통합하는 데 있어 주요 장애물은 서로 다른 오믹스 레이어가 일반적으로 고유한 특징 공간을 갖는다는 것입니다. 여기에서는 오믹스 계층 전반에 걸쳐 규제 상호 작용을 명시적으로 모델링하여 격차를 해소하는 GLUE(그래프 연결 통합 임베딩)라는 계산 프레임워크를 제안합니다. 체계적인 벤치마킹을 통해 GLUE가 이종 단일 세포 다중 오믹스 데이터를 위한 최첨단 도구보다 더 정확하고 강력하며 확장 가능하다는 것이 입증되었습니다. 우리는 GLUE가 이전 주석을 수정할 수 있었던 수백만 개의 세포에 대한 삼중 오믹스 통합, 통합 규제 추론 및 다중 오믹스 인간 세포 아틀라스 구축을 포함한 다양한 까다로운 작업에 GLUE를 적용했습니다. GLUE는 새로운 분석 작업을 위해 유연하게 확장 및 향상될 수 있는 모듈식 설계를 특징으로 합니다. 전체 패키지는 https://github.com/gao-lab/GLUE에서 온라인으로 제공됩니다.

단일 세포 시퀀싱의 최근 기술 발전으로 염색질 접근성(단일 세포 ATAC 시퀀싱(scATAC-seq)1,2), DNA 메틸화(snmC-seq3, sci- MET4) 및 전사체(scRNA-seq5,6)는 다양한 세포 유형의 기능에 대한 기본 조절 기반을 밝힐 수 있는 독특한 기회를 제공합니다7. 최근 동시 분석법이 등장했지만8,9,10,11, 서로 다른 오믹스는 일반적으로 독립적으로 측정되고 페어링되지 않은 데이터를 생성하므로 실리코 다중 오믹스 통합12,13에서 효과적이고 효율적입니다.

계산적으로, 짝이 없는 다중 오믹스 데이터(대각선 통합이라고도 함)를 통합할 때 직면하는 주요 장애물 중 하나는 서로 다른 양식의 뚜렷한 특징 공간입니다(예: scATAC-seq의 접근 가능한 염색질 영역과 scRNA-seq의 유전자)14. 빠른 수정은 사전 지식을 기반으로 다중 양식 데이터를 하나의 공통 기능 공간으로 변환하고 단일 오믹스 데이터 통합 ​​방법을 적용하는 것입니다. 이러한 명시적인 '기능 변환'은 간단하지만 정보 손실을 초래하는 것으로 보고되었습니다19. 결합 행렬 분해를 기반으로 하는 알고리즘은 명시적 변환을 우회하지만 두 개 이상의 오믹스 레이어를 거의 처리하지 않습니다20,21. 대안적인 옵션은 비선형 매니폴드 정렬을 통해 서로 다른 오믹스 레이어의 셀을 일치시키는 것입니다. 이는 사전 지식의 요구 사항을 완전히 제거하고 이론상 양식 간 정보 손실을 줄일 수 있습니다. 그러나 이 기술은 주로 셀 유형 수가 제한된 상대적으로 작은 데이터 세트에 적용되었습니다.

계속해서 증가하는 데이터 양은 또 다른 심각한 과제입니다26. 최근 개발된 기술은 수백만 개의 셀 규모로 데이터 세트를 일상적으로 생성할 수 있는 반면, 현재 통합 방법은 훨씬 작은 볼륨 데이터 세트에만 적용되었습니다. 데이터 처리량의 증가를 따라잡기 위해서는 확장성을 염두에 두고 계산 통합 방법을 설계해야 합니다.

이로써 우리는 짝이 없는 단일 세포 다중 오믹스 데이터를 통합하고 규제 상호 작용을 동시에 추론하기 위한 모듈식 프레임워크인 GLUE(그래프 연결 통합 임베딩)를 소개합니다. GLUE는 오믹스 레이어 전체에 걸쳐 규제 상호 작용을 명시적으로 모델링함으로써 생물학적으로 직관적인 방식으로 다양한 오믹스 관련 기능 공간 간의 격차를 해소합니다. 체계적인 벤치마크 및 사례 연구는 GLUE가 이종 단일 세포 다중 오믹스 데이터에 대해 정확하고 강력하며 확장 가능하다는 것을 보여줍니다. 또한 GLUE는 모듈식 방식으로 특정 시나리오에 쉽게 확장하고 빠르게 채택할 수 있는 일반화 가능한 프레임워크로 설계되었습니다. GLUE는 https://github.com/gao-lab/GLUE에서 공개적으로 액세스할 수 있습니다.

0.5, and then normalize by cluster size, which effectively balances the contribution of matching clusters regardless of their sizes. In the second stage, we fine-tune the GLUE model with the estimated balancing weights, during which the additive noise \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N}}}}\left( {{\boldsymbol{\epsilon}} ;\mathbf{0},\tau \cdot {\mathbf{\Sigma}}} \right)\) gradually anneals to 0 (with τ starting at 1 and decreasing linearly per epoch until 0). The number of annealing epochs was set automatically based on the data size and learning rate to match a learning progress equivalent to 4,000 iterations at a learning rate of 0.002./p>0 for scRNA-seq/scATAC-seq; FDR < 0.05 and log fold change of <0 for snmC-seq. The significance of marker overlap was determined by the three-way Fisher’s exact test40./p>
공유하다