1. 그들은 자신의 독특한 세포군을 형성하여 결과에 대한 해석을 복잡하게 만들었다. 가장 분명한 이유는 세포 손상 후 미토콘드리아 비율이 증가하거나 핵 RNA 가 농축되기 때문이다. 최악의 경우, 서로 다른 세포 유형에 의해 생성된 저품질 문고는 손상으로 유도된 표현 스펙트럼의 유사성에 따라 모여 다른 하위 그룹 간에 인공의 중간 상태나 궤적을 형성할 수 있다. 또한 변환 후 평균의 변화로 인해 매우 작은 라이브러리가 자체 클러스터를 형성할 수 있습니다.
2. 분산 추정 또는 주성분 분석 중에 클러스터 이질성의 특징을 왜곡합니다. 처음 몇 가지 주요 성분은 생물학적 차이가 아닌 품질 차이를 캡처하여 차원 감소 효과를 줄입니다. 마찬가지로, 차이가 가장 큰 유전자도 저질 세포와 고퀄리티 세포의 차이에 의해 움직인다. 가장 분명한 예: 수가 매우 낮은 저품질 문고로서, 그 문고에서 정확히 0 이 아닌 수의 유전자의 표관 변이를 표준화했다.
3. 그것들에 포함된 유전자는 강하게' 상향 조정' 된 것 같다. 이는 작은 문고를 표준화하기 위해 능동적으로 확대/축소하기 때문이다. 이는 모든 문고에서 낮지만 일정한 수준으로 존재하는 오염된 전사물에 가장 문제가 된다 (예: 환경용액). 저품질 라이브러리의 확대 비율을 높이면 이러한 전사 수가 더 큰 표준화된 표현 값을 가진 작은 숫자로 변환되어 다른 세포에 비해 현저하게 증가할 수 있습니다. 영향을 받는 유전자는 일반적으로 생물학적으로 민감하지만 실제로는 다른 하위 그룹에서 표현되기 때문에 오도될 수 있습니다.
이러한 문제를 방지 (또는 최소한 완화) 하려면 해석을 시작할 때 이러한 셀을 삭제해야 합니다. 이 단계를 세포 수준의 품질 관리 (QC) 라고 합니다. (여기서는 "라이브러리" 와 "셀" 을 번갈아 사용할 것입니다. 비록 물방울 기반 데이터를 처리할 때는 그 차이가 중요해질 것입니다. ) A. T. L. Lun 등의 작은 scRNA-seq 데이터 세트 사용을 시연하겠습니다. 이 버전에는 품질 관리가 미리 없기 때문에 적용할 수 있습니다.
우리는 표현 스펙트럼에 따라 저품질 세포를 식별하기 위해 몇 가지 일반적인 QC 지표를 사용한다. 다음 SMART-seq2 데이터 읽기의 경우 이러한 지표는 품질로 제어되지만 MARS-seq 및 물방울 기반 방법과 같은 다른 기술에 의해 생성된 UMI 데이터에도 동일한 프로세스가 적용됩니다.
1. 라이브러리 크기는 셀당 모든 관련 피쳐의 총 개수 합계로 정의됩니다. 여기서 우리는 관련 특징을 내인성 유전자로 본다. 작은 문고를 가진 세포의 질은 낮다. 문고 준비 과정의 어느 지점에서 세포가 분해되거나 유효하지 않은 cDNA 포획과 증폭으로 인해 RNA 가 손실되기 때문이다.
2. 세포당 표현된 특징의 수는 세포 수가 0 이 아닌 내원유전자의 수로 정의됩니다. 서로 다른 전사 종군이 성공적으로 잡히지 않았기 때문에 소량의 유전자를 가진 어떤 세포도 저질량일 수 있다.
3.' 가시 돌기 전사물에 매핑된 읽기 수' 와' 세포당 모든 특징에서 읽은 총 수 (가시 돌기 포함)' 의 비율을 계산합니다. 각 세포에 같은 양의 가시돌기 RNA 를 넣어야 하기 때문에 어떤 가시돌기 수의 증가는 내원성 RNA 손실의 상징이다. 따라서 높은 비율은 저질 세포가 일부 세포가 분해되거나 해체되는 과정에서 RNA 분해로 인해 내인성 RNA 를 잃을 수 있다는 것을 보여준다.
또는 addPerCellQC () 함수를 선호할 수도 있습니다. 이렇게 하면 각 셀에 대한 QC 통계가 계산되어 SingleCellExperiment 객체의 colData 에 첨부되어 나중에 처리할 수 있도록 모든 관련 정보를 단일 객체에 저장할 수 있습니다.
여기서 중요한 가정은 QC 지수가 각 세포의 생물학적 상태와 무관하다는 것이다. 차이 (예: 낮은 라이브러리 크기, 높은 미토콘드리아 비율) 는 생물학적 과정이 아닌 기술적 요인에 의해 구동되는 것으로 간주됩니다. 즉, 이후 제거된 세포는 다운스트림 분석에서 생물학적 과정을 왜곡하지 않습니다. 이러한 가정을 심각하게 위반하면 실험 시스템 자체의 RNA 함량이 낮거나 미토콘드리아 수가 많은 것과 같은 세포 유형의 손실이 발생할 수 있습니다. 다른 진단 도구를 사용하여 이러한 현상을 확인할 수 있습니다 (다음 고급 분석에서 설명).
저품질 단위를 식별하는 가장 쉬운 방법은 QC 지표에 임계값을 적용하는 것입니다. 예를 들어 라이브러리 크기가1000reads 보다 작은 경우 이러한 장치의 품질이 낮다고 생각할 수 있습니다. 5,000 개 미만의 유전자를 발현합니다. 새치기율이10% 를 초과합니다. 또는 미토콘드리아 비율이 10% 를 초과합니다.
간단하지만, 이 전략은 각 실험 방안 및 생물 시스템의 적절한 임계값을 결정하기 위해 많은 경험이 필요합니다. 읽기 수를 기반으로 한 데이터 임계값은 UMI 기반 데이터에 전혀 적용되지 않으며 그 반대의 경우도 마찬가지입니다. 미토콘드리아 활성 또는 총 RNA 함량의 차이는 서로 다른 생물학적 시스템의 미토콘드리아 임계값과 혼합 임계값을 지속적으로 조정해야 합니다. 실제로 동일한 방법과 시스템을 사용하더라도 각 세포의 cDNA 캡처 효율과 시퀀싱 깊이의 차이로 인해 적절한 임계값이 작업에 따라 달라질 수 있습니다.
적절한 임계값을 얻기 위해 대부분의 데이터 세트가 고품질의 단위로 구성되어 있다고 가정합니다. 그런 다음 모든 세포에 있는 각 지표의 중간 절대 편차 (MAD) 를 기준으로 각 QC 지표가 비정상적인 세포를 결정합니다. 특히 한 값이 "문제" 방향에서 중앙값이 3 MAD 를 초과하는 경우 비정상적인 값으로 간주됩니다. 이 필터는 정규 분포를 따르는 99% 의 비정규 값을 유지합니다.
4 16B 데이터의 경우 로그 변환의 라이브러리 크기가 중간값보다 3 MAD 낮은 세포를 확인했습니다. Type =" lower "가 대수 변환에 사용되는 경우 값이 작을수록 해상도가 높아집니다. 특히, 그것은 임계값이 음수가 아니라는 것을 보장하며, 이는 음수가 아닌 행렬에는 의미가 없다. 게다가, 라이브러리 크기 분포가 무거운 오른쪽 꼬리를 나타내는 경우도 적지 않다. 로그 변환은 미친 팽창을 피할 수 있으며, 이로 인해 왼쪽 꼬리의 이상 감지가 손상될 수 있습니다. (더 일반적으로 위의 99% 를 증명하는 이유는 합리적이다. ) 을 참조하십시오
우리는 로그 변환의 표현 유전자에 대해 같은 조작을 한다.
IsOutlier () 는 출력 벡터 속성의 각 표시기에 대한 정확한 필터링 임계값도 반환합니다. 이러한 기능은 자동으로 선택된 임계값이 적절한지 확인하는 데 유용합니다.
우리는 동일한 기능을 가진 스케일 기반 지표에 대해 비정상적인 값을 식별합니다. 이러한 분포는 일반적으로 더 무거운 오른쪽 꼬리를 표시하지만, 처음 두 지표와는 달리 오른쪽 꼬리 자체에는 가정된 저품질 세포가 포함되어 있습니다. 따라서 꼬리를 줄이기 위해 변환을 수행하지 않습니다. 꼬리의 셀을 더 큰 이상값으로 인식하려고 합니다. (이론적으로 100% 이상의 무의미한 임계값을 얻을 수 있지만, 이런 경우는 드물기 때문에 실제 관심을 끌지 않는다. ) 을 참조하십시오
이러한 지표 중 어떤 비정상적인 세포도 저품질로 간주되어 버려진다.
또는 quickPerCellQC () 함수를 사용하여 전체 프로세스를 한 번에 완료할 수 있습니다.
이 정책을 사용하면 임계값이 지정된 지표의 값 분포 위치 및 분포에 적응할 수 있습니다. 이를 통해 QC 프로그램은 사용자 개입이나 이전 경험 없이 시퀀싱 깊이, cDNA 캡처 효율성 및 미토콘드리아 함량 변화에 적응할 수 있습니다. 그러나, 그것은 확실히 몇 가지 가설이 필요하며, 이러한 가설은 아래에서 상세히 논의될 것이다.
이상치 탐지는 대부분의 셀이 허용 가능한 질량을 가지고 있다고 가정합니다. 이것은 일반적으로 합리적이며, 경우에 따라 세포가 완전한지 육안으로 검사하여 실험을 지원할 수 있습니다 (예: 마이크로판에 있음). 대부분의 세포의 품질 (용납할 수 없는) 이 낮으면 대부분의 세포를 제거할 수 없기 때문에 어댑티브 임계값이 크게 실패합니다. 물론, 구경꾼의 관점에서 볼 때, 수용 가능 여부는 상황에 따라 달라질 수 있습니다. 예를 들어, 우리 모두는 뉴런이 분해되기 어렵다는 것을 알고 있습니다. 우리는 보통 뉴런 scRNA-seq 데이터 세트의 세포를 일정한 QC 지표로 유지합니다. 배아 줄기세포와 같은 좀 더 엄격한 조건에서는 받아들일 수 없습니다.
위에서 언급한 또 다른 가정은 품질 관리 지표가 각 세포의 생물학적 상태와 무관하다는 것이다. 이는 이질성이 높은 세포 집단에서 위반될 가능성이 가장 높다. 이들 세포 집단 중 일부 세포 유형은 자연적으로 총 RNA 가 적거나 미토콘드리아가 더 많다. 캡처 또는 시퀀싱에 기술적인 문제가 없더라도 이러한 세포는 비정상적인 값으로 간주되어 삭제될 수 있습니다. MAD 사용은 QC 지표의 생물학적 변동성을 고려함으로써 이 문제를 어느 정도 완화할 수 있다. 이질적인 집단의 지표는 고품질의 세포 사이에 높은 변동성을 가져야 하며, MAD 를 늘리고 특정 세포 유형을 잘못 삭제할 가능성을 줄여야 합니다 (비용은 저품질 세포를 제거할 수 있는 능력을 낮추는 것입니다).
일반적으로 이러한 가정은 합리적이거나 이러한 가정을 위반하면 다운스트림 결론에 미치는 영향이 적습니다. 그럼에도 불구하고, 이러한 결과를 해석할 때 그것들이 도움이 된다는 것을 기억하는 것이 도움이 된다.
더 복잡한 연구에는 서로 다른 실험 매개변수 (예: 시퀀싱 깊이) 를 사용하여 생성된 세포 배치가 포함될 수 있습니다. 이 경우 적응 전략은 각 배치에 개별적으로 적용되어야 합니다. 여러 샘플이 포함된 혼합 분포에서 중앙값과 MAD 를 계산하는 것은 거의 의미가 없습니다. 예를 들어, 한 배치의 시퀀싱 적용 범위가 다른 배치보다 낮으면 중간값이 낮아지고 MAD 가 높아집니다. 이렇게 하면 다른 로트에 대한 적응 임계값의 적용 가능성이 줄어듭니다.
각 배치가 자체 SingleCellExperiment 로 표시되는 경우 위 그림과 같이 isOutlier () 함수를 각 배치에 직접 적용할 수 있습니다. 그러나 모든 배치의 세포가 단일 단세포 실험에 통합된 경우 batch = 매개변수를 사용하여 각 배치에서 비정상적인 값이 식별되도록 해야 합니다. 이를 통해 isOutlier () 는 배치 간 품질 관리 지표의 체계적인 차이에 적응할 수 있습니다.
4 16B 데이터 세트를 다시 사용합니다. 여기에는 원시 및 종양 유전자 유도 상태의 두 가지 실험 요소가 포함되어 있습니다. 이러한 요소를 결합하여 isOutlier () 의 batch = 매개 변수에서 quickPerCellQC () 를 통해 사용합니다. 이로 인해 더 많은 세포가 제거될 수 있습니다. (I) 배치 간 시퀀싱 깊이의 체계적인 차이와 (ii) 발암 유전자에 의해 유도된 유전자 수의 차이가 더 이상 팽창하지 않기 때문입니다.
즉, batch = 의 사용에는 각 배치의 대부분의 단위가 고품질이라는 더 강력한 가정이 포함되어 있습니다. 일괄 부적격할 경우 예외 감지는 해당 배치에 적합한 QC 필터로 사용할 수 없습니다. 예를 들어 Grun 등 두 개의 배치가 있는데, 인간 췌장의 데이터 세트에는 상당량의 추정 손상 세포가 포함되어 있으며, 그 ERCC 함량은 다른 배치보다 높다 (그림 1). 이렇게 하면 이러한 배치의 중앙값과 MAD 가 팽창하여 가정된 저품질 세포를 제거할 수 없습니다. 이 경우 다른 배치에서 * * * 중앙값과 MAD 를 계산하고 다음과 같이 해당 추정치를 사용하여 문제가 있는 배치의 셀에 적합한 필터링 임계값을 얻는 것이 좋습니다.
한 가지 유용한 경험적 법칙은 다른 로트에 비해 품질 관리 임계값이 비정상인 로트를 찾아 문제가 있는 로트를 식별하는 것입니다. 여기서는 대부분의 배치가 대부분의 고품질 세포로 구성되어 있으므로 임계값은 "일반" 배치의 일부 단일 피크 분포를 따라야 한다고 가정합니다. 매우 높은 임계값을 가진 배치를 관찰한다면, 각 배치의 MAD 를 팽창시킬 수 있는 저질의 세포가 많이 포함되어 있다고 의심할 수 있습니다. 우리는 Grun 등의 데이터로 이 과정을 증명했다.
대부분의 배치에 대부분의 양질의 세포가 포함되어 있다고 가정할 수 없다면, 모든 추측은 사라질 것입니다. 우리는 어떤 임계값도 선택하고 최상의 결과를 얻고자 하는 방법을 복원해야 한다.
또 다른 전략은 셀당 QC 지수를 기준으로 고차원 공간의 이상값을 식별하는 것입니다. 우리는 robustbase 의 방법을 사용하여 각 세포의 QC 지표에 따라 "이상" 을 수량화한 다음 isOutlier () 를 사용하여 비정상적으로 높은 수준을 표시하는 저품질 세포를 식별합니다.
이 방법 및 관련 방법 (예: PCA 기반 이상 감지 및 지원 벡터기) 은 QC 지표의 많은 패턴을 활용할 수 있기 때문에 저품질 세포와 고품질 세포를 구분할 수 있는 더 높은 기능을 제공합니다. 그러나 지정된 셀을 삭제하는 이유가 항상 명확하지는 않을 수 있으므로 이 작업에는 약간의 해석 비용이 필요합니다.
무결성을 위해, 우리는 이상치도 품질 관리 지표가 아닌 유전자 표현 스펙트럼에서 식별될 수 있다는 것을 알아차렸다. 우리는 이것이 희귀한 세포 집단에서 고품질의 세포를 제거할 수 있기 때문에 위험한 전략이라고 생각한다.
QC 지표 분포 (그림 2) 를 점검하는 것은 좋은 습관이며 가능한 문제를 발견할 수 있다. 이상적으로, 비정상적인 값 감지에 사용된 3 MAD 임계값이 정확하다는 것을 증명할 수 있는 정규 분포를 볼 수 있습니다. 다른 모델의 세포는 QC 지표가 특정 생물학적 상태와 관련될 수 있음을 보여 주며, 이로 인해 필터링 과정에서 다양한 세포 유형의 손실이 발생할 수 있습니다. 또는 세포 하위 세트의 라이브러리 준비 불일치가 태블릿 기반 실험 시나리오에서 흔히 볼 수 있는 경우, 위의 그림 1 과 같이 모든 지표의 시스템 차이 배치를 신속하게 식별하여 문제를 더 해결하거나 완전히 제거할 수 있습니다.
또 다른 유용한 진단 방법은 일부 다른 QC 지표에 대한 미토콘드리아 계수 비율을 그리는 것입니다. 총 개수와 미토콘드리아 수가 높은 세포가 없는지 확인함으로써 대사가 활발한 양질의 세포 (예: 간세포) 를 실수로 제거하지 않도록 하는 것이다. 우리는 쥐의 뇌와 관련된 대규모 실험 데이터의 사용을 보여주었습니다. 이 경우, 그림 3 의 오른쪽 위 모서리에서는 신진대사가 활발하고 손상되지 않은 세포에 해당할 수 있는 어떤 점도 관찰하지 못했다.
우리는 이 모든 지표들이 상호 간의 약한 상관관계를 나타내는 것을 보았는데, 이것은 아마도 세포 손상의 잠재적 작용의 구현이 될 것이다. 관련성의 약점은 사람들이 다양한 지표를 사용하여 기술 품질의 다양한 측면을 포착할 수 있게 한다. 물론 단점은 이러한 지표들이 생물학의 다른 측면을 대표할 수도 있고, 전체 세포 유형을 폐기할 위험성을 증가시킨다는 것이다.
저품질 세포를 식별한 후, 우리는 삭제 또는 표시를 선택할 수 있다. 삭제 는 가장 간단한 옵션이며 열별로 SingleCellExperiment 를 설정하여 수행할 수 있습니다.
품질 관리 과정에서 가장 큰 실제 문제는 전체 세포군이 무심코 버려질지 여부다. QC 지수는 결코 생물학적 상태와 완전히 독립적이지 않기 때문에 항상 이런 상황이 발생할 위험이 있다. 우리는 폐세포와 보존세포 사이의 유전자 표현의 체계적인 차이를 찾아 세포 유형이 손실되었는지 여부를 판단할 수 있다. 이를 증명하기 위해 4 16B 데이터 세트에서 버려진 풀과 예약된 풀의 평균 수를 계산하고 풀 평균 간의 로그 변화를 계산했습니다.
만약 어떤 세포 유형이 버려진 연못에서 농축된다면, 해당 표시 유전자의 표현이 증가하는 것을 관찰해야 한다. 그림 4 에서 폐기 풀에는 명백한 유전자 상향 조정 시스템이 없습니다. 이는 QC 단계가 실수로 4 16B 데이터 세트의 세포 유형을 필터링하지 않았음을 나타냅니다.
비교를 위해 10X 유전체학에서 PBMC 데이터 세트의 품질 관리 단계를 고려해 보겠습니다. 이상치 기반 방법을 사용하는 대신 라이브러리 크기에 고정 임계값을 적용하여 셀을 필터링합니다. 구체적으로 라이브러리 크기가 500 보다 작은 모든 라이브러리를 삭제합니다.
그림 5 에서는 버려진 연못에 독특한 집단이 있는데, 이는 분실로 인해 강력하게 인상된 유전자 그룹이다. 여기에는 PF4, PPBP 및 SDPR 이 포함됩니다. ((스포일러 경고! ) 는 alt.discard 에 의해 버려진 혈소판 그룹이 있음을 나타냅니다
또 다른 옵션은 저품질 세포를 이렇게 표시하여 다운스트림 분석에 유지하는 것입니다. 이 곳의 목적은 저품질 세포 집단의 형성을 허용한 다음 결과를 해석할 때 식별하고 무시하는 것이다. 이 방법은 품질 관리 지수가 낮은 세포 유형을 버리는 것을 방지하여 사용자가 이 세포군이 실제 생물학적 상태를 나타낼지 여부를 결정할 수 있는 기회를 제공합니다.
단점은 QC 의 부담을 세포군의 해석으로 옮긴다는 점이다. 이는 scRNA-seq 데이터 분석의 병목 현상이다. 사실, 만약 우리가 QC 지표를 믿지 않는다면, 우리는 진정한 세포 유형과 저질의 세포를 마크 유전자에 따라 구분해야 할 것입니다. 이것은 항상 그렇게 쉬운 것은 아닙니다. 후자는 종종 재미있는 유전자를 "표현" 하기 때문입니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 과학명언) 저품질 단위를 유지하면 분산 모델링의 정확성도 떨어집니다. 예를 들어, 초기 PC 가 저품질 세포와 다른 세포 간의 차이에 의해 구동된다는 사실을 상쇄하기 위해 더 많은 PC 가 필요합니다.
일반 분석의 경우 저품질 세포로 인한 동시 문제를 방지하기 위해 기본 지우기 작업을 수행하는 것이 좋습니다. 이렇게 하면 대부분의 집단 구조의 특징을 걱정할 필요가 없거나 적어도 그 유효성에 대해 걱정할 필요가 없습니다. 예비 분석 후, 폐기 세포의 유형에 대해 궁금한 점이 있으면 더 철저한 재분석을 수행하여 저품질 세포만 표시할 수 있다. 이렇게 하면 RNA 함량이 낮고 미토콘드리아 비율이 높은 세포 유형을 복원할 수 있다. 다만' 빈 칸 채우기' 를 처음 분석할 때 설명하면 된다.