¿Cómo trabaja G4C?

En G4C utilizamos tecnología de hibridación en solución como herramienta de enriquecimiento del ADN genómico, y tecnología de secuenciación masiva con las plataformas MiSeq, NextSeq y HiSeq de Illumina (secuenciación de segunda generación), y tecnologías de lectura ultralarga (secuenciación de tercera generación).

 

En la secuenciación de segunda generación, las lecturas generadas por las plataformas de secuenciación son alineadas al genoma de referencia GRCh37 (hg19) utilizando el programa BWA v0.7.17 (Li and Durbin, 2009). El proceso de detección de variantes, como SNVs (variantes puntuales) e INDELs (pequeñas inserciones-deleciones), incluidas en las regiones de captura se realiza con los programas SAMtools (Li et al, 2009), GATK (DePristo et al, 2011), VarScan (Koboldt et al, 2012), Platypus (Rimmer et al, 2014) y Pindel (Ye K. et al, 2009), programas de común utilización en la literatura para la detección de variantes. Las variantes obtenidas se anotan usando el programa SnpEff (Cingolani P. et al, 2012) para la base de datos dbSNP 150 y RefSeq_release59. Además, se anotan los resultados frente a las bases de datos del proyecto 1000 Genomas (phase3), ExAC (Exome Aggregatium Consortium) y gnomAD (Genome Aggregation Database), así como una base de datos propia de más de 1.300 muestras. El filtrado y priorización de variantes se realizan mediante pipelines de diseño propio, tal como está descrito en Roca et al, 2018.

 

Para la detección de variantes en el número de copias (CNVs) utilizamos un software de diseño propio, PattRec (Roca et al, 2019). En el caso de variantes estructurales (SVs), utilizamos los programas de común uso en la literatura: Delly (Rausch et al, 2012), Lumpy (Layer et al, 2014), SvABA (Wala et al, 2018), CNVnator (Abyzov et al, 2011) y Canvas (Roller et al, 2016), anotando los resultados con el programa AnnotSV (Geoffroy et al, 2018). Estas variantes son filtradas en base a su frecuencia en bases de datos públicas (1000G, DGV, …), así como una base de datos interna de más de 100 genomas de población europea.

 

En el caso de la secuenciación de tercera generación, las lecturas son alineadas al genoma de referencia utilizando el programa Minimap2 (Li, 2018). Para la detección de variantes, se utilizan los programas SAMtools (Li et al, 2009), GATK (DePristo et al, 2011), Ginkgo (Garvin et al, 2015) para CNVs, ploidías y cariotipado digital, y SNIFLES (Sedlazeck et al, 2018) para variantes estructurales, así como programas de diseño propio.