Ссылка на encodeproject моего образца.
Для простоты я кодировал файлы последними тремя буквами.
Все отчеты в папке fastqc. Я заметил, что качество исходных fastq файлов уже достаточно хорошее, но на всякий случай решил обрезать их с помощью trimmomatic. Вот графики per base sequence quality:
Также я заметил, что на всех графиках GC есть пик справа на колоколе. Для примера приведу ATH.
ATH | OLG | AYR | |
---|---|---|---|
число ридов | 35183691 | 27580907 | 34229117 |
выровнялось уникальных | 1463872 (4.16%) | 1165298 (4.23%) | 1510676 (4.41%) |
выровнялось неуникальных | 3887668 (11.05%) | 3151620 (11.43%) | 4575912 (13.37%) |
не выровнялось | 29832151 (84.79%) | 23263989 (84.35%) | 28142529 (82.22%) |
Видимо, процент выравниваний мал, потому что мы выравниваем только на одну хромосому. Еще получилось много неуникальных выравниваний, но это я объяснить не смог.
Пиков в ENCODE на порядок больше. Скорее всего это, опять же, из-за того, что мы выравниваем на одну хромосому. Однако, у нас получилось некоторое число пиков, которых нет в ENCODE. Скорее всего, это из-за того, что мы более детально работали с одной хромосомой, но это скорее спекуляция. Уникальных для нас пиков больше чем пересечений между нами и ENCODE, из чего следует, что это существенная часть, а не просто случайные ошибки.