重测序数据碱基质量评估

发布时间 2023-09-29 18:33:23作者: 小鲨鱼2018

 

001、测序数据为fastq格式

fastq格式数据没四行为一个单位,其中第二行是碱基,第四行为对应的碱基质量值:

如下:

(base) [b20223040323@admin1 test01]$ ls       ## 测试fastq格式数据
test.fastq
(base) [b20223040323@admin1 test01]$ head -n 4 test.fastq | cat -n     ## 第二行碱基; 第四行碱基质量值
     1  @SRR12342886.1 1/1
     2  TCTTCAAAAATTTCTCACAGCTTGTTGTGATCCACACAGTCAAAGGCTTTAAGTGTAGTCAGTGAAGCAGAAGTGGATATTTTTCTGGAATTCCCTTGCTTTCTCTGTGATCCAAGGGATTTGATCTCTGGTTCCTCTGCTTTTTCTAAAC
     3  +
     4  FFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFF:F

 

碱基质量值不是数值的形式,而是ASCII码, 其对应的转换表格如下:

控制字符    ASCII值    控制字符    ASCII值    控制字符    ASCII值    控制字符
0    NUT    32    (space)    64    @    961    SOH    33    !    65    A    97    a
2    STX    34    "    66    B    98    b
3    ETX    35    #    67    C    99    c
4    EOT    36    $    68    D    100    d
5    ENQ    37    %    69    E    101    e
6    ACK    38    &    70    F    102    f
7    BEL    39    ,    71    G    103    g
8    BS    40    (    72    H    104    h
9    HT    41    )    73    I    105    i
10    LF    42    *    74    J    106    j
11    VT    43    +    75    K    107    k
12    FF    44    ,    76    L    108    l
13    CR    45    -    77    M    109    m
14    SO    46    .    78    N    110    n
15    SI    47    /    79    O    111    o
16    DLE    48    0    80    P    112    p
17    DCI    49    1    81    Q    113    q
18    DC2    50    2    82    R    114    r
19    DC3    51    3    83    S    115    s
20    DC4    52    4    84    T    116    t
21    NAK    53    5    85    U    117    u
22    SYN    54    6    86    V    118    v
23    TB    55    7    87    W    119    w
24    CAN    56    8    88    X    120    x
25    EM    57    9    89    Y    121    y
26    SUB    58    :    90    Z    122    z
27    ESC    59    ;    91    [    123    {
28    FS    60    <    92    \    124    |
29    GS    61    =    93    ]    125    }
30    RS    62    >    94    ^    126    `
31    US    63    ?    95    _    127    DEL

 

根据以上表格,可以将fastq格式数据中的碱基质量值ASCII码转换为数值的形式。

 

002、碱基的质量值表示的测序碱基的准确度,其计算公式:

Q = - 10 * logP

其中Q表示的质量值,P表示的是碱基错误的概率。

上述公式可以转换为:

P = 1o^(-Q/10)

由此可见 Q值越大, 则P值越小,及碱基错误的概率越小。