生物信息学简介及常用医学数据库使用

Introduction to Bioinformatics and Common Databases

Dr. Yan Li

University of Liverpool
2024.03.07 @ Norson Medical

生物信息学是什么?

  • 高通量,大数据
  • 测序技术及组学
  • 交叉学科

高通量,大数据

  • 人类基因组: 3B bps, 20,000-25,000 genes
  • Genbank: 249,060,436 sequences (Dec 2023)
  • Alphafold2: 基于PDB数据库中>170,000个蛋白质结构训练
  • PubChem: 117M Unique chemical structures
  • 一次单细胞测序(scRNA-seq): ~100Gbps data
  • 医学图像: 从2D到3D,4D

测序技术及组学 - 1

测序技术及组学 - 2

交叉学科

生物信息学是数据科学在生物学领域的应用

生物信息学在医学上的应用

传染病的防控:基因传染病学

  • 新冠病毒大流行
  • 沙门氏菌研究

Metagenomics:传染病的快速诊断

  • SARS的发现,2002:花费几个月分离鉴定SARS病毒
  • SARS-Cov-2:通过支气管肺泡灌洗液的metagenomics RNA测序,快速得到了SARS-Cov-2基因组
  • 第一个SARS-Cov-2基因组被发现和SARS-Cov有79.6%的相似度
  • 被上传到NCBI,成为mRNA疫苗研制的基础 (NCBI: NC_045512.2)

Metagenomics:腹泻患者的诊断

Visual overview and comparison of DNA (metagenomic) and RNA (metatranscriptomic) sequencing reads assigned to GI pathogens

Phylogenetics:病毒进化历史

Phylogenetic tree made from 4000 SARS-Cov-2 genomes in April 2020

Phylogenetics:鉴定突变株

Lineage Relative Frequencies Over Time (from GISAID)

Spike蛋白突变分析:预测下一个突变株

Identified Mutations in VOC Spike Proteins

沙门氏菌:SARS-Cov-2之前基因组测序最多的病原体

Enterobase保存的沙门氏菌基因组数量 2024-03

全基因组测序 WGS 为基础的传染病监控

  • 欧美的公共卫生部门对所有的沙门氏菌感染进行测序
  • 测序价格持续降低
  • 代替传统的血清型鉴定、耐药性测试、DNA指纹比对等
  • 快速、便宜、节省人力
  • 快速发现食品安全事件:
    • 2017 法国雅培婴儿奶粉沙门氏菌污染
    • 2022 英国健达奇趣蛋巧克力沙门氏菌污染

Genomic Geoepidemiology: 追踪病原体传播途径

Phylogenetic tree of Salmonella Typhimurium ST313 coloured with geographic data

Genomic Geoepidemiology: 追踪病原体传播途径

Global transmission of Salmonella Typhimurium DT104

癌症及慢性病研究

Others

  • AI药物设计
  • 医学图像识别

常用医学数据库的使用介绍

NCBI: National Center for Biotechnology Information

万金油,综合性的数据库集合。包括了:

  • GenBank: Reference level genomes & annotations
  • ClinVar: 基因突变数据库
  • SRA: Sequence Read Archive DNA测序原始数据
  • GEO: Gene Expression Omnibus 基因表达数据,包括基因芯片,RNAseq等
  • Protein, Nucleotide Databases等

BLAST: 比对 query sequence 到 NCBI 数据库

不同的BLAST程序

  • BLASTn: 更擅长发现进化差异
  • BLASTp:更容易发现蛋白质序列的相似性
  • BLASTx和tBLASTn更耗时,结果更不精确,可以把DNA翻译成蛋白质再做BLASTp

BLAST结果

BLAST alignment

Homology

  • 序列相似性
  • Homology: 进化自同一个共同祖先 common ancestor
  • Orthologues: 在不同species中发挥同样功能的蛋白质
  • Paralogues: 在用一个生物体中发挥相似功能的不同蛋白质

Orthologues vs Paralogues

血红蛋白的进化示意图

e-value

  • 在数据库中随机查找时,期望找到具有至少同等得分的alignment次数
  • 越小越好。例如,e-value为1e-50表示在数据库搜索中,期望偶然发现具有相同或更高得分的对齐的次数为10的-50次方

思考题: 新冠病毒S蛋白和HIV的蛋白质有6个氨基酸的motif相同,能说明新冠病毒是人造的吗?

UniProt: 汇总蛋白质信息的综合数据库

Insulin in UniProt

GISAID (Global Initiative on Sharing All Influenza Data)

GISAID登陆后的界面

TCGA (The Cancer Genome Atlas Program)

提供癌症的基因测序、基因表达分析、DNA拷贝数变异分析以及临床和预后数据

https://portal.gdc.cancer.gov

第三方分析工具

建设国产医学数据库,把数据留在国内