


资源介绍
到机器学习预测 (中文字幕英文视频教程)
在全球公共卫生领域,抗菌药物耐药性(AMR)已成为威胁人类健康的重大挑战,而生物信息学技术的崛起为 AMR 研究提供了核心技术支撑。本课程《antimicrobial 耐药性检测实战:从基因组原始数据到机器学习预测》(原课程名:Learn Amr Detection - From Raw Genomic Reads To Ml Prediction)以 “理论奠基 - 技术实操 - 流程整合 - 进阶应用” 为核心逻辑,构建了一套从基础到前沿的 AMR 生物信息学分析知识体系。
课程通过系统的视频讲解与配套实操脚本,带领学习者完成从基因组原始数据获取到 AMR 基因机器学习预测的全流程实践,既覆盖了 AMR 研究的核心理论知识,又聚焦于生物信息学分析的关键技术操作,兼顾理论深度与实操可行性,适用于生物信息学初学者、微生物学研究人员及公共卫生领域相关从业者,助力学习者快速掌握 AMR 检测的核心技能。本课程共包含 26 个视频教学资源,所有视频均配备中文(zh-Hans)字幕,保障学习过程中的理解准确性。
二、核心学习价值
本课程的核心价值在于打破 “理论与实操脱节” 的传统教学痛点,以真实研究流程为导向,实现 “从数据到结论” 的全链条教学。学习者通过课程学习,可掌握三大核心能力:一是 AMR 研究的基础理论认知,明确 AMR 的核心概念及生物信息学在该领域的应用逻辑;二是生物信息学分析的核心技术操作,熟练运用 Linux 系统、conda 环境及各类专业分析工具处理基因组数据;三是全流程整合与进阶应用能力,能够独立完成数据质控、基因组组装、注释、AMR 基因检测及机器学习预测的完整分析流程,并输出可靠研究结果。
同时,课程配套的 10 个实操脚本(如数据下载脚本 download-raw-data.sh、质控流程脚本 qc-pipeline.sh 等)为学习者提供了即拿即用的工具包,大幅降低实操门槛,帮助学习者快速将理论知识转化为科研生产力,无论是开展基础研究还是实际检测工作,都能借助课程所学形成高效分析能力。
三、课程核心内容框架
(一)AMR 与生物信息学基础导论
本模块作为课程开篇,共包含 4 个视频,旨在为学习者构建 AMR 研究的基础认知框架与技术入门指引。首先通过 “什么是抗菌药物耐药性(AMR)” 专题,系统阐释 AMR 的定义、形成机制、全球危害及研究意义,让学习者明确研究的核心背景与价值。随后的 “生物信息学在 AMR 研究中的应用” 专题,聚焦技术与研究的结合点,讲解生物信息学技术如何解决 AMR 研究中的关键问题,如耐药基因识别、耐药机制解析等,建立 “问题 - 技术” 的关联认知。
“课程分析流程概述” 专题则提前梳理了整个课程的核心逻辑线,从原始数据获取到机器学习预测的各环节衔接关系进行拆解,帮助学习者建立全局视野。最后的 “环境搭建与原始数据下载” 专题,实现从理论到实操的过渡,详细演示分析环境的配置方法,并通过配套脚本 download-raw-data.sh 指导学习者完成原始数据的获取,为后续实操环节奠定基础。
(二)生物信息学 Linux 基础(可选模块)
考虑到部分学习者可能缺乏 Linux 系统操作基础,本模块设置为可选内容,共包含 6 个视频,全面覆盖生物信息学研究所需的 Linux 核心技能。“Linux 系统入门” 专题从系统基本概念、操作界面入手,带领零基础学习者快速熟悉 Linux 环境。针对 Windows 系统用户,“Windows 系统环境搭建” 专题提供了专属解决方案,确保不同操作系统的学习者都能顺利开展后续分析。
“Linux 文件系统导航” 专题聚焦文件管理核心能力,讲解目录结构、路径导航等基础操作;“生物信息学常用 Linux 基础命令” 专题则筛选出高频实用命令,结合基因组数据处理场景进行演示,提升命令学习的针对性。“基因组数据的文件查看、编辑与处理” 专题进一步深化实操能力,针对基因组数据的特殊格式与处理需求,讲解文件操作的进阶技巧。最后的 “Conda 及环境配置” 专题,重点介绍生物信息学研究中必备的环境管理工具,讲解 conda 的安装、环境创建与管理方法,解决不同分析工具的环境冲突问题。
(三)数据预处理与质量控制
原始数据的质量直接决定后续分析结果的可靠性,本模块共包含 4 个视频,构建了 “认知 - 评估 - 过滤 - 自动化” 的完整质控流程。“测序数据格式解析” 专题首先讲解 FASTQ 等核心测序数据格式的结构与含义,让学习者掌握数据解读的基础能力,明确数据质量评估的关键指标。“使用 FastQC 进行初步质量评估” 专题聚焦实操工具应用,详细演示 FastQC 的安装与使用方法,指导学习者如何通过软件输出结果识别数据中的质量问题,如测序错误率、接头污染等。
针对质量评估中发现的问题,“使用 Fastp 进行读段修剪与过滤” 专题提供了解决方案,讲解 Fastp 工具的核心参数设置与使用技巧,实现低质量读段的过滤与序列修剪,提升数据质量。最后的 “质量控制自动化” 专题实现流程升级,通过配套脚本 qc-pipeline.sh 将质控各环节整合为自动化流程,讲解脚本的使用方法与参数调整技巧,提升大规模数据处理的效率。
(四)基因组组装
基因组组装是从测序读段到基因组序列的关键环节,本模块共包含 4 个视频,聚焦细菌基因组从头组装的核心技术。“从头基因组组装原理” 专题从理论层面解析组装的核心逻辑,讲解 k-mer、重叠群(contig)等关键概念,以及不同组装算法的适用场景,为实操环节提供理论支撑。“使用 SPAdes 进行细菌基因组组装” 专题进入实操核心,详细演示 SPAdes 工具的安装、参数设置与运行流程,针对细菌基因组的特点给出优化建议,确保组装结果的准确性。
“使用 Quast 进行组装质量评估” 专题则聚焦结果验证,讲解 Quast 工具的使用方法,通过基因组大小、N50、错误率等核心指标评估组装质量,指导学习者判断组装结果是否符合后续分析要求。最后的 “流程整合与组装结果输出” 专题,结合配套脚本 assembly-pipeline.sh 实现组装流程的整合优化,讲解组装结果的解读方法与格式转换技巧,为后续的基因组注释环节做好准备。
(五)基因组注释
基因组注释是解读基因组功能的核心步骤,本模块共包含 3 个视频,聚焦原核生物基因组注释的技术与应用。“什么是基因组注释” 专题从理论层面切入,讲解注释的定义、核心内容(如基因预测、功能注释等)及研究意义,让学习者明确注释环节的核心目标。“使用 Prokka 进行原核生物注释” 专题聚焦实操工具,详细演示 Prokka 的安装与使用流程,针对原核生物基因组的特点,讲解基因预测、功能注释、数据库比对等关键操作的参数设置技巧。
“流程整合与注释结果解读” 专题则实现技术落地,结合配套脚本 annotation.sh 整合注释流程,重点讲解注释结果文件的解读方法,如如何提取基因信息、解读功能注释结果等,为后续的 AMR 基因检测提供功能背景支撑。
(六)AMR 基因检测与分析
本模块作为课程的核心应用环节,共包含 3 个视频,聚焦 AMR 基因识别与多数据库分析的核心技术。“AMR 基因数据库概述” 专题首先梳理全球主流的 AMR 基因数据库资源,讲解各数据库的特点、数据来源与适用场景,帮助学习者建立数据库选择的判断标准。“ABRicate 的安装与运行” 专题聚焦核心检测工具,详细演示 ABRicate 的安装流程与使用方法,指导学习者通过工具实现基因组中 AMR 基因的快速识别与初步分析。
最后的 “多数据库分析流程” 专题实现分析深度的提升,结合配套脚本 amr-detection.sh 构建多数据库联合分析流程,讲解如何整合不同数据库的分析结果,提高 AMR 基因检测的准确性与全面性,同时指导学习者对分析结果进行可视化与解读,形成初步的 AMR 基因检测报告。
(七)AMR 基因的高级机器学习模型与解读
本模块作为课程的前沿进阶环节,共包含 2 个视频,实现从传统检测到机器学习预测的技术升级。“使用 Python 构建 AMR 基因有无矩阵” 专题首先解决机器学习的数据源问题,通过配套脚本 create-amr-matrix.py 及示例文件 ml-matrix.csv,详细演示如何使用 Python 处理 AMR 基因检测结果,构建机器学习模型所需的特征矩阵,同时讲解 Python 环境的配置与核心代码的解读,兼顾工具使用与代码理解。
“基于机器学习模型的 AMR 预测” 专题则进入核心应用环节,结合配套脚本 model.py,讲解 AMR 预测机器学习模型的构建原理、训练过程与评估方法,演示如何利用构建的特征矩阵进行 AMR 表型预测,同时指导学习者解读模型输出结果,分析模型的优势与局限性,为 AMR 研究提供更前沿的技术手段。
四、适用人群与学习建议
本课程的适用人群广泛,包括微生物学、公共卫生、生物信息学等相关专业的本科生、研究生,从事 AMR 研究的科研人员,以及需要开展 AMR 检测工作的技术人员。对于零基础学习者,建议按照课程模块顺序依次学习,先完成 “AMR 与生物信息学基础导论” 和 “生物信息学 Linux 基础” 模块,夯实基础后再进入后续实操环节;对于有一定 Linux 或生物信息学基础的学习者,可根据自身需求选择性学习重点模块,如直接聚焦 “数据预处理与质量控制” 到 “AMR 基因检测与分析” 的核心流程,再进阶学习机器学习模块。
学习过程中建议结合课程配套脚本进行同步实操,通过反复练习熟悉工具参数设置与流程逻辑,同时针对重点难点内容可结合中文字幕多次观看视频讲解。通过本课程的系统学习,学习者将具备独立开展 AMR 基因检测全流程分析的能力,为相关领域的研究与实践工作提供核心技术支撑。