
资源介绍
基本信息
主题:自动图像标记在语料库语言学中的应用,以 2022 年 12 月至 2023 年 11 月英国全国性报刊中关于伊斯兰教和穆斯林的新闻报道为研究对象。
研究规模:构建了一个 150 万字的语料库,包含 1890 篇文章和 8546 张图像,使用谷歌 Vertex AI 对图像进行自动标记,共得到 89133 个图像标签。
作者及机构:Paul Baker(兰卡斯特大学和浙江工商大学)、Hanna Schmück(兰卡斯特大学)、Yufang Qian(浙江工商大学)。
出版信息:2025 年首次出版,有精装、平装和开放获取版本,在线版采用 CC-BY-NC 4.0 许可协议。
研究背景与目的
背景:以往语料库语言学研究多忽视图像,而图像在新闻话语中具有强大影响力。随着人工智能发展,自动图像标记成为可能,为多模态语料库分析提供了新途径。
目的:解决试点研究中存在的问题,包括自动化构建多模态新闻语料库、确定图像标记准确性及改进方法、开发相关工具、对更大规模新闻语料库进行多模态分析以探究视觉和多模态分析能否为报纸话语分析带来新见解。
研究问题:图像标签分析在多大程度上能提供超出语言分析的新见解;2022 年 12 月至 2023 年 11 月期间,英国九家全国性报纸对伊斯兰教和穆斯林的独特呈现是什么,并与 2013 年的研究对比,探讨呈现方式的变化。
数据收集
语料来源:英国九家报纸网站(《每日邮报》《每日星报》《快报》《卫报》《独立报》《镜报》《太阳报》《电讯报》《泰晤士报》)中 2022 年 12 月至 2023 年 11 月期间包含 “Islam” 和 “Muslim” 的文章。
数据处理:使用高级谷歌搜索和自定义 Python 脚本收集文章 URL 并抓取内容,去除无关元素、澳大利亚相关文章及提及特定人物的文章,同时下载嵌入图像并处理。
语料概况:150 多万词,1890 篇文章,8546 张图像。不同报纸在文章数量、平均长度、图像数量等方面存在差异,如《电讯报》和《泰晤士报》文章数量较多,《每日邮报》图像数量最多。
图像标记
工具与设置:使用谷歌 Vertex AI 的 LABEL 类别标签,默认置信度阈值为 0.5,最多为每张图像分配 50 个标签。
准确性评估:随机选取 100 张图像,由两名评估者独立评估标签准确性,初始准确率为 70%。通过提高置信度阈值至 0.7,并移除高频且准确率低的标签,最终准确率提升至约 90%。
标签处理:将标签格式转换,去除重复标签,创建不同版本的语料库(开发版、WordSmith 版、XML 版),并开发 “Image Tag Explorer” 工具辅助分析。
分析过程与结果
分析阶段:包括书面文本关键词分析、图像关键标签分析、前两者结果比较、多模态分析(特定图像标签与词语共现、特定关键词与图像标签共现)、各阶段结果比较与评估。
主要发现
书面文本分析:不同报纸关键词反映出对伊斯兰教和穆斯林的不同呈现,如《每日邮报》关键词多与巴以冲突相关,《独立报》关键词更聚焦伊斯兰教本身。
图像标签分析:各报纸关键图像标签体现不同内容,如《每日邮报》多为公共场合人群图像标签,《每日星报》多为身体部位和内衣相关标签。
多模态分析:图像与文本相互作用,共同构建意义。如《镜报》中与 “斋月” 相关的文章,文本提供信息,图像增强了斋月作为穆斯林社交和愉快家庭场合的积极呈现。
与以往研究对比:相比 2013 年研究,负面报道有所减少,出现更多关于伊斯兰习俗的信息性报道,对伊斯兰恐惧症的接受度提高,但部分保守做法仍存在。
结论与展望
结论:多模态语料库分析在理解复杂话语模式方面具有变革潜力,图像分析为研究带来新维度,能更清晰理解新闻话语模式。
局限:图像标记存在不足,如缺乏某些身份特征标签、标签特异性问题;语料库构建和分析复杂,需编码知识和团队合作;图像版权和获取成本问题阻碍研究。
展望:未来可开发更完善的分析工具,拓展研究领域(如社交媒体、儿童小说等),人工评估仍至关重要,AI 工具应辅助而非替代人类分析。