扫码下载APP

您的位置

资讯详情

本人可编辑资讯

仅支持在APP编辑资讯扫描二维码即可下载APP

改变注释以识别社交媒体内容中的辱骂性语言的问题

论论资讯 | 2023-03-29 3热度

Natural Language Engineering

Explore content

About the journal

Publish with us

The problem of varying annotations to identify abusive language in social media content

Seemann N.; Lee Y.S.; Höllig J.; Geierhos M.

Published:2023-03-29
DOI:10.1017/s1351324923000098

研究背景

社交媒体上的用户生成内容越来越多,检测有害语言变得至关重要。然而,目前存在一个问题,即不同的数据集使用不同的标注方法和定义,导致标注结果不一致。这个问题限制了机器学习模型的开发和交流。因此,本研究旨在分析不同数据集的标注方法和定义,以及这些标注的一致性和差异性。

研究内容

本研究分析了9个数据集,其中5个为英文,4个为德文,用于检测社交媒体上的有害内容。研究人员提供了详细的数据集描述,包括数据集的任务、数据的收集方式和标注指南。研究结果表明,目前没有一个标准的有害语言定义,这经常导致标注结果不一致。此外,研究人员手动检查了每个数据集的随机样本,发现了一些有争议的例子。他们通过讨论这些例子,突出了数据标注的挑战,并提出了一些常见的问题,例如矛盾的标注和缺少上下文信息。最后,他们在三个德语数据集上进行了一些实验,以验证他们的理论工作。

研究意义

本研究的创新点在于分析了不同数据集之间的标注差异性,并提出了一些挑战和问题。这对于机器学习模型的开发和交流具有重要意义。此外,该研究还为有害语言的定义和标注提供了一些思路和建议,有助于进一步的研究。

微信扫码即可查看