陈述
用两个词来理解感情吧。
“谢谢。”
“谢谢你听我说,因为它温暖了我的四季……”
这很简单。我可以说,这不是我最近经常玩的笑话。
但如果你问一下长辈,他们可能会觉得“地铁里的老人在看手机”。
但是,与流行文化有代沟的不仅仅是老年人和人工智能。
不是,一位博客作者最近发表了一篇分析谷歌数据集的文章。我们发现reddit评论的情感识别错误率高达30%。
例如:。
我想通过生朋友的气来表达我对他的爱。
谷歌的数据集判断为“愤怒”。
另外,还有以下评论。
你的TM差点吓死我。
谷歌的数据集被认为是“混乱”。
你不懂我的笑话。
一种将人工智能在几秒钟内转化为人工智能障碍的方法的荒谬错误。
擅长断章主义
这是从他的辨别方法开始的。
谷歌数据集使用文本来确定何时对标签进行评论。
你会发现谷歌的数据集错误地将文本中的情感判断为愤怒。
我们来推测一下谷歌数据集中歧视错误的原因。在上面的例子中,所有四条评论都包含了“脏话”。
谷歌的数据集使用这些“脏话”作为判断的依据,但是仔细阅读完整的评论就会发现,所谓的“根据”只是用来增强整个句子的语气,没有实际意义。
网友的评论并不是孤立的,发帖、发帖平台和其他元素都可能改变意义。
例如,如果您查看此注释
仅凭这一点很难判断情感因素。但是如果你们知道他是肌肉网站的评论,你们可能很容易猜到。
无视评论投稿本身,或者用强烈的情感语言来判断情感因素是不合理的。
句子并不是孤立的。它有特定的语境,其意义随着语境的变化而变化。
通过将评论放在完整的上下文中来判断情感色彩,可以大大提高识别的准确性。
但错误率达到30%的原因不仅有“断章取义”,还有更深层次的原因。
“Ai不知道我们的故事。”
除了背景干扰数据集歧视外,文化背景也是非常重要的因素。
国家、地区和网站社区也有自己的文化符号。这个文化符号圈以外的人很难解读,所以成为了一个棘手的问题。
为了更准确地判断社区评论的情绪,我们需要对社区进行数据培训,以便深入了解整个社区的文化基因。
1a
发表评论