02
制止网络暴力背后的AI技术:
自然语言处理
在人类无法兼顾的海量信息中,AI技术的介入显然为制止网络暴力提供了一条捷径。
想要对评论、弹幕这样成千上万的非结构化语言数据进行分析,自然语言处理(NLP)就成为研究者必须面对的核心AI技术。
作为AI的一个子领域,自然语言处理致力于让计算机也能够理解和处理人类语言,使计算机更接近于人类对语言的理解。
事实上,人类读写文字的历史已经有几千年了,我们的大脑在理解自然语言方面积攒了大量的经验。
当我们阅读文字时,很快就能明白其中的含义,并感受到这些东西引发的情感。
但是想让机器也拥有人类对语言的理解和情感,是一件非常困难的事情。之所以自然语言处理技术被誉为“人工智能皇冠上的明珠”,一方面表明了它的重要性,另一方面也显现出了它的技术难度。
如今,深度学习的兴起,让自然语言处理技术得以进一步发展,让机器能够自动学习语言特征,掌握更高层次、更加抽象的语言特征,目前已广泛应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
在生活中,从语音助手Siri、微软小冰、小爱同学,到语音输入、谷歌翻译、水军检测等,随处可见自然语言处理技术。
那么,在制止网络暴力方面,自然语言处理技术是如何应用的?具体而言,涉及以下几个方向:
情绪解析
情绪极值:以50分为分界,对整体正负面情感特征打分;
十二种细节情绪:根据Plutchik情感轮理论体系,识别语义中12种不同细节情绪;
情绪值/浓度:计算出语句的情绪浓度,即反映了特定情感的激烈程度;
情感关键词:从文本中智能识别并提炼对文本整体情绪影响最大的关键信息。
基于情绪解析引擎,可以针对某条内容所表达的情绪极值以及十二种细节情绪进行全量分析,从而详细了解千万条评论内容中网民们的整体情绪分布;
其次,还可根据时间段来看随着时间的推移网友们对这件事的态度的变化,即是否还是那么厌恶/喜欢;
再者,结合第三方数据——如用户地域、性别等信息,还可以对不同人群的肖像进行更精细地刻画。
文本观点提取
基于知识图谱以及字词间的相似度计算,高度精炼、概括每段话的核心表达观点。
例如:“喜欢这个妆容,但是口红颜色太深了”,观点1:妆好;观点2:口红深。
对海量评论进行观点提取,可以精准、高效地总结不同网民对于同一件事件所表达出的不同观点,并可以对其进行归类和比较,帮助分析人员在第一时间获取用户的关注热点信息或是用户最反感的主要问题等关键信息。
文本相似度判断
一对一、一对多或多对一的文本匹配,从理解不同字词所表达的含义入手,结合知识图谱,判断两段文本核心观点的一致程度。
例如:对同一事件或两个不同事件的评论进行相似度对比,可以根据结果看看用户在用词或表达上有什么共同点。不同事件间的评论对比,还能帮助发现“恶性”事件及其评论内容之间的潜在关系,甚至能洞察出某件事/某个人近期的活动形象会不会影响对其舆论的积极/消极性.
词法分析
句式分析:对文本内容中字词的解读,依照文本核心观点表达,将字词拆分成有语法含义的序列;
词法分析:基于知识图谱以及字词间的关系分析,可以展示出每个字词的词性和语法结构。
针对网民们成千上万条评论,可以通过词法分析引擎来观察积极评论或消极评论分别常用的用词习惯、句式、词法。
从中可以总结出当下网民普遍所使用的的话术/用词习惯,以及不同人群在表达自己观点时所特有的语言特点。
总体而言,基于自然语言处理的技术手段对网络暴力文本进行分析,不仅能及时控制负面影响扩散,也能让监管机构和平台运营商更好地了解网络暴力事件产生成因。
03
AI算法升级:
上演“疑犯追踪”
如果说自然语言处理是基于对网络暴力文本及用户行为的综合分析,当不能检测评论内容的情况下,能否精准地识别出潜在的网络暴力者?
近日,日本德岛大学的计算机研究者联合日本大型网络公司代理商Cyber Agent在《人类行为计算》上发表论文,他们用机器学习的方法,分析了Cyber Agent旗下一款社交类游戏的使用数据,并且在不监测聊天内容的情况下,仅基于聊天次数、聊天对象、聊天时间等基本信息,就能较为精准地识别出潜在网络违法者,并预测出违法行为的大概时间。
研究者基于两种传统犯罪学理论开发了这套算法:日常活动理论和社会传染理论。
日常活动理论提出,许多犯罪行为并不是随机发生的,犯罪者和被害人往往在日常活动中有交集。
例如,在现实生活中,小偷在盗窃前会去目标地点踩点,并观察目标人物的行为规律;同样的,网络上的犯罪者更需要提前与“猎物”取得联系,套取信任。
因此,玩家的社交活动数据中或许就藏着“犯罪预告”。
另外,社会传染理论还补充了重要的一点:违法倾向或违法行为也会传染。最常见的例子就是网络暴力。
网络暴力往往来源于某种过激情绪的广泛传播:在群体的裹挟下,有的人不知不觉就失去了独立判断能力,无意间成为了网上的施暴者。
在这两种理论的基础上,研究者选择了是一款名叫Pigg Party的手机游戏。
它主打社交功能,用户登录账号后,可以装扮虚拟的房间和个人形象,与朋友或陌生人以私聊、群聊、公聊的方式进行交流。
研究人员采用擅长从复杂数据中提取特征的算法——多层非线性模型,对55万用户6个月内产生的聊天数据,包括每名用户的聊天频率、聊天时间、消息的接收者等进行了分析。
研究者组合多种神经网络模型和算法,搭建了预测违法事件的人工智能。
性能测试结果显示, AI能根据用户数据,较为准确地预测未来的违法者和受害者账户。输入用户两个月内聊天的时间、频率、对象,AI对接下来两个月内违法账户的预测准确率可以达到84.85%,对受害者账户的预测准确度也接近85%。
除了对个体账户违法或受害的风险有较好的预测能力外,只需提供一周内的用户活动数据,AI就能基本精准地预测接下来的一周网络社区里发生违法事件的时间,对小时和日期的预测准确率高达95.83%和85.71%,并且结果与预测受害给出的时间相吻合。 更有趣的是,AI分析数据后预警发生违法事件的时间,并不一定处在以往发生违法事件的时间段中,可见它掌握的并不仅仅是固定的规则,还有违法者言行中的真正“逻辑”。 研究者认为,借助AI,系统管理员能更好地维护网络安全和用户权益。尽管目前的AI并且不能进一步预测违法事件的具体类型,但它或许能抓住网络上“隐形”的违法者,更好地保护我们的安全。
原文标题 : 对网络暴力Say NO!AI算法如何辨“好坏”?