谁在椭圆形办公室发推:机器学习揭露川普推文的真实作者

人工智能服务网 中字

一个小游戏

让我们玩一个小游戏。我会提供一条推特,你来猜猜作者是谁?

发推的是川普本人,还是他的一个助手?

别向下滚动太多,以免不小心看到答案!现在是第一条;谁写的,川普还是他的一个助手?

译者注:推特显示的是译者所在时区(东八区),换算到川普所在的华盛顿特区时间(西五区)需要减去13小时

这条比较简单。这条推文使用了单词“via”,明显指示了这是助手所发。它包含一个链接,另一个助手发推的迹象。它是在一天中午发布的,它很正式,不带感情:一切都指向助手。

是的,你猜对了,这条推是助手所发!好,再来一条:

这是川普所发,还是助手所发?同样,让我们综合一切迹象。这一条推文包含了更多感情,通常这是川普的标记。推文里有一个感叹号:这是川普的调调。记得换算时间,时间是6:30pm,工作日差不多结束了。所以,我们可以自信地猜测这条推文的作者是……

川普!是的,又猜对了!

关于弗林的推文

下面是一条重磅推文,整个项目就是因这条推文而起:

这条推文发布于2017年3月26日之后,如果你没忘记的话,这意味着这条推文没有真正发布者的标签。只能寄希望于我的模型了。事实上,这条推文的作者不怎么好猜。它包含“lied”、“guilty”、“shame”、“hide”这样饱含感情的单词——这可能显示川普是作者。另一方面,它又比较正式;语法很规整,同时包含一些超过平均长度的单词:这些又是助手代笔的迹象。它是在中午时刻发布的,又一个助手代笔的暗示。但它又很个人化,暗示是川普。那么我们的模型怎么看?

rf [ 0.23884372  0.76115628]ab [ 0.49269671  0.50730329]gb [ 0.1271846  0.8728154]knn [ 0.71428571  0.28571429]nb [ 0.11928973  0.88071027]gnb [ 0.9265792  0.0734208]lr [ 0.35540594  0.64459406]rf [1]ab [1]gb [1]knn [0]nb [1]gnb [0]svc [1]svm [0]lr [1]([1], [ 0.15384615,  0.84615385])

“rf”代表随机森林,它预测1,也就是川普,概率为76%(前7行显示概率,第一项为助手,第二项为川普;接下来9行显示预测:0表示助手,1表示川普)。“ab”是AdaBoost,同样预测川普,但是概率是51%对49%——一点也不自信。梯度提升模型更自信,87%的可能是川普。不过KNN并不赞同:71%的可能是助手。多项朴素贝叶斯预测川普,高斯朴素贝叶斯却预测助手。两种支持向量机器模型的意见也不一样:SVC预测川普,SVM预测助手(由于这两个模型构建的方式,它们无法输出概率估计,这是上半部分不包括它们的原因)。逻辑回归比较中庸,64%的可能是川普,36%的可能是助手。也就是说,6个模型预测川普,3个模型预测助手。

事实上,在花费数周事件阅读和分析数以千计的川普推文之后,我认为这条推文是一个协作撰写的最佳样本。从主题和情感的角度分析,它是100%的川普式推文。但从风格和语法的角度分析,它看起来又像是来自一个助手。在我看来,川普大概和多德一起起草了这条推文。川普告诉多德他想说什么,他想怎么说,然后多德实际编写了推文。这是我的最佳猜测。

这显示了这些模型并不是完美的,有不少不一致的地方;同时推文包含的信息对训练机器学习模型而言太少了。我最终的集成模型,在测试集上达到99%精确度的决策树,给出的最终预测是川普,概率为85%(上面的代码中的最后一行)。所以这就是我们最终的答案:川普。不是约翰·多德,川普的律师。所以他们声称是多德而不是川普写了那条推文,我们只能设想这是:

假新闻
声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存