使用机器学习算法,研究人员可以判断一个人的手写英文文本,以确定作者是来自这五个不同国家——马来西亚,伊朗,中国,印度和孟加拉国的哪一个。
研究人员创建了一个由这些国家100人组成的数据集,他们用英语写作,共计500行。使用这些手写数据,一个名为Cloud of Line Distribution(COLD)的工具可以分解单个字母,测量文本的直线度或曲率。该算法在确定作者的国籍方面,执行相同的任务的时候,表现优于现有的方法,判断有些国家的书写人员的国籍的正确率甚至高一倍。
该算法正在进行的是机器学习最优方法——获取模式。例如,当中国本土作家使用罗马字母时,他们会采用直线书写字母,因为汉字通常是用直线的笔画组合而成的。另一方面(双关语),来自印度和孟加拉国的作家有着曲线书写的习惯,因为他们的大多数剧本都是草书,形状更圆。
判断笔迹是计算机视觉研究人员解决的首要任务之一。以前的研究试图检测情绪,对性别进行分类,并确定作家的年龄,但除此之外,没有做太多工作试图从笔迹中提炼出更多信息,可能是因为没有人找到通过它获利的方法。
来自印度、中国和马来西亚的研究人员提出这种技术对犯罪调查很有用。警方越来越多地转向生物识别技术,以此来解决犯罪问题,从手写体中提取的识别信息可以补充人脸识别软件等其他技术所识别到的信息。
但目前,针对这些技术,尚未解决此类技术或者类似技术的隐私和民权问题。例如,放大训练数据中现有偏见的错误可能会将无辜的人牵连到刑事调查中。或者公司可以使用手写识别软件根据某人的国籍甚至智力等特征来区分潜在客户。
实际上,在执法部门在考虑是否使用这些技术之前,研究人员必须考虑拓展他们的数据集和用途,来证明COLD并不仅仅是一个有趣项目的小数据集。