印度人工智能后台
亚马逊的MTurk在开始限制非美国员工之前,曾是印度人寻找数据标签和注释工作的热门平台。尽管后来取消了限制,但随着企业客户开始更加重视数据安全,MTurk在数据标签商中的受欢迎程度有所下降。此外,包括Spare5、Cloudfactory和Figure Eight在内的新众包平台也已经进入市场,它们则更加关注注释和标签市场。
Kolasseri说:“在创办公司之前,我曾于2015年至2016年期间在MTurk平台上工作过,如今,仍然不断有新的平台出现。但是,由于企业客户非常关注数据安全,尤其是考虑到许多数据集都是专有的,因此信任这些平台上的工作人员成为他们面临的更大挑战。”
由前Flipkart员工Mall、Ajinkya Malasane和Akshay Kumar Lal所创立的Playment,则以一种略有不同的方式对待注释和标签行业。
该公司为各种用例开发了一系列注释工具,并开发了一个由受过这些工具培训的标签工和注释工组成的众包平台。该公司直接与客户或相关的信息技术服务公司进行合作。
“要将原始数据转换为带注释的结构化数据,你需要前端注释工具、熟练且经济高效的人力资源。此外,由于处理数据的规模化,你还需要有合适的中间件来支持不同的工作流并管理远程人力资源,”Mall说。
Playment的众包平台拥有30多万标签工和注释工。其中,该公司认为约有2.5万人是“高技能顶级玩家”。据Mall称,这些人几乎整天都在平台上,平均月收入为2万至3万卢比。
Playment的大部分工作也来自国际客户,其中包括三星、滴滴出行、阿里巴巴、Drive.ai和Continental AG,其中大部分都属于自动驾驶车辆领域。
iMerit的战略则以员工为中心。其2000多名劳动力中,约80%来自月收入低于100美元的家庭;其中大约一半是女性。“我们的社会使命是在贫困社区和公司或工业较少的地区创造技术就业机会。我们在科技产业稍低、科技就业机会较少的城市开展业务,” Natarajan说道。
所谓的利他主义也有很好的商业意义。Natarajan表示:“我们的合作伙伴和办公地点,允许我们以非常经济高效的方式扩大数据注释和标签团队,并为客户提供高质量的工作。”
尽管iMerit的大部分业务都来自美国——客户包括微软、易趣和Tripadvisor——但其90%的数据注释和标签工作是在印度完成的。
注释自动化
虽然各大公司正在开发用于注释的自动化工具,但由于许多工作需要更为细致的定制注释或标签工作,要想让自动化工具达到高精度还需要一段时间。
Natarajan说,与五年前人工智能还在区分猫和狗的不同相比,现在的人工智能需要处理更高级的工作。“机器学习已经向前发展,所以不再有人要求我们为狗和猫进行标记。如今,每家公司都有定制的需求和非常细微的需求,所以不可能自动实现这一点,也不可能自动给出数据并由一群匿名人士贴上标签。”
他说,基于人工智能的自动化注释工具是不可避免会出现的,但它并不是一个威胁。“自动化注释工具本身就是经过良好注释训练出来的结果。当你试图解决一个问题时,这些工具只能把你带到一定的水平,但是要超越这个水平,你还需要自定义注释,”Natarajan说。
当然,加以一段时间,自动化工具会变的足够有效,从而能够创建更好地数据集。“从更长远的角度来看,我们确实认识到这个行业并不能永久存在。当客户成功时,我们的任务就结束了,”Natarajan说。“但我们也发现,这也并不是一个100%肯定的事情,因为它总是一个持续不断的学习和改进的过程。此外,当客户转向下一个问题时,一切又都从零开始了。”
换句话说,印度的数据标签和注释公司尚未见顶,这一行业可能需要很长时间才会走上业务流程外包的老路。