最近马斯克旗下AI企业开出不菲时薪,面向国内各地征集会本土方言的从业者,用来录制语音素材训练人工智能产品,不少普通人看见高薪兼职立马动心,赶着报名参与录制,这件事也引来大量网友的热议,有人觉得只是正常AI研发用工,也有人忧心海量方言语料外流暗藏隐患。
先抛开各种极端猜想客观来看,如今国内各大互联网平台、本土科技公司,日常也会招募方言录制人员,用来完善语音输入法、车载语音系统,目的是让智能设备听懂各地区口音,方便老百姓日常使用,正规的方言采集本身是AI行业发展的常态操作。国家这些年也在落地语言资源保护工程,系统化收录各地乡音,留存快要失传的方言文化,说明方言数字化采集本身不存在原罪。
但不能因为行业普遍存在,就放松对外企大规模高薪集采方言的警惕,很多人不清楚,每个人的方言声纹自带独一无二的个人生物特征,一旦原始录音毫无限制流向境外数据库,后续很容易被AI技术复刻伪造语音,催生电信诈骗、冒用身份等一系列民生隐患,这也是大众心生顾虑的核心缘由。过往不少零散的方言采集兼职,常常模糊标注数据去向、使用范围,参与者只拿到短时酬劳,完全没法把控自己的语音素材后续会被拿去做什么。
很多老乡只看到时薪几百块的收益,觉得靠着说家乡话轻松赚外快,却忽略了数据出境对应的法律法规,我国数据安全法、个人信息保护法里明确划定规则,重要语音数据出境需要经过合规审批,未经备案随意传输海量本土方言语料本身不合规。不同于国内企业大多在本土存储数据,境外企业远程收集之后,原始音频基本会传回海外服务器,国内监管很难实时跟进后续数据使用轨迹。
我始终秉持一个观点,不必一刀切全盘禁止外企合理的方言数据采集,科技互通是全球化常态,但一定要建立完善的管控门槛。相关部门需要细化外企方言采集备案制度,明确哪些基础日常用语可以收录,带有地域独有俚语、小众乡土话术的内容严格限制出境,同时要求企业对采集音频提前做脱敏处理,抹去能够定位个人、具体村镇的相关信息。
普通老百姓也该擦亮双眼,别被短期高薪牵着走,接单之前仔细看清用工协议,确认数据存储地点、使用年限,拒绝签署无明确约束的录制合同,不能为了一点兼职酬劳,轻易把专属自己和本土地域的语音资源随意交出。方言不单单是日常交流的语言,更是一代代传承下来的民俗瑰宝,放任无节制外流,受损的终究是本土的语言资源安全。
不知道大家身边有没有亲友报名过这份方言兼职?在你看来,怎样平衡AI研发需求和方言数据安全,才是最稳妥的办法?
