#输入法越来越难用# 这年头,输入法真是越来越难用了。不仅常用字拿不到优先级,词语解析也经常错得匪夷所思。有的时候,你打了一个词,下意识按了确认,一看,选错了,你要的字在第二个。于是你重新打一遍,这次学乖了,直接按2,结果输入法也预判了你的预判,把你上次误选的那个词顶到了第二位,正确的字反而回到了第一个。。。
这锅还真不是AI的,输入法的核心底座是对拼音串、词和用途的理解,AI不会污染这些环节。思来想去,我感觉原因首先就是互联网语料大爆炸,导致数据被严重污染。早期互联网用户少,词汇量相对集中,一套通用的云端词库(语料主要来自新闻、出版物、标准网页文本,词频分布非常稳定)就能覆盖绝大多数人的输入需求。
现在可不一样了,电竞圈、二次元、饭圈、短视频等等市场,每天都在以指数级的速度创造和抛弃海量词汇。为了覆盖这些新词,厂商不得不大规模引入电商搜索日志、短视频评论区等口语语料。数据量上去了,质量却跌没了。
当然了,污染更狠的可能还是用户自己,不少人打字时并没那么严谨,大量拼音半吊子打出的错别字,消息也照发不误。对输入法来说,这些带着错字的文本进入词库后,它也搞不清到底谁对谁错。也有一些人,因为平台审核严苛,故意用错字来避嫌(比如播播间之类的词语),也在进一步污染输入法的词库。
还有个不能忽视的原因,就是数据安全管控变严格,云端词库同步不一定是默认开启的,必须用户主动绑定账户、主动授权,不少人换一个设备就得从头训练输入法,自然也就觉得不好用了。
而厂商这边呢,搜狗、讯飞、百度三家占了第三方手机输入法96%的市场份额。他们的重心是皮肤、广告、添加乱七八糟的新功能,谁还费劲巴拉卷输入准确率呢?其实用户从不需要一个功能大杂烩的输入法,只需要一个安安静静地待在屏幕下方,纯粹的打字工具。


