亚马逊的AI字幕错误率还要更高达到了3672次超过52%
来源:IT之家 发布时间:2022-02-27 14:36 作者:IT之家 阅读量:7285
AI 自动生成的字幕,能离谱到什么程度。不仅把螃蟹误听成废话,当场爆粗:
甚至还能把玉米给翻译成 p*rn。去年,美国阿拉巴马州一个仓库的工人试图成立工会,但没成功。
关键在于,这些是 AI 给儿童节目自动生成的字幕被 AAAI 2022 收录的一篇新研究发现,在 7013 个儿童视频中,接近 40% 的节目出现了少儿不宜或脏话等词汇
甚至在一个 113 集的儿童机器人学习栏目中,AI 就爆粗了 103 次,平均接近一集一次!对此,油管在接受《连线》采访时回应:
我们为 13 岁以下的儿童开发了 YouTube Kids,这个 App 会关闭字幕生成功能。
但如果真有字幕需求的话,如何才能想办法减少这种 AI 生成错误一起来看看
亚马逊谷歌都很祖安
先来看看这篇论文的调查结果研究人员一共从油管上选出了 24 个儿童频道,分别记录了这些频道的播放量和订阅量可以看出,这些筛选出来的视频播放量基本都达到了百万级,订阅人数也同样不少
然后,研究人员分别试了一下谷歌和 AWS的字幕生成效果结果显示,AI 字幕的少儿不宜率可谓离谱:在 7013 个视频中,谷歌 AI 出现错误字幕的次数达到 2768 次,接近 40%亚马逊的 AI 字幕错误率还要更高,达到了 3672 次,超过 52%
具体来说,两个 AI 分别容易在这些不太恰当的字词上出错:
图左亚马逊,图右谷歌
在这些数据集中,有一些词语又尤为少儿不宜,例如一些骂人的脏词:
-
背景音乐嘈杂
-
说话者为婴儿
-
说话者为儿童
-
说话者以英语为第二语言
-
说话者在唱歌
包括但不限于这些情况
那么,有没有什么办法减少这种情况发生呢。工人们吐槽道,他们被要精力强加了不合理地工作目标,而这些目标就是算法推荐的。
语序连贯的错误更容易修复
研究人员提出了一个新的数据集,利用近音字词来构建禁忌词的替换备选例如,对于 crap 这一可能出现的粗口,研究人员就给它设置了 crab,craft 等读音相似的字词,便于 AI 在搞错时进行替换
具体来说,他们在 BERT,XLM,XLNet 等 NLP 模型上,针对完形填空任务进行了重新训练,也就是用 遮住部分单词,让 AI 来填写对应的内容。亚马逊的高科技装配线让公司的效率不断走高,却让员工苦不堪言。
结果显示,在语序正常,前后文案有逻辑的视频中,AI 替换的准确率更高:
可是在一些逻辑不强的文案中,成功替换的效果就没有那么好了:
最终,Megatron 和 Levenshtein 等模型展现出了最好的修复效果,分别给亚马逊 AI 带来了超过 25% 的正确修复率,给谷歌 AI 带来了超过 28% 的修复率。
看来 AI 在字幕生成能力上还是任重道远啊。。
论文地址:
参考链接:
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
站点精选
- 以前NVIDIA的公共显卡使用涡轮风扇散热现
- 虽然SpaceX率先将NASA宇航员运送到国
- 我市举行庆祝2021年重阳节茶话会充满了对老
- 从为关键的网络和边缘用例工作负载提供更好的整
- 生物医药板块今涨1.95%万孚生物涨20.0
- 科技部:首款中和抗体新冠药物研发进展顺利多个
- 没想到吧!这类基金目前全部实现正收益高涨逾2
- 宁德时代联合三一重工在福建宁德举办福建省换电
- 减负增质提能效优质均衡促发展
- 就能立即进入新的虚拟世界进提升视觉体验
- 公司暂无购买稀土及锂矿计划7个钨矿探矿权!5
- 中国国家统计局18日公布前三季度中国GDP同
- 规范非公医疗超声学科发展中国非公立医疗机构协
- 本月央行平价续作MLF市场对本月LPR利率保
- 顺丰:航空机队规模增至69架,
- 垒知集团:发行可转债申请获证监会审核通过