©IT之家 2022-05-03 (85)赞 (0)回应
官方 网站建设:企业、政府、学校网站建设、开发、运营,3D网页开发(广州13423640808,深圳13922266979,微信同号) *在线咨询
官方 全能网队:让企业内低性价比的网站运营/设计师下岗!每月最低仅需375元统一包起网站运营+编辑+设计+推广+服务器维护工作 *在线咨询
官方 丰业合作社:广东省级示范社,30多年原产地批发供应荔枝、圣女果、番石榴、火龙果等 #13922255007 *在线咨询 *填写收购意向
官方 场地租赁:廉江良垌水果收购场地/冷库/办公室租用 了解详情 #13542015105 *填写意向
本文来源于©IT之家,本站乃公益性发布
本周早些时候,Mozilla 宣布其 Common Voice 数据集现在包含超过20000小时的内容,世界各地的任何人都可以使用这些内容来改进他们的语音识别软件,几乎是一年前的两倍。
IT之家了解到,最新的英语数据集有 71 GB,支持的语言也比以往任何时候都多,增加了蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语。
根据 Mozilla 的说法,Common Voice 项目允许任何人为项目贡献自己的声音,从而让虚拟助手能够理解更多的口音。此外,Common Voice 项目是开源的,可确保大型科技公司无法独占,为小型开发商和公司提供了构建竞争产品和服务的机会。
Mozilla 在最新数据集版本中指出的亮点如下:
6种新语言:蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语。
27种语言至少有100小时的语音数据,包括孟加拉语、泰语、巴斯克语和弗里斯兰语。
9种语言至少有500小时的语音数据,包括基尼亚卢旺达语(2383小时)、加泰罗尼亚语(2045小时)和斯瓦希里语(719小时)。
9种语言有至少45%的性别标签为女性,包括马拉地语、迪维希语和卢干达语。
粤人/粤机构/粤村镇