語音(yīn)識别
語音(yīn)識别爲開發者提供語音(yīn)轉文字服務的(de)最佳體驗。經大(dà)體量業務充分(fēn)驗證,也(yě)在大(dà)量互聯網、金融、教育等領域的(de)外部客戶業務場(chǎng)景成功落地,日服務億級用(yòng)戶。具有海量數據支撐、算(suàn)法業界領先、支持語種豐富、服務性能穩定、抗噪音(yīn)能力強、識别準确率高(gāo)等優勢。
功能
語音(yīn)識别開放錄音(yīn)文件識别、實時(shí)語音(yīn)識别和(hé)一句話(huà)識别三種服務形式,滿足不同類型開發者需求。
錄音(yīn)文件識别
對(duì)不超過一小時(shí)的(de)錄音(yīn)文件進行識别。适用(yòng)于語音(yīn)時(shí)間較長(cháng)、對(duì)實時(shí)性要求低的(de)場(chǎng)景,例如客服質檢、視頻(pín)字幕生成、音(yīn)頻(pín)節目字幕生成等。
語言和(hé)方言:目前支持中文普通(tōng)話(huà)、英語、粵語。
行業/領域模型:目前支持音(yīn)視頻(pín)領域模型。
音(yīn)頻(pín)屬性:支持 wav、mp3、silk、speex、amr、m4a 等主流的(de)音(yīn)頻(pín)格式,支持8k、16k采樣率的(de)單聲道或雙聲道音(yīn)頻(pín)識别,支持16bit的(de)數據采樣精度。
音(yīn)頻(pín)數據長(cháng)度支持:若采用(yòng)直接上傳音(yīn)頻(pín)數據方式,建議(yì)音(yīn)頻(pín)數據不能大(dà)于5MB;若采用(yòng)上傳音(yīn)頻(pín) url 方式,建議(yì)音(yīn)頻(pín)時(shí)長(cháng)不能大(dà)于1小時(shí)。
自學習(xí)模型:支持通(tōng)過語言模型自學習(xí)工具進行定制優化(huà),可(kě)以有效提高(gāo)文本場(chǎng)景下(xià)的(de)語音(yīn)識别準确率。
熱(rè)詞:目前支持通(tōng)過控制台方式和(hé)API方式進行熱(rè)詞的(de)創建,添加熱(rè)詞可(kě)以顯著提升專有詞彙識别準确率。
關于錄音(yīn)文件識别使用(yòng)詳情,請參閱 錄音(yīn)文件識别 API 文檔。
實時(shí)語音(yīn)識别
對(duì)實時(shí)音(yīn)頻(pín)流進行識别,達到“邊說邊出文字”的(de)效果。适用(yòng)于有一定實時(shí)性要求的(de)場(chǎng)景,例如語音(yīn)輸入、語音(yīn)機器人(rén)、會議(yì)現場(chǎng)記錄、直播内容審核、視頻(pín)實時(shí)添加字幕等場(chǎng)景。
語言和(hé)方言:目前支持中文普通(tōng)話(huà)、英語、粵語、韓語。
行業/領域模型:目前支持金融領域模型。
音(yīn)頻(pín)屬性:支持 wav、pcm、speex、silk、mp3 的(de)音(yīn)頻(pín)格式,支持8k、16k采樣率的(de)單聲道音(yīn)頻(pín)流,支持16bit的(de)數據采樣精度。
音(yīn)頻(pín)數據長(cháng)度:建議(yì)每個(gè)數據包的(de)音(yīn)頻(pín)分(fēn)片最大(dà)不能超過200KB。
自學習(xí)模型:支持通(tōng)過語言模型自學習(xí)工具進行定制優化(huà),可(kě)有效提高(gāo)專有領域或行業下(xià)的(de)語音(yīn)識别準确率。
熱(rè)詞:目前支持通(tōng)過控制台方式和(hé)API方式進行熱(rè)詞的(de)創建,添加熱(rè)詞可(kě)以顯著提升專有詞彙識别準确率。
一句話(huà)識别
對(duì)60秒之内的(de)短音(yīn)頻(pín)文件進行識别。适用(yòng)于語音(yīn)消息轉寫場(chǎng)景,例如語音(yīn)短信、語音(yīn)搜索等。
語言和(hé)方言:目前支持中文普通(tōng)話(huà)、英語、粵語。
音(yīn)頻(pín)屬性:支持 wav、mp3 的(de)音(yīn)頻(pín)格式,支持8k、16k采樣率的(de)單聲道音(yīn)頻(pín),支持16bit的(de)數據采樣精度。
音(yīn)頻(pín)數據長(cháng)度:若采用(yòng)直接上傳音(yīn)頻(pín)數據方式,建議(yì)整個(gè)數據包不能大(dà)于600KB;若采用(yòng)上傳音(yīn)頻(pín)url方式,建議(yì)音(yīn)頻(pín)時(shí)長(cháng)不能大(dà)于60s。
自學習(xí)模型:支持通(tōng)過語言模型自學習(xí)工具進行定制優化(huà),可(kě)有效提高(gāo)專有領域或行業下(xià)的(de)語音(yīn)識别準确率。
熱(rè)詞:目前支持通(tōng)過控制台方式和(hé)API方式進行熱(rè)詞的(de)創建,添加熱(rè)詞可(kě)以顯著提升專有詞彙識别準确率。