产品概述
语音引擎ASR-200H是我司具有自主知识产权的智能语音、智能语义人工智能产品,采用开放性架构设计,构建的一体化的人工智能能力平台。用户可根据自己的需求,对平台功能模块进行自由组合。平台能够与业界主流的软硬件产品实现互联互通,将人工智能技术服务有机整合,让人工智能技术应用简单化。
产品特点
l 融合性:整合对外接口服务,简化用户业务实现逻辑;支持平台内部不同能力间的信息互通,形成优势互补,拓展应用范围。
l 开放性:支持国产系统运行环境部署,满足自主可控需求;平台拥有广泛的软硬件兼容性,提供标准开放的API和支持 Windows、Linux、Android、iOS 等多种平台的SDK扩展,易于用户集成。
l 可扩展性:平台支持多种人工智能能力服务的平滑演进,以适应不断拓展的业务空间;平台总体框架统一,增加新业务时不需要更改系统的软件结构和网络结构;平台能够随着业务量的增长进行功能升级和系统规模扩展,保障用户业务的连续性。
l 高可靠性:核心服务支持多点热备,无单点故障;统一的负载均衡设计,合理调度服务资源,资源利用率最大化。
功能特性及性能指标
语言编码 | 中文(cn)、英语(en)、粤语(yue)、闽南语(nan)、上海话(x-shanghai)、四川话(x-sichuan) |
响应(对接)接口协议 | HTTP(S)、WebSocket接口 |
语种支持 | 普通话:中文;方言:粤语、四川话、闽南话、上海话;少数民族语言:维、蒙、藏 |
语音识别格式 | 包括但不限于pcm、wav、mp3、v3、vox、speex、opus、 G.711(alaw-A率, ulaw-μ率)、G.729A、G723.1等语音编码格式 |
前处理功能 | 音频格式解码、降噪功能、VAD语音激活检测 |
后处理功能 | 打标点、文本顺滑、数字归一化、文本分段、敏感词过滤 |
质检相关功能 | 话者分离、情绪检测、静音检测、语速检测、性别检测 |
模型优化训练 | 模型定制训练、本地化训练 |
模型加速 | 支持GPU解码 |
开发集成 | 提供标准开放的API,提供支持Windows, Linux, Android, iOS的SDK |
识别率 | 0丢包率网络环境下,中文普通话识别率95% |
性能 | ASR语音引擎提供基础4路并发授权,可根据服务器性能及客户需求增加授权。 |
功能简介
1) 接口服务
语音引擎主要的接口服务形式为HTTP/WebSocket议的接口。HTTP/WebSocket 接口服务直接暴露对外的访问接口,接受客户端的请求。接口服务一般都会提供 HTTP 接口,如果是一些涉及到流式传输的访问,例如ASR语音识别时分片传输音频的情况下,也会提供 WebSocket 接口。接口也都可以配置为支持 HTTPS / WSS 加密接口的形式。
2) 网关服务
直接和外部对接,提供HTTP/WebSocket协议的接口服务。网关服务自身会实现诸如路由、负载均衡、鉴权、限流等与具体能力无关的功能,然后将请求转发给具体的后端能力服务。
3) 能力服务
提供ASR(Automatic Speech Recognition,自动语音识别)能力服务,主要提供了将用户输入的音频转换为识别文本以及其他结构化信息的功能。
4) 授权服务
语音引擎在内外部署的情况下需要部署和启动授权服务,授权的控制是在接口层和/或能力服务层实现的,由接口服务/能力服务在识别时访问授权服务来检测授权信息。