拥有技术

语音唤醒

  • 兼容多种声学前端

    兼容多种智能硬件的声学前端,并通过先进的VAD和增强技术,在各种嘈杂环境下均有良好识别效果。

  • 唤醒+意图 一语即达

    一句话语音指令可同时包含唤醒词和指令词,一语即达。

  • 支持双唤醒词

    厂商可使用官方唤醒词,或自定义唤醒词,同一场景下,小微均能识别。

  • 支持近场+远场唤醒

    不光近场唤醒,远场唤醒一样可靠。

语音合成

  • 个性声音包

    通过个性化的声音样本(如某个明星、动漫形象等),可自动训练和学习,定制厂商专属的个性声音包。

  • 本地+云端合成

    设备可兼具本地和云端合成能力,适合不同场景使用,云端合成音色更自然。

  • 长句流式合成

    对于整段文字,亦能通过云端进行流式合成,第一时间进行朗读播报。

  • 支持中英文、男女等

    可根据需要,进行中英文、男女音色的合成。

语音识别

  • 哼唱识别

    对于歌曲的人声哼唱,亦能准确识别和查找出歌曲的名字。

  • 童声识别

    可识别童声,并在不断扩充其他种类的特殊人群。

  • 声纹识别

    可识别不同人的声音,针对不同用户提供个性化的响应。

  • 长语音流式识别

    可在不中断长句说话的情况下,进行语音流式识别,实时输出识别结果。

  • 中英文、方言识别

    可识别中英文,并对方言,如粤语亦有很好的识别能力。

  • 本地+云端识别

    通过云端API和硬件SDK,可兼具本地和云端识别能力。

自然语言处理

  • 自动扩展语料

    拥有自己的语料扩展平台,可通过有限的语料及网络数据,自动学习和扩展语料,语料数量高达百万条。

  • 覆盖多领域服务

    拥有专属定义的领域和意图库,并不断通过网络学习扩充,领域覆盖达到近百项。

  • 特殊情景模式

    根据当前场景需求,可启动独立的场景对话模式,如中英文翻译。

  • 闲聊和多轮对话

    内置大量闲聊语句,满足用户各项娱乐化需要,并支持某些场景的多轮对话。

  • 指代能力

    可根据上下文情景关联,准确判断“他、第一个、这个”等指代词语的上下文对应关系。

  • 高性能指标

    通过先进算法,准确判断用户意图,给出最适合的结果。

知识图谱

  • 深度关联与推理

    基于海量知识库和用户浏览、搜索等数据,对用户语音意图进行深度关联和判断,真正了解用户意图。

  • 覆盖长尾领域

    对于用户很多冷门的知识问法,也可以通过知识图谱关联查找,快速给到准确响应。

  • 精准营销

    深度挖掘用户群体之间的关系,以及相关喜好,供厂商制定特定营销策略。

其他技术

  • 图像识别

    可别人脸、花草、书籍、艺术品等,与摄像画面结合,AR动态呈现相关信息。

  • AR引擎

    支持Marker-based AR、Markerless AR、人脸识别、云识别的AR开发引擎,提供Unity、Android、iOS以及基于TBS的Web解决方案

  • 大数据

    拥有大量用户原始语音query数据和行为数据,可提供精准用户画像分析;拥有千万级语料实体,可响应各种语音指令。

  • 有屏和无屏响应

    针对有屏和无屏智能硬件,提供不同的人机自然响应,并能自适应不同硬件系统。响应自然丰富。

  • 系统反馈

    利用不同硬件设备自带的指示灯、扬声器、振动装置等,给用户准确清晰的组合式反馈。

  • 物联互动

    针对用户的不同硬件设备,可实现对用户指令的同步组合式响应,让服务跨平台联动。