高考考试网
当前位置: 首页 高考资讯

智能语音交互方案(如何利用好智能语音这个点)

时间:2023-07-27 作者: 小编 阅读量: 2 栏目名: 高考资讯

但目前真正在应用阶段,并不理想。这里面有诸多原因,我认为主要是两方面的限制:语音识别可靠性。16年11月份的时候,科大讯飞开了个发布会,宣称语音识别的准确率达到97%。与同类产品相比,Siri在很多方面都需要做改进。明确的功能界线。Siri需要给用户划出明确的界线,让用户知道它可以做什么,哪些事情做得比较好,哪些是不擅长的。而实际上,Siri没有一个聚焦的功能,用户很少会想得到如何使用它。另外还有待处理事务的卡片式提示。

智能语音产品的未来会是如何,在产品中怎样正确利用智能语音?

问:你觉得智能语音未来会对交互有着怎样的影响,会不会取代 UI 交互吗?

答:智能语音是未来的趋势,我们现在已经开始使用语音交互。

在一次机器人交流会上,我向一位来自优必选的演讲人提了上面的问题,但我并没有得到想要的答案。智能语音的未来会是什么样子,怎么用智能语音做出好的产品呢?我一直在不断地尝试各种产品,不断地思考。

试验

我找到所有涉及智能语音的相关产品,都挨个体验了遍。智能手表,智能音箱,智能机器人。还有手机上的各种助手,像苹果的Siri,Google的 Allo,微软的 Cortanna,助理来也。这些产品有硬件的,也有软件的。终端有 PC,手机,手表。系统平台又有 mac,android,iOS等等。

第一次使用上面的产品并不自然。就像第一次使用触摸屏手机,没有键盘,很不适应,特别是打字。缺少按下去的实体感觉,会让人觉得触摸是个很生硬的操作。还好,手机提供按下震动反馈功能。慢慢适用后,不需要震动也可以的。而相对触摸操作,智能语音是一种更前沿的交互方式。

触摸操作缩短了按键操作交互路径。在手机没有触摸功能之前,想要点击某个按键时,得先把焦点移动到目标位置。有了触摸功能,一个手指头戳过去就行了。那智能语音相较于触摸操作会不会也有同样的意义呢?触摸操作是基于 UI 的,将屏幕作为载体。智能语音则不需要界面,没有边界。

换句话说,智能语音突破 UI 交互的层级,直达目标功能。好比说,以前你去政府机关办个证件,你得按流程路径走,先去 A 部门盖个章,再拿这个章去 B 部门盖个章,等你集完所有章,就可能兑换最后的卡片了。每个部门都得跑,跑错了就办理不下来,不熟悉的人跑下来晕头转向的。现在呢,下个 App,按要求上传几张电子证件,等个几天,证件就办好了。嗯,还包邮。中间,你不用跑一个部门,也不需要知道先跑哪个部门,再跑哪个部门,一个操作就搞定了。语音就类似这样,以前要几个界面点击,现在就是一句话的事儿。

体验

上面是我对智能语音意义的理解。但目前真正在应用阶段,并不理想。这里面有诸多原因,我认为主要是两方面的限制:

语音识别可靠性。16 年 11 月份的时候,科大讯飞开了个发布会,宣称语音识别的准确率达到 97%。而同一时间,百度,搜狗也开了发布会,准确率也达到 97%。这个准确率对于商用的意义有多大呢?我做的有个机器人的项目,机器人可以跟用户聊天对话。机器人语音识别的技术就是采用科大讯飞的。我们在公司测试的时候,搞个简单的一问一答对话都没问题。你问机器人,今天天气怎么样?结果很快就能出来。当我们拿到房地产售楼处,效果不理想,并且跟预期的差距是没有预料到的。

在公司测试的时候,会有杂音,整理环境不算安静,时而有人说话。当时,觉得这种测试环境不算理想,虽然偶尔有错误但也能接受。售楼处环境不一样,因为营销需要,一直有电视播放营销视频。就算没有人说话时,机器人也会识别这些声音。这时候要是有人跟机器人对话,机器人根本无法准备识别说话的内容。人多的时候,售楼大厅里时刻都有人说话,一唤醒机器人,机器人就在那里呜哩哇啦了,说一些莫名奇妙的话。因为它识别出的内容都是乱七八糟的。

当然,你也可能说这是场景的原因。在家时或者车里就没这么糟糕了,这是应用层面的问题。如果语音识别不能在技术上解决可靠性的根本问题,那它的应用领域和范围也大大受限制了。这里面需要解决的问题也很多,多个人同时跟机器人说话时,要区分好不同人说的话。张三说了哪些话,李四说了哪些话?如果有背景噪音,甚至是人说话的噪音,都要能够去掉。

语义理解。如果只是单纯地解决语音识别可靠性问题,也就是听得清的问题,并不能称得上智能语音,智能语音还要解决听得懂的问题。只有听得清,听得懂,才能知道要做什么事情。

你对机器说,我要吃苹果。苹果是什么,它不知道。所以你得告诉它,让它学习,有明白苹果的能力。苹果可以是一种水果,可以是一部电影,还可以是一个品牌。那苹果到底是什么呢?如果你告诉机器,只有代表水果的那个苹果才能被吃。那机器就能准确理解你说话的意思,知道你的意图了。做到这一点,就能让机器明白听得懂你说话的内容。

在语义理解领域,相关技术成熟度是远不如语音识别的。要等到语义理解足够成熟还是需要很长的时间。现在有第三方开放的自然语言理解接口,像 Google 收购的 api.ai、百度的 UNIT。你可以利用它们开放的 API 来让你的产品有一定的理解能力,改善你产品的交互体验。接入的过程就像教一个小朋友不断地学习新的知识,不停地写各种表达式,喂给机器,停不下来。你能积累多大的知识库,就看你能写多少。想写得多,那就堆人力呗。有多少人工就有多少智能,所以人工智能。傅盛讲做小雅智能音箱时说了,像「上一首」、「再来一首」的指令泛化都是靠人工的。

业务落地

Siri 刚出来那会,用户期待很大,媒体说这是乔布斯划的一道光,是未来的趋势。以后想要做什么事情,对着手机讲一声就好了。后面很多公司也出了类似的语音产品:出门问问,虫洞,搜狗语音助手,百度语音助手。 大部分产品做了一两年后都停了。现在只剩下大公司在玩了,苹果的 Siri, Google 的 Allo,微软的 Cortana,百度的度秘。

从 2012 年算起,Siri 出来有 5 年多,身边没见有一个人用。前几天,跟一个做智能语音的朋友交流,他问了两个问题。

你觉得 Siri 做得怎么样?怎样做得更好?

Siri 必须要做得更好,12 年出来的产品,到现在,并没有太大的进步。而 Amazon 智能音箱作为后起之秀,却开拓了新的领域。正好有新闻说,Siri 也要换新掌门人了,以前一直都是 Eddy Cue 负责,现在改为 Craig Federighi 负责。苹果肯定也是想将 Siri 与 iOS 和 macOS 做一步融合,突然对 Siri 也有了很大的期待。

Siri 要想做好,先得从入口着手。苹果给了 Siri 快捷入口,但知道的人不多,长按本身就是一个较深的操作。知道的人呢,体验两三次就不用了。与同类产品相比,Siri 在很多方面都需要做改进。

适时的引导。Siri 是新产品,学习新的东西就有成本。不像一般类型的产品,有明确的功能,用户很容易在短时间内建立起产品的认知。用户对 Siri 的理解是,它很厉害,什么都知道。但你稍微问一个偏门的问题,Siri 就傻傻不知道了。要让用户理解智能助手干什么,你需要在合适时间告诉它。

明确的功能界线。Siri 需要给用户划出明确的界线,让用户知道它可以做什么,哪些事情做得比较好,哪些是不擅长的。但不要简单给出提示:「你可以这样问我:xxxx」。

友好的互动。做智能助手,肯定不能一直沉默在后面,不然就沦为工具,只能等到我需要的时候才想起你。而实际上,Siri 没有一个聚焦的功能,用户很少会想得到如何使用它。像Google Now,Cortana 就比 Siri 好得多,这种互动是双向的。即时的互动提醒,根据询问内容给出多种样式回复:有图片,有文字,甚至猜测你的意向来给出相关问题。另外还有待处理事务的卡片式提示。

如果让你来做语音,怎样做好智能这个点?

智能的本质是做好两件事情:预测和建议。

从用户角度来讲,智能就是我做完第1步,你知道我第2步想做什么。而不是说我让你做1件事情,你就按照命令去做这件事,这叫功能。比如说,你对 Siri 说,明天早上 7 点钟叫我起床。Siri 就帮你定好了闹钟,但这没有什么智能可言。

就目前技术,我们不可能做得很智能,预测某支股票是涨还是跌。在一定范围内是可以做一些事情的,已经有些产品做得比较好。你对 Cortana 说到沃尔玛附近的时候,提醒我买牙膏。Cortana 会问你哪个沃尔玛?你说哪个沃尔玛都可以。等你到沃尔玛的时候他就会提醒你买牙膏。Google Now 也是一样,你到了上班的时间没有走,它会提醒你不要迟到了。下班时间到了,它会告诉交通状况怎么样,开车回去需要多长时间。这中间我并不需要标记上班的地点,住的地点。Google 会收集我的轨迹,然后自动标记出来。

上面的的预测和建议都是建立在数据源基础之上。通过收集用户的行为数据来判断你的生活习惯,意图,情绪等。这些数据可以来自:Email,网页浏览历史,日历,位置,短信,其它第三方的App。但不是所有人都愿意把自己的隐私开放出来。

作者:lei,公众号:monster_talks。

本文由 @lei 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自PEXXELS,基于CC0协议

    推荐阅读
  • 腾讯会议没有声音怎么回事(ipad腾讯会议没有声音怎么回事)

    腾讯会议没有声音,其主要原因可能是因为电脑没有打开声音,或者声卡驱动有问题导致的。基于腾讯21年音视频通讯经验,腾讯会议提供一站式云会议解决方案,高清流畅的会议品质让您随时随地体验沉浸式会议协作。深圳市腾讯计算机系统有限公司成立于1998年11月,由马化腾、张志东、许晨晔、陈一丹、曾李青五位创始人共同创立。

  • 无锡电子居住证线上领取操作流程 无锡电子居住证怎么领取

    无锡电子居住证线上领取操作流程来啦!下载安装苏证通(锡证通)APP通过注册本人信息获取网证码,之后按相关操作领取电子居住证即可。详情点击正文。

  • 正六边形面积公式(正六边形面积公式列述)

    边长为a的正六边形,其面积为6个边长为a的正三角形面积之和,S=a^2六边形,多边形的一种,指所有有六条边和六个角的多边形,我来为大家讲解一下关于正六边形面积公式?跟着小编一起来看一看吧!六边形,多边形的一种,指所有有六条边和六个角的多边形。正六边形是其中一种能够密铺平面的正多边形,其余两种为等边三角形和正方形。

  • 儿童假期适合看的纪录片(暑假推荐孩子们看这个纪录片儿)

    果果三岁时,有一天我俩坐车,她问“为什么树往后跑”,无论我怎么解释,她都不理解。在回答孩子问题的时候,我们有意无意就会借用一些概念,就好比解释“树往后跑”要用到相对运动一样。于是,节目组就把5面镜子反射的光叠加到一起,没想到测量之后,竟然有52度!这灯光、这架势,不知道还以为在秘密讨论作战计划。片中经常会出现“大场面”,直接将整部片子拉满了趣味buff。

  • 孕吐怎么分轻重(123孕吐分级)

    虽然原因不确定,但不少专家表示孕吐是由于孕妈体内多种变化发生的共同结果,其主要发生原因是体内的激素异常,即人绒毛膜促性腺激素含量增加。孕早期,HCG会迅速升高,其升高时间与孕吐时间相对吻合,有研究证实:HCG处于最高水平时,孕吐反应最重。同时孕妇的心理状态也与孕吐相关,心理压力较大的孕妇发生孕吐的几率更高。轻微的孕吐是正常反应,但严重的孕吐会影响胎儿发育。

  • 小学生怎么样吵架作文(小学生作文放风筝火了)

    以上,就是现在小朋友的口才表达能力和反应能力。下面这篇《放风筝》的小作文,就显得很有水平,词语运用、场景描写、人物表情动作都非常到位。同样是《放风筝》,小伙伴们之间的互动才是最有趣的。下面这篇同样是《放风筝》,描写了不同的风筝,可见小朋友们的观察能力也是非常棒的。小明,小华、和小红,他们一起去公园的草坪上放风筝。小红看看自己的风筝没有飞起来,后来小红兴奋的说:小明和小华,你们能帮我放风筝吗?

  • 知恩图报善莫大焉意思(知恩图报善莫大焉意思是什么)

    秦穆公尝出而亡其骏马,自往求之,见人已杀其马,方共食其肉。居三年,晋攻秦穆公,围之。遂溃围,穆公卒得以解难,胜晋,获惠公以归。——《史记》秦本纪第五译文:秦穆公曾经外出王宫,丢失了自己的骏马,他亲自出去找,看见有人已经把自己的马杀掉了,正在一起吃马肉。于是给他们酒喝。

  • 2021同里古镇夜间游玩略(2021同里古镇夜景几点开始)

    2021同里古镇夜间游玩略同里夜游开放时间:2021年5月1日—2021年10月31日;夜花园开放时间:17:15-20:30;退思夜花园每周六晚有演出与巡游快闪活动。古镇巡游+快闪互动时间:每周六晚18:30-18:50;退思夜花园演出时间:每周六晚19:00-20:40注:2021年5月1日起,同里景区试行网上实名制预约售票。游客可以在购买夜花园门票时,自行选择预约时段。

  • 空心菜种植时间和方法(空心菜种植时间和方法介绍)

    空心菜对土壤要求不严,但喜欢粘重和肥力充足的土壤,喜高温高湿环境,它能耐35-40度的高温。空心菜的种子表皮较厚而硬,如果直接播种发芽会极慢,影响种植周期,而且如果是长期阴雨天气,可能会导致种子腐烂。空心菜生长对肥水需求较大,除了在种植时施足底肥时,但其长至5cm是就要浇水施肥,让其快速生长,以后要经常浇水,保持土壤湿润。此外空心菜虽然可以一定的密植,但太过于密植,导致它不能接受光照照射,可能会腐烂。

  • 惠普电脑怎么进入bios(惠普电脑bios怎么进入)

    接下来我们就一起去研究一下吧!惠普电脑怎么进入biosBIOS是用来基本的输入或输出系统的一种程序,每台电脑购买时都会携带的这种软件。首先打开电脑,然后再开机之后连续点击F10。这样就可以进入BIOS界面了,进入BIOS界面之后就可以安装或者重装系统了