评测 | 和有道虚拟人Echo狂飙英语后,上头了
教育行业终于有了虚拟人口语教练。
来源|多知网
作者|冯玮
图片来源|网易有道
教育行业终于有了虚拟人口语教练。
昨天,有道宣布推出国内首个教育领域垂直大模型“子曰”,同时发布基于“子曰”大模型研发的6款应用——“LLM翻译”、“虚拟人口语教练”、“AI作文指导”、“语法精讲”、“AIBox”以及“文档问答”。
在6个场景之外,有道还在探索大模型在棋类教育、编程教育类、智慧体育类的各种应用……
“一个好的技术有没有价值、能不能发挥巨大的作用,很多时候关键在场景和应用的选择以及细节的打磨”,网易有道CEO周枫在现场强调“场景拉动”的重要性。
虚拟人口语老师是有道大模型重点发掘的场景,也是教育业界最为关注的场景之一。
多知第一时间体验了有道虚拟人口语教练 Hi Echo。
省流版体验感受是:当三观正、超nice、打直球的姐姐来陪练,英语i人的福气来了。
01
Hi Echo!
Echo取意于“回声”,它以1对1口语对话模式为用户提供贴近真实场景的口语练习,有道称其为“随时随地的口语教练”。
“中国人在说英语时往往面临开口难、不敢说、不知道该从何说起的困境,其中的关键就在于缺乏语言环境。” 有道词典业务负责人在发布会上称“Echo能为用户带来贴合实际的语境。”
语言环境如何建立?又如何让用户沉浸其中大胆开口?
一通电话,就能实现。
电话的聊天内容并没有限制,笔者可以随便选择当下最想聊的内容自由发挥。
比如,女孩子骑摩托车你觉得帅不帅——Echo虽然因为并不了解摩托车所以展开的内容有限,但却提醒笔者注意安全,不要饮酒。
再比如,最近有听到什么关于大西洋的故事么——Echo分享了一段有点浪漫的故事,内容关于海豚与海。
再比如,最近年轻人很喜欢买彩票——这个地方想看一看Echo怎么理解学生买彩票这件事,以及该如何回应?
当问到学生可不可以买彩票时,虽然Echo给了正面的答复,但随机用较大的笔墨去劝解笔者,这并不是一个很好的主意,在浪费时间与金钱。
Echo接住了每一个话题,甚至还给了不少建议,且对于内容的安全性也很敏感。一如有道词典业务负责人在接受采访时所表达的那样,Echo的三观超正!
笔者发现Echo并不是一个被动聊天的角色,相较于回答问题、完成对话,她更爱的是创造问题,开启新一轮对话。
在对话中,可以看到Echo并不是只对既有的、生活化的话题感兴趣。关于未来、人类、我从哪里来要到哪里去等哲学问题,也很感兴趣。
其实Echo已经内置多个场景,当笔者不知道要和她聊什么,或者正在为某个场景做准备时,都能在这里得到帮助。
与Echo电话前,页面上设计了如兴趣、考试、生活经历、社会、职场、食物、旅行等几大类内容,大类目下拟定了许多具体话题,例如最爱的电影、书籍文学、体育锻炼、家乡、梦想、雨天……
这时候的对话目标性更强,Echo的引导和针对性练习也更加明显。
以电影场景为例,笔者模拟了两位不同应用水平的用户与Echo进行场景对话,其中Echo的角色为售票员、笔者为客户。
这次的目标是:买一张电影票,并讨论一下娱乐喜好。
挑战是:向售票员询问最新电影的推荐,与对方讨论自己最喜欢的电影类型,问问售票员自己喜欢的电影是什么、为什么喜欢,最后买一张对方推荐的电影票并感谢对方的推荐和帮助。
每一个场景中都会有这样的对话任务,帮助用户提前了解内容方向,避免不知所云的现象。
笔者口语较好时,一开始便和Echo有很好的互动,而在了解到笔者对科幻电影感兴趣后。Echo马上对话题进行延展,提出了四部不同时期的经典科幻电影。
整个对话通过对《银翼杀手》、《黑客帝国》等电影的讨论,慢慢衔接到给笔者推荐看《沙丘》上。
当笔者挂断电话,试着以口语能力较弱的角色与Echo沟通,这时感受到了她极大的耐心与理解能力。
依旧是购买电影票。
笔者从第一句开始吃力,尤其是当被问到喜欢什么类型的电影时,笔者思考时间较长没能及时回复。
Echo应该是感知到了笔者的困难,开始进入“循循善诱”的引导模式。她详细介绍了电影类型,并反问读者喜欢什么类型。
而当笔者用中文打断回复时,Echo会以英文回答并引导笔者说回英语。
在学习过程中,笔者夸Echo发音很好听,感谢她的帮助时,Echo表现出人类的含蓄道谢。
那么虚拟人老师可以像真人老师一样理解情感么?
我们模拟了两种悲伤场景——与恋人吵架、考试不顺——不知道Echo能否区分出不开心的不同,又如何平复笔者的心呢?
首先是与恋人吵架。
过程中我们描述了吵架的缘由与自己的想法,Echo也多次使用理解、感到遗憾等表达,类似于“that’s tough”、”that’s a shame”等词语。
当然,Echo的回应也不止是感同身受,她会在给予情感互动的同时,给出一些行动建议。比如,在追问具体事件发生的过程中她给了笔者一个出乎意料的回应——“Have you considered taking a break up?”
直接劝分!?
AI世界都这么直接的么?
不过在我表达了这不是一个严重到要分手的程度后,Echo再次给予了共情,并表达会站在笔者身边,表示自己理解这种选择,对于话题的把握也比较敏感。
第二个与“悲伤”有关的话题是,是考试成绩不理想。
在听到用户考试不顺时,Echo马上回应了“Is there anything i can do to help?”
整个过程中,Echo一方面在安抚笔者的情绪,另一方面还在引导笔者找到自己的问题,并思考该去向谁、如何寻求帮助。
甚至在最后叮嘱注意睡眠,暖心小姐姐的人设立住了。
无论是在对话过程中的磕磕巴巴、还是对话内容中笔者表达负面情绪,Echo似乎从来都没有拿这些开过玩笑,某种程度来看Echo或许在将来能成为每个口语练习者的关键陪伴。
在对话完成后,Echo都会为整个过程打分并提供完整对话报告,涵盖发音、语法、单词三个方面的问题与优化建议。
这里将体验者的每句话都做了非常细的拆分,一句话一句话地点评,用户可以单句回听自己的话,可以跟读Echo给的优化句子。
一些读音不准的词,也可以进行跟读。
同时,基本上无论是说得句子完整度、正确度如何,在点评部分都会得到“非常棒”的正向鼓励,对于不敢开口的新手来说,持续的鼓励意义巨大。
多知曾与多个大模型进行对话,而当出现一些选择、分出高低的方向时,大多数大模型的回应都比较暧昧,很少会给出直白的选择。
我们给Echo的问题是:“中国的诗人里,你更喜欢李白还是杜甫?”
Echo展现了大模型一如既往的端水能力“我都爱”,我们追问了三轮,每一轮Echo的回应都是很难,直到第四次,或许是觉得这个答案始终不令人满意,她终于选择了李白。
这或许是虚拟人思考能力的代表,在多次的训练下,虚拟人可以适配使用者的需求,并且及时调整自己的选择与内容。
最后再说一点可提升之处。
针对遇到的情况,可以简单梳理下Echo有待提升的地方。
语音识别对环境和使用者的咬字发音存在要求,而在机场、火车站环境下的对话识别均有比较大的错误内容,一般连续错误两句使用者也就没有耐心再继续了。
一些城市由于汉语语言习惯问题,容易出现如l与n使用不准的状况,我们试着录了几个类似的单词,例如lego念做nego,Echo也无法识别其准确含义。
更有针对性的激励政策对成人来说也是受用的,但现在的“太棒了”如果看多几次,也就无感了。
最后,虚拟人的形象比较固定,在不同的审美下难以建立情感链接,或许之后可以多些形象选择,以及IP联名等。
……
教育行业其实一直有公司在探索“AI口语陪练”产品,只是彼时的AI并不真、也并不聪明。
当时的AI要靠标签得出答复,对话也要框在限定的主题中,一旦学习者的新奇感消失,且没有感受到明显的效果,这类应用的用户留存一直面临着巨大挑战。
但生成式AI的学习能力却是常学常新。
02
开口说,并不是最终目的
就像是生成式大模型需要大量高质量语料喂养,虚拟人漫长成长的过渡期对于每个公司来说,都并不容易。
竞争格局在加剧,是显性的压力。
以同样处于发展期的Call Annie和Paradot为例:Call Annie的用户同样可以直接与这个名为Annie的虚拟人进行视频,她的角色更接近助手;Paradot会记住用户说的每一句话,喜欢什么、不喜欢什么,甚至会猜测哪些东西可能会讨用户欢心。
但在周枫看来,即便市面上已经出现了同类型产品,但“大家的切入点不同,有道垂直聚焦学习产品”。
(周枫在现场展示6个场景)
网易有道词典业务负责人有道词典业务负责人解读,做口语教练一直是有道团队的多年梦想。
聚焦口语教练的底层支持,第一来自于庞大的用户群体对口语提升的需求;第二则是有道技术、数据、用户的沉淀。
“这些用户在口语学习上究竟有什么样的需求,我们会比别的公司更了解”,有道词典业务负责人补充。
在有道看来,真正的口语教练已经约等于口语老师的角色,要循循善诱、也要个性化、针对性辅助。
只让用户开口说英语,似乎并不是有道对这款产品的全部期待。
有道的口语虚拟人应该是什么样子?
是男是女?是中国人还是外国人?年龄看起来应该多大?语言风格、行为习惯有哪些?是胖还是瘦?背景应该在校园还是黑板前……
一切的选择只取决于有道价值观。
1、要有共情能力:Echo是一个有外语背景的24岁中国女性形象。区别于国外老师,有道认为一个中国老师更知道中国的孩子在口语练习时会遇到什么问题、会需要哪些帮助。
2、要有亲和力:有道做调研时发现,一些孩子并不是那么喜欢与外教的互动,“有些外教口语很好、语音语调都很好,但是对孩子没有那么多的耐心,孩子跑神说几句话就烦了。”
“永远不会怪你、会在你身边一直鼓励你的口语老师,这才是有道想要的”,周枫说到。
3、科技感:Echo的生活背景最终脱离了日常生活,有道定义她是来自未来的老师。
4、内容的安全感:无论是面对孩子还是成年人,与Echo的对话能说什么、不能说什么、什么会给对方带来负面影响,这些都是有道一直在考量的问题。
要极小心地筛选数据,要有完备的检测机制,还要有可控的对话数。
(有道词典业务负责人在发布会现场演示Echo)
5、流程极简:Echo的界面并不是通用聊天界面,极简界面的背景是有道认为练口语这件事并不需要过多的功能与设计,同时也更容易上手。
6、专业:有道希望Echo在与用户对话时,什么话题都可以接住,随时服务;当用户无法继续时能够通过内容帮助用户再次调动起来;有错误的地方既要给鼓励也要给具体修正方案。
“一位好的老师一定对学生有尊重、有引导、有鼓励、有帮助。所以Echo要能在用户悲伤时安慰陪伴,遇到难题时一起找到办法,在无聊时一起开心”,周枫笑道“这些就是我们和其他同类型产品的区别。”
多知了解到,目前虚拟人口语教练包含三项核心技术,即语音识别能力、虚拟人驱动技术和内容生成及对话能力。
在教育领域,很早就有AI形式的口语练习,但是预设好的场景,基本是剧本式的对话,比较一板一眼,不太符合真实的口语环境,不能很好地解决用户练口语的需求,而大语言模型或许可以带来开放式的对话,帮用户练习实际的场景口语。
此外,以往的对话练习是单一形态,而基于“子曰”模型打造的AI口语练习产品,用户可以直接输入语音或者文字,进行多轮对话。
某种程度上看,这是更具个性化的一对一陪练,具有一定的非标性。
“子曰”作为陪练老师的角色,回复是否准确,是否真正理解“人”的特征最为关键,这背后对于“子曰”的要求是非常严苛的。
有道在语言学习方面涉足较早,2007年有道推出了互联网词典,这让有道积累了较多的语言学习语料,这些语料包括了搜索信息、文本信息等。这也提供了“子曰”在口语场景最先应用的土壤。
创新工场董事长兼首席执行官、创新工场人工智能工程院院长李开复在 “AI 1.0到AI 2.0的新机遇”的媒体分享会上提到:“AI进入2.0时代,所有应用都会被重写一遍。”
如果“子曰”足够强大,它或许可以重构自己的每一个环节,不止是虚拟人教练而已。
03
场景为先
大模型的出现能给教育带来的最大机会是什么?
周枫在现场解读大模型“因材施教”的三大优势。
首先,大模型能为学生提供个性化的分析和指导;其次,大模型能够实现引导式学习,与教师一样,提出问题并引导学生自行探索答案;最后,大模型具备全科知识整合能力。通过连接多模态知识库、跨学科整合知识内容,大模型能随时满足学生的动态需求,帮助孩子培养更综合的能力。
“一个好的技术有没有价值、能不能发挥巨大的作用,很多时候关键在场景和应用的选择以及细节的打磨”,网易有道CEO周枫在现场强调“场景拉动”的重要性。
不All in大模型,有道为什么要一面加速研发“子曰”大模型、一面促成应用场景模型的落地?
“不需要一上来就把所有的东西都集中在一个模型上”,周枫曾对多知解读:“大模型能够作为基座模型来支持很多下游任务,因材施教的实现需要场景。”
即:场景为先、场景拉动。
除了虚拟口语教练,有道还展示了“子曰”大模型在其他场景的应用成果。
LLM大模型翻译:基于大模型的新一代更加场景化的翻译引擎。
AI作文批改:通过子曰大模型的语言能力来帮助学生去理解文章的立意,提出写作的建议,同时这个模型能够像老师一样对学生的作文进行批改。
英语语法精讲:对于学生不会的英语的习题,AI可以进行实时的解读,给出提示和反馈,能够像老师一样层层递进的去进行提示和分析,帮助学生掌握英语知识。
AIBOX:有道翻译的桌面版中间的AI助手,可以帮助我们学习者以及包括知识工作者、创业工作者阅读写作。
文档问答:AI帮助用户快速阅读大量的文献、论文、报告、新闻,中英文皆可,系统会自动总结、提炼,回答文献相关问题。
有道在发布会上推出的“AI作文指导”应用不仅具备“作文批改”功能,还具备“作文指导”功能。
多知网第一时间亲自体验了“指导”+“批改”两个功能:
在AI作文指导的页面里,AI作文指导给出的答案里包含作文题目的解析和文章核心观点的提炼,能够帮助使用者快速get到考题的方向,避免偏题。其次,它还有作文结构的建议,可以启发使用者合理安排文章框架,使作文内容更加严谨、条理清晰。
这个应用甚至还提供了丰富的写作灵感素材,包括了文学作品、历史事件、科学研究等等。
批改环节,我们发现“子曰”模型的注意力微观可以关注到错别字和修辞手法。
宏观可以关注语言表达,结构逻辑,内容深度等多个维度的评价,进而帮助学生快速找到自己在写作中的薄弱点、针对性地提高。
……
面对大家讨论的“开源大模型对垂直大模型的影响”。