关于语音转文字,大部分想起接触过的会是在聊天软件中出现。除此之外,语音转文字还有许多应用场景。对此,本文将以国内市场为支点,以全球市场视为目标,探寻语音转写产品的诸多可能性。推荐对语音转文字市场感兴趣的小伙伴阅读。
与以往从国内市场角度的分析不同,本文将以国内市场为支点,以全球市场视为目标,探寻语音转写产品的诸多可能性。
本文说的语音转写,聚焦于面向C端用户的带语音转文字功能的产品,不包括企业服务中的智能客服、Fintech、车载语音、智慧医疗场景下的泛语音转写。
一、名词解释
语音转写:使用将音视频信息转化成文本信息的一种服务。
- 实时转写,即流式上传-同步获取,可将不限时长的音频流实时识别为文字,并返回带有时间戳的文字流;一般用于直播实时播放字幕、实时会议记录;也可以配合机器翻译,实现同传功能
- 非实时转写,即已录制音频文件上传-异步获取,非实时语音转写将长段音频数据转换成文本数据,可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。
ASR:指自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。
NLP:自然语言处理(Natural Language Processing,NLP)是利用计算机对自然语言文本进行理解、处理,并提取文本语义的过程。
二、如何介绍清楚语音转写
笔者的安排是这样的:
- 语音转写的基本定义和概念科普,帮助读者和笔者同频;
- 语音转写所在的前置背景,这是它发展的前提;
- 语音转写的市场规模,这决定了它是否值得被研究;
- 语音转写的产业链,这可以帮我们从合作视角看我们关注点所在的位置;
- 语音转写的竞争格局,这里是重点,用竞争视角从行业玩家身上直观感受语音转写的用户-场景-需求和商业模式,并且笔者不仅会纵向对比国内不同语音转写产品,也会横向对比国内外语音转写产品的区别,最后通过详细拆解Notta这款明星PLG产品作为行业经典案例,希望带来启发;
- 语音转写的发展趋势,这里主要是通过展示相关创业公司来阐述其可能的发展路径;
- 语音转写的综合评价,总结笔者对于语音转写行业的认知。
三、语音转写发展的前置条件
这事能成,主要有赖于三点,因为语音转写是有三个步骤组成的:
- 输入得更多,说明场景更多,市场需求更多;
- 转码得更快,说明成本更低,使用没有障碍;
- 输出得更准,说明结果需要更少的修改加工,结果更满意。
这三点如何发生了改变:
1. 输入方面:无纸化程度极大提高,大部分的数据都是以数字化形式存储
理论上,只要是人与人之间发生的信息的传递,都是有数字化的需要的,主要是以非结构化数据的形式:
- 比如开会讲话的内容,是多人之间相互的信息传递,需要沉淀成会议纪要;
- 比如老师讲课的内容,是一个人单方面向多个人的信息传递,需要沉淀成学习笔记;
- 比如采访对话的内容,是一个人和另一个人的信息传递,需要沉淀成实录文档;
- ……
这些沉淀的信息肯定不能以手写稿作为载体,而是要以文本形式存储:
- 手写稿存储成本太高,纸多了你总会弄丢吧,时间长了纸总会坏吧,要记的内容多了,我得随时准备各种各样尺寸的纸,以备不时之需;
- 传输更麻烦,手写稿只有作者自己能看懂,况且一次只能给一人看,这还不如印刷术发明前的人类社会呢,信息的传输效率限制了世界的发展。
在未来,协作越来越多,人与人发生信息传递的场景就越来越多,越来越多的信息需要被数字化记录沉淀。
这是电子信息技术带来的结构性变化。
2. 转码方面:ASR性能提升,带来了转录的实时响应
单纯的无纸化,只能催生速记员、打字员,比谁能快速输出文本信息,这个活又脏又累还贵,可重复性可替代性极强,简直就是人工智能的最佳瞄准对象。
输入输出本身就很麻烦,1个小时的音频,人写需要2个小时,语音转录只需要5分钟。
3. 输出方面:其他语音技术的提升,带来了结果的可靠性
为什么说其他,因为这些主要还是依附于语音转文字这个技术之上对结果进行的优化。
- 人声分离,一种区分不同人声音的技术,可以通过声音来辨别某人的身份。一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音;
- 多语种识别,对混杂的语言环境进行区分,识别多人对话;
- 环境降噪,对嘈杂的说话环境进行过滤,区分哪个是关键人在说话哪个只是环境音;
- 语言降噪,人在说话时毕竟不像写作那么严肃,期间夹杂着大量的口语和语气词甚至叠词,需要对文本进行精简提炼,增强可读性,这属于NLP范畴。
- ……
四、语音转写行业发展
这个过程并非一帆风顺,语音转写行业也是历经了四个发展阶段的。
第一阶段
在1990年-2010年,主要是人工服务,即通过人工实现录写服务。这个期间的产品形态,是以专业人工服务或外包方式服务客户。
第二阶段
在2010年-2015年,转写进入互联网化,这个阶段引入了机器服务,让机器助力转写,这种服务的产品形态主要是以网页和客户端小工具等方式实现。
第三阶段
在2015年-2017年,转写进入移动化,这个阶段引入人工智能和ASR技术,实现更高精准度的语音识别和语义理解,这种产品形态更加多元化,以APP、网页、智能硬件等方式展开。
第四阶段
在2017年至今,也是当前的阶段,转写进入人机耦合阶段,是人工智能与人工服务相融合的时刻,产品形态上仍然是以APP、网页、硬件等方式,但机器与人工进一步融合。
这是从技术角度去理解行业发展,其实其应用形式远不止于此。
五、产业规模
语音转写行业的盘子到底多大?
先看一组行业数据,根据艾瑞咨询的报告,2021年中国智能语音撰写市场规模约为10亿元,预计2026年市场规模将达到38亿。如果要估算全球市场,用这个数据乘以5即可得到大致结果。
从产品形态来看,智能转写产品主要包括Saas类产品与本地化部署解决方案两大类。
这个市场的特点就是,基数不算大,10亿量级,但是增长率相当可观,会有很多的增量出现,因为过去是大语种、大企业的需求,未来将会蔓延到更多的小语种、方言、小企业和传统企业,甚至是国企。(国企是这类Saas服务的重点服务对象)
下图是2022年中国智能语音产品成熟度曲线,可以看出语音转写技术以及逐渐进入成熟稳定期。
总之,语音转写的核心是ASR,从技术发展曲线来看,是语音技术最成熟的一项技术了。
ASR的准确率每年都在增长。
六、市场特征
1. 供给>需求,由需求驱动
语音转文字,本质是提供了一种软件服务,解决了信息沉淀的效率问题。
- 当转录还是人工服务时,行业是由供给驱动的,因为转录员是有限的,而且价格昂贵。
- 当机器取代人工转录时,已然变成了一个成熟行业,此时行业变成了由需求驱动。
既然是需求驱动,其需求来源决定了市场的规模和增速。
可见的趋势是,在线会议的比例会越来越高,即使已经进入后疫情时代,但是企业逐步适应了在线会议,随着未来跨区域团队协作场景的增加,会有更多团队利用好在线会议。
网课会越来越多,网课不仅仅是指初高中学校的网课,更多的是职业教育的网课,当今的成年人在上各种各样的技能课程,典型的如公务员课程、考研课程。
2. 准入门槛不高,同质化明显
ASR技术已经非常成熟了,各种厂商可以提供稳定的API和SDK,供市场进行不同程度的使用,因此行业的准入门槛不高,很多玩家都可以加入进来,提供相似的服务。
国内市场,去百度搜索语音转文字,会有数十种提供类似服务的网站。
国外市场更卷,在Google搜索audio to text,会有十几种同质化的网站。
一些差异化也只在一些细节上,比如区分说话人、专业领域的词库、不同的价格策略。
可以说,单纯的语音转文字功能,靠转录的字数或时长付费,实在玩不出新花样。
3. 市场多样,赢家难以通吃
受前两点影响,这个市场由需求驱动,且总是会有新入场者。
如果用户一旦没有转文字需求,是不会使用的,毕竟每次使用都是要钱的。
这个模式在中国市场面临一个问题,国内用户不喜欢这种“pay for every use”的方式,所以会想尽办法去找一些免费试用的替代品。
因而很难出现一个赢家垄断整个市场,简言之,这是一个开放竞争的市场,各种新兴企业试图围绕着语音转文字提供更多的附加价值。
下图是国内提供直接语音转文字工具的长尾厂商部分名单(不完全统计,也不包括带语音转文字功能的产品比如输入法、微信、剪映等):
如果觉得多,不妨再来看看美国市场,仍然是不完全统计:
相信读者可以直观感受到这个行业的“卷”度。
七、商业模式
语音转写的商业模式是比较清晰的,分三种:卖软件服务,卖硬件,卖定制化。
1. 软件服务
- 在线API——厂商提供接口数据在服务端进行,特点是灵活性强、效率高,按使用次数或者使用时长进行收费。
- 离线SDK——厂商提供核心算法模块,数据在客户端进行,开放性、软件开发兼容。
- 私有云——厂商提供私有云平台定制化服务,可以满足客户定制化需求,安全性强。
2. 硬件
厂商提供语音采集等终端硬件,有效采集语音数据,实现语音采播编审存一体化。
3. 集成解决方案
厂商提供场景及行业定制化解决方案,开发智慧媒体解决方案,满足不同行业个性化需求。
八、产业链
从技术源头到消费端分产业链上中下游。
1. 上游
主要是由一些科技大厂来主导,它们是整个AI行业最底层服务提供者。阿里云、腾讯云、百度开放平台、讯飞开放平台都是比较不错的基础平台。
语音识别和自然语言处理均为智能语音转写的关键技术,为解决资源浪费项目之间缺少共享等问题,基于AI平台开放NLP的方案应运而生。
2. 中游
主要是AI技术的提供者,按照各自业务特征分为四类:
(1)通俗意义的智能语音厂商
比如专门提供智能语音服务的讯飞听见、灵云听语。
(2)独树一帜的AI公司
云知声、思必驰、商汤、依图。
(3)互联网巨头
阿里云、百度云、腾讯云、华为云。
(4)边缘厂商
搜狗(原来算,现在被收购就不算了)、迅捷、金舟,等等。
3. 下游
这就是真正被消费者使用的场景了。
(1)多人讨论
比如公司里的会议:
- 1 V 1沟通,比如采访、电话销售、客服。
- 1 V N输出,比如课堂、演讲、直播、大会。
(2)媒体创作
比如视频网站的字幕生成和视频创作者的字幕文件。
产品形态上,既有讯飞听见这种直接提供转写服务的产品,也有输入法、微信、飞书妙记这种嵌入语音转写的产品。
九、竞争格局
1. 国内竞争
这里只针对面向C端市场的转写产品做竞争格局分析。
典型的语音转写代表产品:讯飞听见。
讯飞听见是科大讯飞旗下的一款主打语音转写的产品服务,得益于讯飞在语音领域的深耕,讯飞听见凭借高精度转写能力占据了中高端市场,如果点开它的网站,可以看到机器快转和人工精转两种服务配合,满足了商务这类对转写有高标准的严肃场景。
之前说过,对优秀语音转写能力的定义就是要快和准,快不用说了,1小时音频最快5分钟出稿,相比于人类速记员绝对是五十倍的提升,准这方面,机器水平已经达到97.5%,并且支持多国语言和方言,外加许多专业领域词汇。
唯一不太亲民的地方是:贵。
2个半小时转录收费50元,如果不是特别需要,或者急用,一般不会轻易购买。
它的竞品有很多,这类产品的商业模式都比较清晰,主要解决用户转文字的需要。
用户为转文字效果付费,因此看重的是转文字的准确率,那在某些方面当然就不能顾及到,比如“数据孤岛”问题,用户转文字后需要导出变成其他格式,至于这些转文字的数据结果如何使用取决于用户的实际用途,这就不要求什么用户留存了。
这个模式在中国市场并不讨巧,国内用户并不都接受这种“pay for every use”的方式,所以会想尽办法去找一些免费试用的替代品或者是会员制的收费软件。
因此这类产品的高质量用户多为有稳定需求和付费能力的创作者、企业用户。
讯飞听见作为行业头部厂商,肯定是不希望做一个“用完即走”的产品的,如前所述,需要用到转写服务的场景有会议、演讲、课堂、采访、字幕创作等。
符合高频、用户量大、付费能力强一定是企业用户的会议场景。因此讯飞听见选择切入了“在线会议”市场,希望通过转写打通会议创建——预约——会议转写——会议纪要的全链路场景,这样转写结果就不是一座数据孤岛,而是以会议记录的形式成为企业办公的基础设施。
说完以转文字为核心的宽泛型产品后,下面介绍第二种,以在线会议为核心,附带语音转文字的产品。
典型代表:腾讯会议、飞书妙记、钉钉闪记。
钉钉闪记提供了会议实时转写和音视频转写的功能,帮助员工沉淀工作信息,快速定位到关键信息有助于做决策和制定计划。对于转写结果,不仅做到非常细致的分段,而且还支持编辑和高亮的功能。
飞书妙记除了基础的转写和编辑功能外,还提供了关键词提取的功能,帮助员工快速捕捉定位相关术语来纵览整篇内容。
会议协作产品有着天然的优势,因为企业协同办公是一个稳定的流量入口,会议转文字只是一个附加价值,重点在于转文字后的团队协作,将会议纪要转换成团队具体的决策和知识,在团队内部共享。
话说回来,讯飞听见从语音转写扩展到在线会议,难道是因为觊觎在线会议市场份额而插一脚的么?
2. 海外竞争
NO,我们将眼光放到国外。
国外的转写市场发展比国内更早,最成熟的当然是美国。如果说科大讯飞在海外的counterpart是Nuance,那讯飞听见在海外的counterpart是Otter,而不是siri和Alexa,
这是一款基于人工智能和深度学习的语音识别产品。总部位于加利福尼亚州洛斯阿尔托斯,也是AI驱动的协作笔记和生产力提升应用程序提供商。
2020年Otter.ai获得来自日本移动运营商NTT Docomo的1000万美元融资,并且宣布与Zoom加强合作关系,为Zoom会议启动实时字幕,并且在疫情期间实现了指数级增长(收入同比增长10倍)。
Otter.ai提供了一个AI驱动的协作笔记记录和生产力提升应用程序,可与Zoom和Google Meet等视频会议平台以及电话和其他语音通信配合使用。
Otter Voice Meeting Notes应用程序使用专有的人工智能实时生成安全、可共享、可搜索的丰富笔记,这些笔记结合了音频、转录、说话者身份、内嵌照片和关键短语。该应用程序在230多个国家/地区使用,现已录制了超过1亿次会议,涵盖了30亿分钟。
Otter的做法反映出了国内外市场一大区别。
国外企业在线办公三巨头Google Meet、ZOOM、Microsoft Teams。
大多数会议新产品都是围绕着这三家作为基础设施提供附加服务。
Otter也不例外。
最后介绍一款产品,Notta,它为语音转写市场拓宽了思路,原因有二:
- 它在海外激烈的语音转写红海市场凭借差异化的体验成功获得一席之地。
- 它在海外市场找到了高价值市场,盈利情况相当可观。
语音转写作为一项成熟技术,门槛是不高的,行业头部厂商和普通厂商的转写精确度相差都是百分之几,对很多用户来说够用就行,因此相互之间的替代性比较强。
一个普通的语音转写新玩家,想要获得一些份额,有几种方式:
- SEO,让一些小白用户首次就接触到这个产品,这些用户用习惯了大概率不会离开;
- 免费低价策略,在有基础的语音转文字能力后,就靠免费来获得一些低价值用户,因为这些用户是被头部厂商的付费漏斗给剩下的,这些用户付费意愿几乎没有的,用你就是图免费,但你不可能永远免费,当你恢复收费的那一天,也是白嫖用户离你而去的时刻;
- 提供除转写外的附加价值,可以打破“数据孤岛”,用户为附加价值付费。
Notta就选择了第三种。
十、典型案例
下面介绍Notta,一款中国企