当前位置：首页 >> 培训 >> 一文道清语音转文字市场（Audio-To-Text）

一文道清语音转文字市场（Audio-To-Text）

2023-06-30 02:29:05市场文字

关于语音转文字，大部分想起接触过的会是在聊天软件中出现。除此之外，语音转文字还有许多应用场景。对此，本文将以国内市场为支点，以全球市场视为目标，探寻语音转写产品的诸多可能性。推荐对语音转文字市场感兴趣的小伙伴阅读。

与以往从国内市场角度的分析不同，本文将以国内市场为支点，以全球市场视为目标，探寻语音转写产品的诸多可能性。

本文说的语音转写，聚焦于面向C端用户的带语音转文字功能的产品，不包括企业服务中的智能客服、Fintech、车载语音、智慧医疗场景下的泛语音转写。

一、名词解释

语音转写：使用将音视频信息转化成文本信息的一种服务。

实时转写，即流式上传-同步获取，可将不限时长的音频流实时识别为文字，并返回带有时间戳的文字流；一般用于直播实时播放字幕、实时会议记录；也可以配合机器翻译，实现同传功能
非实时转写，即已录制音频文件上传-异步获取，非实时语音转写将长段音频数据转换成文本数据，可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。

ASR：指自动语音识别技术（Automatic Speech Recognition），是一种将人的语音转换为文本的技术。

NLP：自然语言处理（Natural Language Processing,NLP）是利用计算机对自然语言文本进行理解、处理，并提取文本语义的过程。

二、如何介绍清楚语音转写

笔者的安排是这样的：

语音转写的基本定义和概念科普，帮助读者和笔者同频；
语音转写所在的前置背景，这是它发展的前提；
语音转写的市场规模，这决定了它是否值得被研究；
语音转写的产业链，这可以帮我们从合作视角看我们关注点所在的位置；
语音转写的竞争格局，这里是重点，用竞争视角从行业玩家身上直观感受语音转写的用户-场景-需求和商业模式，并且笔者不仅会纵向对比国内不同语音转写产品，也会横向对比国内外语音转写产品的区别，最后通过详细拆解Notta这款明星PLG产品作为行业经典案例，希望带来启发；
语音转写的发展趋势，这里主要是通过展示相关创业公司来阐述其可能的发展路径；
语音转写的综合评价，总结笔者对于语音转写行业的认知。

三、语音转写发展的前置条件

这事能成，主要有赖于三点，因为语音转写是有三个步骤组成的：

输入得更多，说明场景更多，市场需求更多；
转码得更快，说明成本更低，使用没有障碍；
输出得更准，说明结果需要更少的修改加工，结果更满意。

这三点如何发生了改变：

1. 输入方面：无纸化程度极大提高，大部分的数据都是以数字化形式存储

理论上，只要是人与人之间发生的信息的传递，都是有数字化的需要的，主要是以非结构化数据的形式：

比如开会讲话的内容，是多人之间相互的信息传递，需要沉淀成会议纪要；
比如老师讲课的内容，是一个人单方面向多个人的信息传递，需要沉淀成学习笔记；
比如采访对话的内容，是一个人和另一个人的信息传递，需要沉淀成实录文档；
……

这些沉淀的信息肯定不能以手写稿作为载体，而是要以文本形式存储：

手写稿存储成本太高，纸多了你总会弄丢吧，时间长了纸总会坏吧，要记的内容多了，我得随时准备各种各样尺寸的纸，以备不时之需；
传输更麻烦，手写稿只有作者自己能看懂，况且一次只能给一人看，这还不如印刷术发明前的人类社会呢，信息的传输效率限制了世界的发展。

在未来，协作越来越多，人与人发生信息传递的场景就越来越多，越来越多的信息需要被数字化记录沉淀。

这是电子信息技术带来的结构性变化。

2. 转码方面：ASR性能提升，带来了转录的实时响应

单纯的无纸化，只能催生速记员、打字员，比谁能快速输出文本信息，这个活又脏又累还贵，可重复性可替代性极强，简直就是人工智能的最佳瞄准对象。

输入输出本身就很麻烦，1个小时的音频，人写需要2个小时，语音转录只需要5分钟。

3. 输出方面：其他语音技术的提升，带来了结果的可靠性

为什么说其他，因为这些主要还是依附于语音转文字这个技术之上对结果进行的优化。

人声分离，一种区分不同人声音的技术，可以通过声音来辨别某人的身份。一旦检测到一个人的发言，系统就会为该发言者创建一个声纹配置文件，从而分辨同一个人其他所有的语音；
多语种识别，对混杂的语言环境进行区分，识别多人对话；
环境降噪，对嘈杂的说话环境进行过滤，区分哪个是关键人在说话哪个只是环境音；
语言降噪，人在说话时毕竟不像写作那么严肃，期间夹杂着大量的口语和语气词甚至叠词，需要对文本进行精简提炼，增强可读性，这属于NLP范畴。
……

四、语音转写行业发展

这个过程并非一帆风顺，语音转写行业也是历经了四个发展阶段的。

第一阶段

在1990年-2010年，主要是人工服务，即通过人工实现录写服务。这个期间的产品形态，是以专业人工服务或外包方式服务客户。

第二阶段

在2010年-2015年，转写进入互联网化，这个阶段引入了机器服务，让机器助力转写，这种服务的产品形态主要是以网页和客户端小工具等方式实现。

第三阶段

在2015年-2017年，转写进入移动化，这个阶段引入人工智能和ASR技术，实现更高精准度的语音识别和语义理解，这种产品形态更加多元化，以APP、网页、智能硬件等方式展开。

第四阶段

在2017年至今，也是当前的阶段，转写进入人机耦合阶段，是人工智能与人工服务相融合的时刻，产品形态上仍然是以APP、网页、硬件等方式，但机器与人工进一步融合。

这是从技术角度去理解行业发展，其实其应用形式远不止于此。

五、产业规模

语音转写行业的盘子到底多大？

先看一组行业数据，根据艾瑞咨询的报告，2021年中国智能语音撰写市场规模约为10亿元，预计2026年市场规模将达到38亿。如果要估算全球市场，用这个数据乘以5即可得到大致结果。

从产品形态来看，智能转写产品主要包括Saas类产品与本地化部署解决方案两大类。

这个市场的特点就是，基数不算大，10亿量级，但是增长率相当可观，会有很多的增量出现，因为过去是大语种、大企业的需求，未来将会蔓延到更多的小语种、方言、小企业和传统企业，甚至是国企。（国企是这类Saas服务的重点服务对象）

下图是2022年中国智能语音产品成熟度曲线，可以看出语音转写技术以及逐渐进入成熟稳定期。

总之，语音转写的核心是ASR，从技术发展曲线来看，是语音技术最成熟的一项技术了。

ASR的准确率每年都在增长。

六、市场特征

1. 供给>需求，由需求驱动

语音转文字，本质是提供了一种软件服务，解决了信息沉淀的效率问题。

当转录还是人工服务时，行业是由供给驱动的，因为转录员是有限的，而且价格昂贵。
当机器取代人工转录时，已然变成了一个成熟行业，此时行业变成了由需求驱动。

既然是需求驱动，其需求来源决定了市场的规模和增速。

可见的趋势是，在线会议的比例会越来越高，即使已经进入后疫情时代，但是企业逐步适应了在线会议，随着未来跨区域团队协作场景的增加，会有更多团队利用好在线会议。

网课会越来越多，网课不仅仅是指初高中学校的网课，更多的是职业教育的网课，当今的成年人在上各种各样的技能课程，典型的如公务员课程、考研课程。

2. 准入门槛不高，同质化明显

ASR技术已经非常成熟了，各种厂商可以提供稳定的API和SDK，供市场进行不同程度的使用，因此行业的准入门槛不高，很多玩家都可以加入进来，提供相似的服务。

国内市场，去百度搜索语音转文字，会有数十种提供类似服务的网站。

国外市场更卷，在Google搜索audio to text，会有十几种同质化的网站。

一些差异化也只在一些细节上，比如区分说话人、专业领域的词库、不同的价格策略。

可以说，单纯的语音转文字功能，靠转录的字数或时长付费，实在玩不出新花样。

3. 市场多样，赢家难以通吃

受前两点影响，这个市场由需求驱动，且总是会有新入场者。

如果用户一旦没有转文字需求，是不会使用的，毕竟每次使用都是要钱的。

这个模式在中国市场面临一个问题，国内用户不喜欢这种“pay for every use”的方式，所以会想尽办法去找一些免费试用的替代品。

因而很难出现一个赢家垄断整个市场，简言之，这是一个开放竞争的市场，各种新兴企业试图围绕着语音转文字提供更多的附加价值。

下图是国内提供直接语音转文字工具的长尾厂商部分名单（不完全统计，也不包括带语音转文字功能的产品比如输入法、微信、剪映等）：

如果觉得多，不妨再来看看美国市场，仍然是不完全统计：

相信读者可以直观感受到这个行业的“卷”度。

七、商业模式

语音转写的商业模式是比较清晰的，分三种：卖软件服务，卖硬件，卖定制化。

1. 软件服务

在线API——厂商提供接口数据在服务端进行，特点是灵活性强、效率高，按使用次数或者使用时长进行收费。
离线SDK——厂商提供核心算法模块，数据在客户端进行，开放性、软件开发兼容。
私有云——厂商提供私有云平台定制化服务，可以满足客户定制化需求，安全性强。

2. 硬件

厂商提供语音采集等终端硬件，有效采集语音数据，实现语音采播编审存一体化。

3. 集成解决方案

厂商提供场景及行业定制化解决方案，开发智慧媒体解决方案，满足不同行业个性化需求。

八、产业链

从技术源头到消费端分产业链上中下游。

1. 上游

主要是由一些科技大厂来主导，它们是整个AI行业最底层服务提供者。阿里云、腾讯云、百度开放平台、讯飞开放平台都是比较不错的基础平台。

语音识别和自然语言处理均为智能语音转写的关键技术，为解决资源浪费项目之间缺少共享等问题，基于AI平台开放NLP的方案应运而生。

2. 中游

主要是AI技术的提供者，按照各自业务特征分为四类：

（1）通俗意义的智能语音厂商

比如专门提供智能语音服务的讯飞听见、灵云听语。

（2）独树一帜的AI公司

云知声、思必驰、商汤、依图。

（3）互联网巨头

阿里云、百度云、腾讯云、华为云。

（4）边缘厂商

搜狗（原来算，现在被收购就不算了）、迅捷、金舟，等等。

3. 下游

这就是真正被消费者使用的场景了。

（1）多人讨论

比如公司里的会议：

1 V 1沟通，比如采访、电话销售、客服。
1 V N输出，比如课堂、演讲、直播、大会。

（2）媒体创作

比如视频网站的字幕生成和视频创作者的字幕文件。

产品形态上，既有讯飞听见这种直接提供转写服务的产品，也有输入法、微信、飞书妙记这种嵌入语音转写的产品。

九、竞争格局

1. 国内竞争

这里只针对面向C端市场的转写产品做竞争格局分析。

典型的语音转写代表产品：讯飞听见。

讯飞听见是科大讯飞旗下的一款主打语音转写的产品服务，得益于讯飞在语音领域的深耕，讯飞听见凭借高精度转写能力占据了中高端市场，如果点开它的网站，可以看到机器快转和人工精转两种服务配合，满足了商务这类对转写有高标准的严肃场景。

之前说过，对优秀语音转写能力的定义就是要快和准，快不用说了，1小时音频最快5分钟出稿，相比于人类速记员绝对是五十倍的提升，准这方面，机器水平已经达到97.5%，并且支持多国语言和方言，外加许多专业领域词汇。

唯一不太亲民的地方是：贵。

2个半小时转录收费50元，如果不是特别需要，或者急用，一般不会轻易购买。

它的竞品有很多，这类产品的商业模式都比较清晰，主要解决用户转文字的需要。

用户为转文字效果付费，因此看重的是转文字的准确率，那在某些方面当然就不能顾及到，比如“数据孤岛”问题，用户转文字后需要导出变成其他格式，至于这些转文字的数据结果如何使用取决于用户的实际用途，这就不要求什么用户留存了。

这个模式在中国市场并不讨巧，国内用户并不都接受这种“pay for every use”的方式，所以会想尽办法去找一些免费试用的替代品或者是会员制的收费软件。

因此这类产品的高质量用户多为有稳定需求和付费能力的创作者、企业用户。

讯飞听见作为行业头部厂商，肯定是不希望做一个“用完即走”的产品的，如前所述，需要用到转写服务的场景有会议、演讲、课堂、采访、字幕创作等。

符合高频、用户量大、付费能力强一定是企业用户的会议场景。因此讯飞听见选择切入了“在线会议”市场，希望通过转写打通会议创建——预约——会议转写——会议纪要的全链路场景，这样转写结果就不是一座数据孤岛，而是以会议记录的形式成为企业办公的基础设施。

说完以转文字为核心的宽泛型产品后，下面介绍第二种，以在线会议为核心，附带语音转文字的产品。

典型代表：腾讯会议、飞书妙记、钉钉闪记。

钉钉闪记提供了会议实时转写和音视频转写的功能，帮助员工沉淀工作信息，快速定位到关键信息有助于做决策和制定计划。对于转写结果，不仅做到非常细致的分段，而且还支持编辑和高亮的功能。

飞书妙记除了基础的转写和编辑功能外，还提供了关键词提取的功能，帮助员工快速捕捉定位相关术语来纵览整篇内容。

会议协作产品有着天然的优势，因为企业协同办公是一个稳定的流量入口，会议转文字只是一个附加价值，重点在于转文字后的团队协作，将会议纪要转换成团队具体的决策和知识，在团队内部共享。

话说回来，讯飞听见从语音转写扩展到在线会议，难道是因为觊觎在线会议市场份额而插一脚的么？

2. 海外竞争

NO，我们将眼光放到国外。

国外的转写市场发展比国内更早，最成熟的当然是美国。如果说科大讯飞在海外的counterpart是Nuance，那讯飞听见在海外的counterpart是Otter，而不是siri和Alexa，

这是一款基于人工智能和深度学习的语音识别产品。总部位于加利福尼亚州洛斯阿尔托斯，也是AI驱动的协作笔记和生产力提升应用程序提供商。

2020年Otter.ai获得来自日本移动运营商NTT Docomo的1000万美元融资，并且宣布与Zoom加强合作关系，为Zoom会议启动实时字幕，并且在疫情期间实现了指数级增长（收入同比增长10倍）。

Otter.ai提供了一个AI驱动的协作笔记记录和生产力提升应用程序，可与Zoom和Google Meet等视频会议平台以及电话和其他语音通信配合使用。

Otter Voice Meeting Notes应用程序使用专有的人工智能实时生成安全、可共享、可搜索的丰富笔记，这些笔记结合了音频、转录、说话者身份、内嵌照片和关键短语。该应用程序在230多个国家/地区使用，现已录制了超过1亿次会议，涵盖了30亿分钟。

Otter的做法反映出了国内外市场一大区别。

国外企业在线办公三巨头Google Meet、ZOOM、Microsoft Teams。

大多数会议新产品都是围绕着这三家作为基础设施提供附加服务。

Otter也不例外。

最后介绍一款产品，Notta，它为语音转写市场拓宽了思路，原因有二：

它在海外激烈的语音转写红海市场凭借差异化的体验成功获得一席之地。
它在海外市场找到了高价值市场，盈利情况相当可观。

语音转写作为一项成熟技术，门槛是不高的，行业头部厂商和普通厂商的转写精确度相差都是百分之几，对很多用户来说够用就行，因此相互之间的替代性比较强。

一个普通的语音转写新玩家，想要获得一些份额，有几种方式：

SEO，让一些小白用户首次就接触到这个产品，这些用户用习惯了大概率不会离开；
免费低价策略，在有基础的语音转文字能力后，就靠免费来获得一些低价值用户，因为这些用户是被头部厂商的付费漏斗给剩下的，这些用户付费意愿几乎没有的，用你就是图免费，但你不可能永远免费，当你恢复收费的那一天，也是白嫖用户离你而去的时刻；
提供除转写外的附加价值，可以打破“数据孤岛”，用户为附加价值付费。

Notta就选择了第三种。

十、典型案例

下面介绍Notta，一款中国企

上一篇：掌握十六个经典管理模型，助你管理水平快速提升

下一篇：理财经理必备的销售心理学技巧

相关内容

怎么学？如何干？西藏7市（地）委书记在西藏日报发表文章

启航新征程开创新局面为全面建设社会主义现代化新拉萨努力奋斗自治区党委常委、拉萨市委书记普布顿珠党的二十大大笔擘画坚持以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图，区党委十届三次全会全面铺开建设美丽幸福西藏、共圆伟大复兴梦想的壮阔实践···

2023年全区智慧旅游专业人才培训班圆满结业

6月2日，自治区旅游发展厅主办的全区智慧旅游专业人才培训班在拉萨圆满结业。培训共历时三天，累计完成全区旅游行政管理部门工作人员及涉旅企业专业技术人员培训100人。本次培训是区旅发厅深入推进学习贯彻习近平新时代中国特色社会主义思想主题教育重要···

徐汇萨迦共同举办大美西藏首届口腔学习班

随着现代医学的发展，口腔健康越来越受到人们的关注，为提高西藏地区口腔技术水平和服务质量，近日，徐汇区牙病防治所和萨迦县中心医院远程连线共同举办首届口腔学习班开班仪式。徐汇区卫生健康委副主任胡强，上海援藏干部、萨迦县委常务副书记、常务副县长沈···

自觉抵制“一对一”“一对多”等学科类培训！哈尔滨中小学生暑期预警来了

17日，记者从哈尔滨市各区教育局获悉，2023年暑假将至，南岗区、道里区、香坊区教育局向家长发出预警，自觉抵制违规培训，各区义务教育阶段学科类培训机构已经全部注销，暑假期间以任何形式开展的学科类培训均属于违规培训。家长要自觉抵制任何机构或个···

哈尔滨市道里区企投局举办“招商大讲堂”专题培训

黑龙江网讯（记者王惠婷）10月24日，哈尔滨市道里区企投局组织开展“招商大讲堂”专题培训班，全区各招商专班负责同志及业务骨干参加培训。本次培训从实际需求出发，紧紧围绕当前招商工作中的热点、难点，对“什么是招商引资”“道里区的产业结构和主导···

团黑龙江省委举办全省青年文明号青年岗位能手学习宣传贯彻党的二十大精神培训交流会

中国青年报客户端讯(李海涛)为深入学习贯彻党的二十大精神，充分发挥青年文明号、青年岗位能手示范引领作用，在全省职业青年中掀起学习党的二十大精神热潮，11月22日，团黑龙江省委举办全省青年文明号青年岗位能手学习宣传贯彻党的二十大精神培训交流会···

辽宁葫芦岛举办外贸政策培训会推动外贸保稳增量

辽宁省葫芦岛市外贸政策培训会4月3日举办。辽宁省贸促会供图中新网葫芦岛4月3日电 (李晛)辽宁省葫芦岛市外贸政策培训会4月3日举办。本次活动由辽宁省贸促会支持、葫芦岛市商务局主办，葫芦岛市贸促会、葫芦岛海关、中国出口信用保险辽宁分公司和辽···

山西运城：严查无证校外培训机构查封9家警告2家

新华社太原８月５日电（记者王飞航）记者从山西省运城市政府了解到，运城市教育局近日联合市公安局等多家单位，对中心城区无证校外培训机构进行了一次突击检查，共检查了１３家校外培训机构，查封９家，警告２家，发放整改通知书４份。今年７月，运城市教育局···

山西开展培训筑牢森林“防火墙”

山西新闻网3月30日讯（记者卢奕如）今日，记者从山西省应急管理厅获悉，全省举办森林草原防灭火业务培训，邀请专家以视频会议形式，围绕森林扑火指挥实操、森林草原火灾防控经验做法、火灾现场各级各类指挥员具体操作中遇到的问题等内容进行授课。培训内···

校外培训机构治理工作取得进展山西停办近1300所

资料图：小学生排队等待进入校园。中新社记者刘文华摄中新网5月11日电据教育部网站消息，按照校外培训机构专项治理工作整体安排，教育部、民政部、国家市场监管总局启动了校外培训机构治理专项督查工作。5月9日至10日，督查组率先在北京市开展华···

山西综改区举办省技术创新中心申报培训

　　8月18日，山西综改区科技金融部举办2023年度省技术创新中心申报培训会，来自区内企业、科研院所及有关单位代表160余人参加了培训。　　山西省技术创新中心是以产业前沿引领技术和关键共性技术研发为核心的产业技术创新平台，承担着为区域和产业···

山西汾阳医院开展健康教育与控烟知识培训

来源：【吕梁日报-吕梁新闻网】本报讯（记者刘少伟） 5月18日，在“世界无烟日”到来之际，山西汾阳医院组织开展健康教育与控烟知识培训。近年来，山西汾阳医院全面落实健康中国战略,根据国家卫健委《关于2011年起全国医疗卫生系统全面禁烟的决···

山西省文物局年度田野考古技术培训班开班

10月10日，山西省文物局在运城闻喜上郭城址、邱家庄墓群举办2023年度田野考古技术培训班开班仪式。该次培训为期三个月，通过理论和实践两部分教学，旨在推进山西考古工作高质量发展，提升考古业务人员专业技术水平。本次培训由山西省考古研究院和山西···

最低每课时9元！全省学科类校外培训课时长和收费标准出台

近日，山西省发改委、省教育厅下发《关于中小学学科类校外培训收费标准及有关事项的通知》，明确全省中小学学科类校外培训收费标准，从12月17日起执行。《通知》对全省线上线下学科类校外培训基准收费标准和浮动幅度制定了科学标准。其中，义务教育阶段线···

山西天镇阳光职业培训学校培养乡村“新农人”乡村振兴添动能

(记者贺文生) 山西天镇县阳光职业培训学校紧紧围绕乡村振兴战略，按照“政府引导、农民自愿、立足产业、突出重点”的原则，创新高素质农民技能培训方式方法，采取以“授人以渔”的方式，让人才振兴成为助推农业农村现代化的内生动力，以高素质农民引领现···

山西：建立全过程全链条无缝隙安全培训制度

黄河新闻网讯（记者杨江涛）日前，山西省应急管理厅下发了《山西省安全培训管理暂行办法》（以下简称《办法》）。我省将进一步抓好安全生产这个基本盘、基本面，推动全省安全培训工作制度化、规范化、科学化，促进安全培训工作高质量发展。山西省应急管理厅厅···

山西：艺考培训机构纳入全国监管平台管理

央广网太原10月6日消息（记者郎麒）日前，山西省教育厅、省发改委、省公安厅等部门联合制定《加强面向高中阶段学生艺考培训规范管理工作方案》，针对艺考培训的突出特点和实际情况，全面规范艺考培训行为，将艺考培训机构统一纳入全国校外教育培训监管与···

太平财险阳泉中支开展消防安全教育和有限空间作业培训

为强化员工安全意识，进一步提升员工消防和有限空间突发事件应急处理能力，9月14日，太平财险阳泉中支邀请北京市卫民安消防教育咨询中心山西分中心讲师向全体员工开展了一次消防安全教育和有限空间作业课程培训。按照防消结合、预防为主的原则，本次讲座通···

山西省数字化转型贯标试点工作宣贯培训会在太原举行

　　10月20日消息，山西省数字化转型贯标试点工作宣贯培训会在太原举行。省工信厅介绍，作为国家数字化转型贯标试点省份，试点启动后将引导企业加快数字化转型，助力制造业高端化、智能化、绿色化发展。　　今年，工信部启动数字化转型贯标试点工作，我省···

山西马兰花创业培训讲师大赛收官太原市获多个奖项

山西新闻网8月31日讯（记者冯耿姝）8月29日，山西省第四届马兰花创业培训讲师大赛圆满收官，太原市代表队在比赛中分获多个二、三等奖和优秀奖。本届大赛以“启迪创新思维·激发创业梦想”为主题，全省共有56名教师晋级复赛，其中，太原市有7名选手···