声明:本文来自于微信公众号 白鲸出海,作者:张凯然,授权站長之家转载发布。
7月16日,語音輸入創企 Willow Voice 宣布完成420万美元天使融資,由 YC 领投;而就在几天前,6月25日另一家語音輸入创企 Wispr Flow 也宣布完成了3000万美元 A 轮融资。
此前,我們一直在觀察 AI 語音赛道,但能拿到融资的基本都是做語音合成,也就是“输出”。睙徵赛道头部的 ElevenLabs,在今年1月份,完成了 C 轮2.5亿美元融资,估值达到30亿美元以上。
但最近的2笔融资,貌似在释放另一种信号,反向做“输入”的語音创企,正在获得资本的关注。
語音輸入2012年就有,
爲什麽還能拿到融資?
Willow Voice 和 Wispr Flow(下文简称为 Willow 和 Flow)专注 ASR 技术(自动語音识别),两款产品基本类似,都有点类似“語音輸入法”,用户只需要按下电脑或手机上的特定按钮,就能直接将讲话的内容转录成文字。
乍听上去,这已经是我们在日常生活中习以为常的功能,睙徵,微信2019年就在 iOS 端推出了“語音转文字功能”,苹果更是在2012年的 iOS6中就上线了最初版本的“語音听写”(Voice Dictation)功能,且 ElevenLabs、OpenAI 等 AI 时代的明星创企也都覆盖了語音转文字的场景。
語音作为输入,输出格式化文本的错词率(左),
輸出非格式化文本的錯詞率(右),注:錯詞率爲
百分数,例如OpenAI 的 Whisper 在格式化文本的
錯詞率爲14.9%,數據越低意味著模型能力越強,
本測試亦包含各模型在吵鬧環境、強口音、帶專業術
语的語音等场景,测试结果发布时间:2025年2月
|图片来源:Voice Writer.io
Formatted(格式化):需要模型直接輸出正確的格式,也就是說不僅詞彙的識別正確,也需要正確輸出大小寫和標點符號。Unformatted(非格式化):僅考慮詞語本身的識別正確率
根据 VoiceWriter.io 的测试,除 Google Cloud 的转录功能稍差之外,其他产品的差别不大,在非格式化文本场景下大部分产品的错词率都在10% 以下,与未经专业转录训练的人类水平相当,但在需要考虑标点和大小写的格式化文本场景,語音转录模型表现稍差一些,所有产品的错词率平均增加了10%。
而根据 Flow 创始人 Tanay Kothari 在播客中的说法,虽然 AI 对非格式化文本转录时的 WER 已经很低了,但却没有意义,因为就算有产品能做到1% 以下的错词率,仍意味着每几句话就有一个错词,用户仍无法完全信任 AI。
而且由于口語和書面語有所差別,所以即使模型能夠完全按照用戶所說進行轉錄,用戶也不會將輸出文字直接作爲消息發送或儲存到筆記産品中,仍需要簡化和改錯。
在这一理念的指导下,Flow 与传统語音转文字的区别是,追求“零编辑信息”,做法上,两款产品均是在“AI 直接转录内容”和“输出内容”中间加了“文字处理”的步骤,给用户输出能够直接使用的文字。而这一步文字处理分三个层面,一是格式化文字输出,即正确断句、去语气词等;二是上下文的理解,睙徵能够自动纠正口误、识别情绪等;三则是语境识别,即在 DM、邮件、笔记等不同的输入场景中,输出不同风格文字的能力。
而经过对 Flow、Willow 和 OpenAI Whisper 进行初步对比测试发现,OpenAI Whisper 的输出仅停留在第一层,Flow、Willow 能做到第二层,而第三层则基本都没有做到。
目標很美好,但現實達不到
从产品逻辑上看,Flow 和 Willow 其实完成的是“口语输入”到“书面语输出”的流程,那么紵峄是以书面语为主,其使用场景也就更加偏向办公场景。
a16z 的年终 AI 产品盘点中,ElevenLabs 的
首席设计师 Ammaar Reshi 以及创业者 Ben
Tossell 都曾经推薦过Flow,且从推薦内容来看,他们
几乎是天天使用的,详情可见《AI 霸屏的第二年,
硅谷大佬们都 Pick 哪些 AI 产品》选题|图片来源:a16z
而由于語音輸入相比键盘输入对周围的影响更大,没那么适合坐工位的普通打工人。所以,从 Flow 创始人的分享来看,他们最初瞄准的是接受大量信息、有输入提效需求,且大多有单独办公室或经常在外(非办公室)处理工作的硅谷 VC/创业者/高管群体。
Flow 官网上的典型用户分析|图片来源:Flow官网
而在通过 VC/创业者/高管进行初期裂变之后,Flow 开始通过 Product Hunt 来触达更多有需求的用户,睙徵学生、代码开发者、创作者/作家、律师、咨询顾问等。与 VC/创业者/高管群体一样,这部分用户也有需要处理大量文字或有长文本输入的需求,且工作地点普遍比较灵活,亦会经常在外处理文字。
鉴于“工作状态下的文本输入”及“非办公室”两个特点,我们设定了 To do List、邮件回复、会前备忘录三个场景,对 Willow 和 Flow,及 ChatGPT 听写功能(Whisper 模型驱动),进行对比测试。
测试1:To do List场景
场景描述:在去往办公室的车上,一位 Team leader 需要梳理当天的重要事项,并在笔记 App 中记录下来。
口语化内容:嗯…今天首先要更新主页面的图标,然后在三点半前发上线通知。第二,四点钟要与团队开复盘会。还有,把上周的日报发给 John。第三,五点前,把用户反馈汇总文档整理了,最后,晚上七点前,把下周的排期发给产品。
輸出要求:關鍵信息正確,代辦事項自動分點呈現。
不同産品的輸出:
评价:在这个场景中,三款产品均没有丢失时间/事项等核心信息,Flow 和 Willow 都按照原文中的“首先/第二/第三/最后”等标识词进行了分段,看上去更像是 To do List,而在标点符号和格式上,Flow 做得更好一些。
而 OpenAI 的 Whisper 总体表现最差,虽然加了标点,但没分段,还在最后加入了冗余文字。
測試2:含專業術語的備忘錄場景
場景描述:在券商的財報點評會開始之前,用戶作爲券商分析師需要對財報的亮點進行簡單總結,形成文字備忘錄,並分享給團隊其他成員。
口语化内容:“呃…我刚看了那个财报,XX 这季度虽然同比是有增长的,但是环比是负的,然后它那个订阅收入占比在上升,主要是那个 XX 和 XX 的贡献吧,另外它跟阿里的那个可转债得看看了,就是是不是有摊薄风险的问题?我建议把重点放在产品结构和付费动能这块,营收增速还是偏保守。”
輸出要求:關鍵信息正確,專業術語正確,語氣偏正式。
不同産品的輸出:
注:紅色爲出現錯誤的詞彙,文字爲
AI生成,僅做測試用途,與現實無關
评价:在带一定专业术语的备忘录场景下,三款产品均在“摊薄风险”这个术语上发生了错误,Willow 和 Whisper 也都出现了为数不少的其他错误,而当笔者手动在 Flow 中添加了“摊薄风险”这个词后,Flow 仍没有正确输出,总体来讲,三款产品都没法胜任专业一些的场景,但相比之下 Flow 做的略好。
除此之外,三款産品均沒有修正諸如“環比是負的”等,一些“口語化”表達,也沒有進行邏輯梳理,筆者在輸入時將“收入”拆分到了第一句和第三句來講,三款産品均沒有將同類內容合並到一起。
測試3:回複客戶郵件場景
場景描述:在機場,用戶需要回複客戶的咨詢郵件,提供建議。
口语化内容:您好,看到你们说想优化销售流程,我感觉其实你们现在的问题还挺典型的,就是前期线索进来之后没有特别系统的筛选机制吧,然后导致后面销售在跟进的时候效率挺低的——像这种情况,我们之前有几个客户也遇到过,一般会建议统一一下线索评分的标准,或者引入个比较轻量的 CRM 系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下,到时候你看看是不是有参考价值哈。
輸出要求:自動分段、呈現郵件格式、文風正式。
不同産品的輸出:
评价:Flow 和 Willow 都按照邮件的格式将“你好”另起了一行,Flow 在分段方面做得更好一些,三款产品都没有能很好地修改输入时的口语化表达,仅有 Flow 有将“到时候”改成了“届时”。整体来看,邮件的文风仍非常口语化,在发送之前需要用户手动修改。
体验下来,Flow 和 Willow 质量虽然可接受,但距离其“零编辑”的目标,相差还是挺远的,在专业术语的识别、以及正式文风中,都出现了不达标的输出。笔者对英文转录也进行了测试,结果差不太多,也会出现转录出错的情况。
寫在最後
虽然从测试结果看,Flow 和 Willow 在专业术语和正式文风等场景中距离“零编辑”还有一定的差距,但根据各媒体的报道,Flow 的用户粘性和付费率都相当高,截止目前,Wispr Flow 官宣用户规模月环比增长超50%,6个月活跃用户留存率达到80%,付费率高达19%,年收入(2024.7-2025.7)已经达到380万美元。
未能达成“零编辑”目标与用户付费之间,是 Flow 这类产品虽然还不能让用户完全不动手、但已经相较于之前提供了差异化的体验。
不少Reddit 和 Product Hunt 上的用户表示,
用 Flow 与 ChatGPT 交互或者进行 Vibe
Coding,体验很好 |图片来源:Reddit
根据 Reddit 和 Product Hunt 上评论,在不是那么正式的输入场景下,Flow 表现得比其他产品好很多,能够令人满意。睙徵有用户用 Flow 与 Cursor 进行自然语言交互(如上图)进行 Vibe Coding,在这个场景中,用户只需按 mac 键盘上的一个按键、就可以直接口聊,虽然在第3层针对于特定场景的书面语转化中,Flow 还有所欠缺,但在前2层格式化与上下文理解,Flow 表现明显强于 OpenAI 的 Whisper 为首的其他产品。
Flow 的超高粘性和付费率还反映出,通过語音輸入来减少人机交互的“摩擦”、实现提效,可能是一个可行方案。虽然 Flow 和 Willow 目前都没有做到在所有场景下“零编辑”的目标,但是随着大模型能力的进一步提升与数据的积累,未来大概率能够有很大改善。
而根据 Flow 创始人的说法,如果未来“語音輸入”可以达到能让用户信任的程度,未来“語音輸入”取代键盘,成为人机交互的新范式(語音操作系统)也就不远了,“现实提效+未来颠覆旧范式的可能性”可能才是 VC 们愿意真金白银投入語音輸入的原因。
(舉報)