语音AI公司Speechify日前推出原生Windows应用,依托本地存储的AI模型,在系统层面支持跨应用语音听写,并可朗读网页、文档和PDF等内容。该公司此举正面竞争WisprFlow、Willow、Superwhisper等同类跨平台听写与转录应用。
Speechify表示,这款Windows应用在Copilot+PC(搭载AMD、英特尔和高通NPU的机型)上,以及配备英特尔或AMDGPU的其他Windows11电脑上,均可实现完全本地的语音处理,无需将音频上传云端。应用在本地同时运行三类模型:用于朗读的神经网络文本转语音模型、用于实时检测用户是否在说话的语音活动检测模型,以及基于Whisper的转录模型。用户也可以在设置中切换为云端模型,或在使用过程中按需切换本地与云端处理模式。
根据公司披露的数据,Speechify在全球拥有超过5000万用户。其中,VITSNeural模型可在七档不同语速下生成音频,方便用户按个人习惯调节朗读速度,用于听网页、文档或其他文本内容。在语音活动检测方面,Speechify采用Silero开源模型,以识别用户何时开始或停止说话,从而提升实时听写和转录的流畅度与准确性。
Speechify创始人兼首席执行官CliffWeitzman在声明中表示,全球有超过10亿人使用Windows,随着这款Windows应用上线,公司希望确保“阅读,乃至写作,不再成为任何人工作的障碍”,无论用户使用何种设备、偏好何种工作方式。他特别强调了企业市场的潜力,称大量职场用户曾经主动要求在PC上使用Speechify,Windows原生应用将有助于满足这部分需求。
今年2月,Speechify刚刚推出类似Granola的会议转录功能,可以在浏览器环境中转录并总结线上会议,但当时该功能仅限于基于浏览器的会议场景。随着其跨平台原生应用的逐步完善,公司预计会将这一会议转录能力迁移到各平台的本地客户端,使用户无论使用哪款会议软件或浏览器窗口,都能直接在系统层面完成会议录音与转录。
在此之前,Speechify多年间主要专注于文本转语音场景,例如朗读文章和电子邮件,或将文档内容“变成播客”供用户收听。近来,该公司则着力向“全栈语音应用”方向演进,相继上线语音听写、会议转录以及语音助手等功能,尝试覆盖从阅读、输入到智能助理交互的完整语音使用链路。
了解更多:
https://apps.microsoft.com/detail/9n58gbx6x3vj?cid=DevShareMCLPCS&hl=zh-CN

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】