从0到800毫秒,这家初创公司要干掉谷歌翻译?

实时语音翻译技术正迎来突破,一款聚焦低延迟的翻译工具通过优化技术流程,将延迟降至 800 毫秒,兼容多种主流平台,为跨国沟通、多语言会议等场景提供流畅体验,展现出在语言障碍破解上的潜力。

从0到800毫秒,这家初创公司要干掉谷歌翻译?

776领投840万美元种子轮,Palabra AI专注实时语音翻译,延迟仅800毫秒。其桌面应用兼容Zoom/Meet/Slack等主流平台,支持30+语言实时互译,解决跨国会议沟通痛点。

一家名为Palabra AI的初创公司正致力于解决大型语言模型(LLMs)在理解多语言过程中一个较为棘手的难题,该公司主要研发人工智能驱动的语音翻译引擎。

Reddit联合创始人亚历克西斯・奥哈尼安(Alexis Ohanian)表示,如今大型语言模型已能让文本在不同语言间的转换变得更加轻松,但语音翻译的难度远不止于此。

“人工智能能够生成内容并进行文本翻译,而(语音)翻译却是个独特的难题 —— 它不仅需要实时切换语言,还得让合成的语音听起来如同人类自然发声,” 奥哈尼安说道。

奥哈尼安及其旗下的风投公司 “七七六”(Seven Seven Six,简称776)认为,Palabra AI或许就是解决这一难题的答案。正因如此,该风投公司牵头向这家初创企业发起了一轮金额为840万美元的种子前轮融资。参与本轮融资的还有Creator Ventures风投公司,以及多位个人投资者,包括Instacart 联合创始人马克斯・马伦(Max Mullen)、红杉资本(a16z)前合伙人安妮・李・斯凯茨(Anne Lee Skates)、深度思维(DeepMind)前产品负责人迈赫迪・吉萨西(Mehdi Ghissassi),以及纳马特・巴赫拉姆(Namat Bahram)。

“七七六” 风投公司的奥哈尼安还指出,Palabra在产品落地能力与团队专业实力上的双重优势,是促使公司决定投资的关键原因。

“借助Palabra的技术,翻译环节的运行极为流畅。这家公司拥有一支实力强劲的人工智能研究团队,在语音相关领域开展着高质量的研究工作。此外,该初创企业在产品设计与输出质量方面也做出了出色的决策,” 他补充道。

Palabra由阿尔乔姆・库哈连科(Artem Kukharenko)与亚历山大・卡巴科夫(Alexander Kabakov)于2023年共同创立。库哈连科曾担任三星公司的机器学习工程师,他表示,自己曾以 “数字游民” 的身份在多个国家生活,期间频繁遭遇语言沟通障碍。正是这一经历,让他萌生了结合自身机器学习经验、解决实时翻译难题的想法。

“许多其他公司都曾尝试解决翻译难题。但当它们整合各类技术模块(包括语音转文字、文字转语音接口)进行翻译时,延迟数值会显著增加,翻译也无法达到实时效果。而借助Palabra的技术,我们已成功将延迟降至800毫秒,实现了流畅且实时的翻译体验,” 他在接受TechCrunch电话采访时表示。

库哈连科进一步透露,公司已搭建一套定制化数据处理流程,使团队能在几周内完成对新语言的支持适配。他介绍,在该流程的最终环节,Palabra会安排人工译员对翻译输出质量进行核验。这家初创公司还表示,其算法能应对多种不同场景,例如嘈杂环境下的语音识别以及对话中断后的衔接处理。

Palabra AI同时推出了面向消费者与企业客户的翻译产品。公司开发了一款适用于Mac和Windows系统的桌面应用,可与多款主流视频会议软件兼容,包括Google Meet、Zoom、Discord、Slack以及Microsoft Teams。该应用支持超过30种语言的翻译功能,这意味着用户能将他人的母语发言实时转换为自己选择的目标语言收听。对于有不同国籍参与者参与的会议通话而言,这一功能尤为实用。

Palabra在其官网表示,其桌面应用即将为YouTube、Netflix、Twitch、Vimeo等内容平台新增原生翻译功能。

用户每月可免费使用30分钟翻译服务。若需更高使用时长,可选择付费套餐 —— 基础套餐每月25美元,包含跨应用60分钟的翻译时长。

该初创公司还向企业提供应用程序编程接口(API)与软件开发工具包(SDK),助力企业将翻译功能集成至自身产品中。

目前,其技术已应用于多个视频平台,例如为声网(Agora)等平台的多语言实时直播提供技术支持。此外,环球语言解决方案集团(GIS Group)等语言服务提供商也在将Palabra的工具与人工译员服务结合使用。Palabra方面称,已有多家活动主办方采用其技术实现多语言直播。

在翻译市场中,Palabra面临着激烈的竞争。在消费端,有诸如获得Y Combinator(创业孵化器)投资的EzDubs等初创公司,正开发适用于面对面交流或通话场景的翻译应用;今年早些时候,谷歌(Google)也在Meet 视频会议软件中推出了实时翻译功能。在企业端,总部位于迪拜的Camb.AI 等初创公司,则在研发可支持多语言直播的翻译技术。

为脱颖而出,Palabra目前正研发一款全新的流预测模型,该模型有望大幅降低延迟;同时,公司还在推进技术升级,以实现对超过10000路同步音频流的翻译支持。

(TechCrunch)

 

作者【AI新智能】,微信公众号:【AIOrbit】

© 版权声明

相关文章