
Google 推出 Gemini 3.5 Live Translate 實現即時語音對語音翻譯
Google 推出咗新嘅 AI 翻譯功能,可以好似同聲傳譯咁,幫你將講嘢嘅聲即時變做另一種語言。
點解重要
以後同外國客開視像會議或者去旅行,唔使再驚雞同鴨講,個 AI 仲會學埋你講嘢嘅語氣,聽落更有親切感。
新手貼士
用 AI 翻譯工具時,盡量保持說話節奏平穩,並喺安靜環境下使用,準確度會大大提升。
術語小字典
Latency:即係「延遲」,指你講完嘢到 AI 出聲翻譯之間嘅等候時間,越低就越流暢。
API:好似茶餐廳嘅傳菜窗口,等唔同嘅軟件可以互相溝通同埋攞到 AI 嘅功能嚟用。
Speech-to-speech:即係「語音對語音」,直接將你講嘅說話翻譯成另一種語言嘅聲,唔使先變文字再變聲。
Google 推出 Gemini 3.5 Live Translate 實現即時語音對語音翻譯
Google 多年來一直追求即時翻譯,並稱其為「開創性的機器學習實驗」之一。過去我們在 Google 的活動中看過無數次舞台演示,但當時需要使用 Google 手機、耳機或其他特定的設備。去年,Google 將即時翻譯功能帶到了 Translate 應用程式中供更多用戶使用,而現在正進一步擴大其可用性。隨著 Gemini 3.5 Live Translate 的發佈,你將能在更多地方獲得比以往延遲更低的即時翻譯服務。
這款全新的人工智能模型是於 I/O 大會發佈的 3.5 系列成員之一。在今天之前,Google 僅推出了 Flash 版本,但我們預計 Pro 模型將在未來幾週內推出。Gemini 3.5 Live Translate 是一款語音對語音模型,經過調整後可自動偵測並翻譯超過 70 種語言。
Google 表示 Gemini 3.5 Live Translate 的速度足以跟上正常的對話,僅落後說話者幾秒鐘,同時還能匹配語調、節奏和音高。簡而言之,聲音聽起來更像你本人,而非通用的機器人。雖然這些演示都是在受控環境下錄製的,但聽起來確實令人印象深刻。不過,你不需要等太久就能親自驗證該模型的能力。
在 Google Meet 中使用 Gemini 3.5 Live Translate 進行語音翻譯。
Gemini 3.5 Live Translate 正在 Google 生態系統的多個部分陸續推出。開發者可以開始透過 Gemini Live API 或 AI Studio 的公開預覽版進行開發。該模型會持續處理語音並自動處理所有多語言輸入,免除開發者手動配置設定的麻煩。它還能過濾繁忙環境中的背景噪音。
資料來源:Ars Technica
Google announces Gemini 3.5 Live Translate for instant voice-to-voice translation - Ars Technica
閱讀原文本文由 AI 自動翻譯整理,內容以原文為準。
