Easy Circle Logo
返回新聞列表
Google 推出 Gemini 3.5 Live Translate 實現即時語音對語音翻譯

Google 推出 Gemini 3.5 Live Translate 實現即時語音對語音翻譯

2026年6月11日·Ars Technica·1 次閱讀
小圈
小圈解讀

Google 推出咗新嘅 AI 翻譯功能,可以好似同聲傳譯咁,幫你將講嘢嘅聲即時變做另一種語言。

點解重要

以後同外國客開視像會議或者去旅行,唔使再驚雞同鴨講,個 AI 仲會學埋你講嘢嘅語氣,聽落更有親切感。

新手貼士

用 AI 翻譯工具時,盡量保持說話節奏平穩,並喺安靜環境下使用,準確度會大大提升。

術語小字典

Latency即係「延遲」,指你講完嘢到 AI 出聲翻譯之間嘅等候時間,越低就越流暢。

API好似茶餐廳嘅傳菜窗口,等唔同嘅軟件可以互相溝通同埋攞到 AI 嘅功能嚟用。

Speech-to-speech即係「語音對語音」,直接將你講嘅說話翻譯成另一種語言嘅聲,唔使先變文字再變聲。

Google 推出 Gemini 3.5 Live Translate 實現即時語音對語音翻譯

Google 多年來一直追求即時翻譯,並稱其為「開創性的機器學習實驗」之一。過去我們在 Google 的活動中看過無數次舞台演示,但當時需要使用 Google 手機、耳機或其他特定的設備。去年,Google 將即時翻譯功能帶到了 Translate 應用程式中供更多用戶使用,而現在正進一步擴大其可用性。隨著 Gemini 3.5 Live Translate 的發佈,你將能在更多地方獲得比以往延遲更低的即時翻譯服務。

這款全新的人工智能模型是於 I/O 大會發佈的 3.5 系列成員之一。在今天之前,Google 僅推出了 Flash 版本,但我們預計 Pro 模型將在未來幾週內推出。Gemini 3.5 Live Translate 是一款語音對語音模型,經過調整後可自動偵測並翻譯超過 70 種語言。

Google 表示 Gemini 3.5 Live Translate 的速度足以跟上正常的對話,僅落後說話者幾秒鐘,同時還能匹配語調、節奏和音高。簡而言之,聲音聽起來更像你本人,而非通用的機器人。雖然這些演示都是在受控環境下錄製的,但聽起來確實令人印象深刻。不過,你不需要等太久就能親自驗證該模型的能力。

在 Google Meet 中使用 Gemini 3.5 Live Translate 進行語音翻譯。

Gemini 3.5 Live Translate 正在 Google 生態系統的多個部分陸續推出。開發者可以開始透過 Gemini Live API 或 AI Studio 的公開預覽版進行開發。該模型會持續處理語音並自動處理所有多語言輸入,免除開發者手動配置設定的麻煩。它還能過濾繁忙環境中的背景噪音。

資料來源:Ars Technica

Google announces Gemini 3.5 Live Translate for instant voice-to-voice translation - Ars Technica

閱讀原文

本文由 AI 自動翻譯整理,內容以原文為準。

GoogleGemini人工智能翻譯科技新聞