Easy Circle Logo
返回新聞列表
Chrome 版 Gemini 新增「從螢幕選擇」工具,Gemini 3.5 Flash 獲電腦操作能力

Chrome 版 Gemini 新增「從螢幕選擇」工具,Gemini 3.5 Flash 獲電腦操作能力

2026年6月26日·9to5google.com·0 次閱讀
小圈
小圈解讀

Google Chrome 瀏覽器現在可以直接「圈出」網頁內容問 AI,而新版 Gemini 3.5 Flash 仲學識咗好似真人咁操作電腦做自動化工作。

點解重要

呢單新聞對做生意嘅朋友好重要,因為 AI 唔再只係寫字,而係可以幫你處理跨軟件嘅繁瑣工序,好似請咗個識自動波做嘢嘅助手咁,幫你慳返好多時間。

新手貼士

如果你想試新功能但搵唔到,可以試下關咗個 Chrome 瀏覽器再開返(即係 Restart),通常新功能就會喺輸入框旁邊個「+」號位出現架喇!

術語小字典

Computer Use即係「電腦操作」,指 AI 可以好似人咁睇住個螢幕、郁個滑鼠同打字,幫你完成一連串動作。

API好似茶餐廳張點餐紙,係一種畀唔同軟件之間互相溝通、傳遞指令嘅工具。

Prompt Injection即係「指令注入」,指有人故意用奇怪嘅說話去誤導 AI,令 AI 做出唔安全或者唔正確嘅行為。

Chrome 版 Gemini 新增「從螢幕選擇」工具,Gemini 3.5 Flash 獲電腦操作能力

Chrome 瀏覽器中的 Gemini 現在讓你可以透過全新的「從螢幕選擇」(Select from screen)工具來聚焦指令,而開發者則可以利用 Gemini 3.5 Flash 的電腦操作(computer use)功能。

Chrome 版 Gemini 現已具備「從螢幕選擇」工具,讓你能夠快速將圖片加入指令中。你可以在「加號」選單的底部找到它。

此功能會突出顯示你當前的分頁,並要求你「選擇任何文字或圖片以詢問 Gemini」。隨後,該圖片會被加入到指令框中。

「從螢幕選擇」正作為 Chrome 149 的一部分推出,如果你尚未看到該功能,重新啟動瀏覽器即可引入。

在其他相關進展中,Google 今日宣布 Gemini 3.5 Flash 模型現在擁有內置的電腦操作工具。這項原生整合加入了搜尋(Search)和地圖(Maps)落地功能,取代了獨立的 Gemini 2.5 Computer Use 模型。

開發者可以使用這項新功能來「構建自定義代理,使其能夠在瀏覽器、流動裝置和桌面環境中進行觀察、推理並採取行動」。

改進後的長程任務和企業自動化任務表現,容許進行「跨專業應用程式的持續軟件測試和知識工作」。

在下方的範例中,3.5 Flash 利用電腦操作來「分析 Gemini 應用程式並返回分類的功能列表」。

在安全方面,企業客戶可以:

針對敏感或不可逆轉的操作,要求明確的用戶確認。

如果識別到間接指令注入(indirect prompt injection),則自動停止任務。

Gemini 3.5 Flash 今日已在 Gemini API 中提供。

立即嘗試:在由 Browserbase 託管的演示環境中測試這些功能。

開始構建:透過 Gemini API 和 Gemini Enterprise Agent Platform 深入研究我們的參考實現和文檔。

資料來源:9to5google.com

Gemini in Chrome adds ‘Select from screen’ tool as Gemini 3.5 Flash gains computer use - 9to5Google

閱讀原文

本文由 AI 自動翻譯整理,內容以原文為準。

GoogleChromeGemini人工智能自動化