谷歌Pixel 4神奇在哪兒?AI黑科技帶來四大改變
不久前在紐約硬件發布會上首次亮相後,谷歌2019年款旗艦智能手機Pixel 4和Pixel 4 XL本週開始銷售。與前三個版本類似,人工智能(AI)為Pixel許多獨有的新功能和改進提供了動力。
圖1:谷歌最新款旗艦智能手機Pixel 4
這款設備上的AI功能是此次谷歌最新硬件發布會上的主旋律。Pixel 4使用神經內核(Neural Core),這是從Pixel 3的Visual Core芯片升級而來的TPU芯片。Pixel 4提供了許多先前已經存在的AI支持功能,比如檢測曲目的Now Playing,但它也有四大改進,包括語音識別、下一代語音助手Google Assistant、多款新攝像功能以及用於解鎖手機和支付的面部識別功能。
攝像頭
智能手機製造商不再以銷售手機整機為主,而是以推銷攝像頭為重點。這就是為何谷歌在最近發布會上花了很長時間談論Pixel 4攝像頭的原因。AI建議在低光環境下使用夜視(Night Sight)功能,並對Portrait Mode模式圖像進行深度預測。Pixel 4的Portrait Mode一如既往地好用。
圖2:使用Pixel 4 XL上Portrait Mode功能拍攝照片
使用Pixel 4的深度預測Portrait Mode拍照,似乎效果比之前Pixel機型強大得多。夜視功能也得到改善。如果你正在進行手持拍攝,夜視功能可以提供一些被稱為“瘋狂科學”、給人留下深刻印象的照片。
但是如果你使用三腳架或其他東西支撐住Pixel 4,使其處於靜止狀態,夜視功能可以持續三分鐘或更長時間,這不僅可以提供更清晰的低光圖像,甚至可以拍攝天空中的恆星。測試人員的初步測試發現,這個功能並未誇大。
圖3:使用Pixel 4 XL上的夜視功能進行天文攝影
與其他Pixel手機上的攝像頭相比,Pixel 4攝像頭另一個很大的區別是你可以拍攝超4K視頻,只需點擊並按住相機按鈕就可以記錄視頻。向下滑動擴展控制,可以讓用戶啟用諸如Frequent Faces之類的功能。基於機器學習的白平衡首先被引入到Pixel 3中,然後繼續使用在Pixel 4上,以便提供具有精確色溫的圖片。
圖4:加州奧克蘭論壇大廈四個街區外的超級分辨率變焦圖片
超級分辨率變焦(Super Res Zoom)是Pixel 4的另一個主要功能,它使用了新的遠攝鏡頭,變焦高達8倍,與以前的數碼變焦相比,效果更好。Frequent Faces功能可以記錄並存儲有關用戶定期拍攝的人的數據,以便形成Top Shot照片推薦結果。
面部識別
面部識別技術的採用增強了Pixel 4中的許多功能,比如解鎖手機和支付的面部解鎖(Face Unlock)功能,以及識別你拍攝照片最多的人的Featured Faces功能。
Pixel 4採用了運動感知(Motion Sense)雷達,當手機感覺到移動時就會處罰該功能,谷歌聲稱面部解鎖比蘋果iPhone上的Face ID更快。Pixel 4的面部識別功能可以通過面部掃描來驗證Google Pay交易,而Apple Pay用戶在發佈時無法使用這個功能。但谷歌有史以來首個智能手機的面部識別系統正在經歷諸多重大的成長煩惱。
BBC上週進行的一項調查發現,即使人們閉上眼睛,谷歌的臉部解鎖功能也能發揮作用,這讓許多用戶感到擔憂。事實是,即使在指紋掃描的Touch ID世界中,懷有惡意的人也可以強迫某人打開手機,但看到人臉可能比掃描手指更容易。
最有可能誤用此類設計缺陷的可能是配偶解鎖其伴侶的手機,但Pixel 4在昏迷、睡覺或死亡的人臉上工作時,很容易想到這個惡意漏洞。谷歌發言人表示,該公司最初並沒有計劃對這個功能進行任何修復,但最近添加了檢測眨眼的系統,並將在未來幾個月作為軟件更新的一部分發布。
另一個需要改進的潛在領域是谷歌在深色皮膚人群中的面部識別性能。在Pixel 4發布的幾週前,《紐約每日新聞》報導稱,為谷歌工作的承包商使用了有問題的策略來提高其面部識別系統識別深色皮膚的人的能力,比如不夠坦率地說明面部掃描將如何使用,或者將用於提高谷歌面部識別能力的掃描視為一種遊戲。承包商Randstad顯然參加了洛杉磯的黑人娛樂電視獎(BET Awards)頒獎活動,並通過分發價值5美元的星巴克禮品卡在亞特蘭大收集流浪者的面部數據。
這些發現引起了亞特蘭大市律師的注意,並提出了一個問題:人們臉部圖像的合理價格是多少?在正在進行的調查中,谷歌承包商的面部掃描收集項目已暫停。
將來的更新可能會促使面部掃描功能性能提高。在深色皮膚人群中,Pixel 4在理想條件下與平衡照明效果非常一致,但有時在合理的照明條件下,面部識別功能卻無法百分百精確識別出某些人。在連續多次執行面部解鎖失敗後,手機會建議用戶刪除此前的面部配置文件,並創建一個新的配置文件。
重新註冊幫助了許多人,但還沒有人正式統計谷歌面部解鎖成功或失敗的案例。不過,雖然早上光照條件較好時,可以流暢地使用面部解鎖功能打開手機。但當晚上在車裡,在頭頂照明環境下,或在其他照明不太理想的常見情況下,解鎖手機可能變得更困難。
圖5:使用面部解鎖功能解鎖Pixel 4 XL失敗後進行自拍
手機上的面部識別設置需要大約30秒時間,慢慢地將臉轉向不同的方向,以完成面部掃描。這比Nest Hub Max智能顯示屏上的面部匹配捕捉過程更寬泛,可能是因為面部識別取代了指紋掃描儀,指紋掃描儀曾經是解鎖Pixel手機的主要手段,而且在這種情況下,面部識別只需要區分每戶最多6個人之間的差異。
對於深色皮膚的人來說,面部識別功能表現不佳是個全行業性問題。隨著這款手機公開上市,將對谷歌面部識別在淺色和深色膚色人群中的表現進行更多的評估和分析。儘管測試人員經常遇到面部解鎖功能失敗的情況,但現在將其稱為失敗技術還為時過早,畢竟谷歌的面部識別才剛剛起步。
下一代智能助手
正如穀歌硬件發布會上展示的那樣,新的谷歌智能助手Google Assistant可以打開應用程序、搜索網絡、獲取方向,並將Google Assistant搜索查詢結果發送給聯繫人。
下一代Google Assistant使用“連續對話”(Continued Conversation)來啟動多回合對話。這意味著,在用戶說出初始的“OK,Google”喚醒語後,Google Assistant將執行該命令,然後繼續監聽其他命令,直到用戶說“停止”或“謝謝”結束對話。
智能顯示器和智能音箱上的“連續對話”功能早已經出現,但當其引入智能手機上時,它會提供一連串的卡片和內容。這使用戶可以獲得與智能顯示屏不同的體驗,智能顯示屏在回答每個問題後都會返回到屏幕原來的圖像。讓你來回滾動並完成動作的信息,也能幫助凸顯你自己的意識流。
這意味著,你可以非常迅速地從向谷歌詢問任何給定主題的問題,甚至深入該主題並繼續了解更多內容,然後與朋友分享或根據這些信息採取行動。當Google Assistant在後台運行時,用戶還可以與應用程序或網站進行交互,這是一種真正的多模式體驗。
不過,這種智能助手仍有不足之處。告訴Google Assistant與朋友分享,它可能只會截圖。測試人員曾要求Google Assistant在不同的場合與朋友分享電子郵件和播客片段,但它只是拍了照片。例如,Google Assistant可以分享天氣報告信息,但它不適用於網站或電子郵件之類的東西,URL鏈接幾乎總是更有幫助。
還需要注意的是,新的Google Assistant使用了設備上的語言模型和神經內核,使其比其他智能手機中的同類產品更快,但這並不意味著徹底終結延遲。由於Wi-Fi或數據連接速度慢,新的Google Assistant仍然可能會遇到延遲。而且新的Google Assistant將不會在G Suite帳戶發佈時提供。看起來令人感到奇怪的是,旨在幫你提高效率的新Google Assistant卻無法與G Suite兼容工作。
最後,新的Google Assistant可以與應用程序交互,並且在呈現Google Photos內容方面做得更好,但它仍然沒有上下文感知能力。因此,如果你打開Google Maps,然後說“找到最近的花店”,這個智能助手將退出Google Maps,並返回到Web搜索來共享結果。
新的Google Assistant在Pixel 4中也得到了稍顯不同的外觀,只在屏幕底部顯示為發光的谷歌原色。內置Google Assistant的Pixel 4為文本的實時轉錄騰出了空間。這有助於確認助手正確聽到了用戶的請求,屏幕上的文字移動會讓你知道它正在傾聽,並為每個語音命令建立一種節奏。
語音識別
多年來,我們確實可以使用會話式AI將語音轉化為文本,而速度比你在智能手機上用拇指打字更快。語音到文本的轉錄可以在越來越多的地方找到,使用Pixel 4,用戶可以自動轉錄視頻中講話人的聲音。
實時字幕提供播客中音頻、音頻消息和視頻的文本轉錄,包括從用戶的相機捲到YouTube視頻等。偶爾可能會有遺漏,但這是個非常有用的功能,特別是當你不能聽音頻,但仍然可以欣賞視頻和其他內容時。只需輕點並按住屏幕上出現的文本即可將其移動,雙擊即可擴展以顯示更多文本。
新的Recorder應用程序還可以轉錄用戶的語音記錄,這一功能允許你搜索音頻文件中的語句並導出文本記錄。Recorder應用程序使用實時語音到文本的轉錄,有時會出錯,這與其他語音轉錄服務差不多。Recorder還可以自動識別抄本中的關鍵字,並基於轉錄中的關鍵字、音樂、掌聲或語音推薦音頻消息標題。
缺點在於,Recorder應用程序不能很好地拆分或標記對話中的演講者身份,因此轉錄的語句可能時不時地會相互混合。Recorder的軟件更新可能會解決這樣一個事實,即它不會將時間戳添加到可以導出的轉錄文本中。
這些新功能中的每一個都使用自然語言理解技術,這種技術在GBoard中已有多年,用於編寫Google Doc或發送消息。(選自:VentureBeat 作者:Khari Johnson 編譯:網易智能參與:小小)