人工智慧的影響與力量已經越來越大了,現在還能分辨圖片了?
現在人工智慧 ( AI ) 已經應用到很多專業的產業中,如醫療、咖啡、零售、人臉合成、養殖業、無人駕駛、救流浪貓等等。 Google 也展現了將人工智慧技術帶入日常生活的決心也包括了Python,並推出了新一代機器學習產品。本文要介紹的 Google Vision API 為 Google Cloud 提供的 AI 影像辨識工具,還被聯合利華 Unilever 採用、傢俱大廠 IKEA 也透過 Cloud Vision API 打造一項商品搜尋應用程式,消費者只要對產品照相,立即就能得知詳細資訊內容。
每一組回應包含三個值:mid、description 以及 score。上圖中右側顯示有 description 以及 score。 mid、description 以及 score。上圖中右側顯示有 description 以及 score。 description:這就是對該物件的文字敘述,例如:Cat(貓)、Mammal(哺乳類)等;而 score 就是 Cloud Vision API 對於這個敘述的信心分數。如此例中 Cat 為 100%,代表 API 認為 「貓」 是圖片中的主題,因此給了最高分。 其他敘述還有 Mammal(哺乳類)99%、Felidae(貓科動物)97%、Tabby Cat(虎斑貓) 95% 等。利用這個文字敘述,可以輕易找出照片內容關鍵字,對於大量照片的分類、關鍵資訊的抽取都很有幫助。 而 mid 值則是 Machine-generated identifier(機器合成辨識)的縮寫,要點選 「Show JSON」 才會看的到。如果 API 偵測出的物件或特徵是知識卡裡面的資料,那麼mid 值就會秀出該物件在知識圖譜中的位置 (如下圖紅框內容所示):
點選 「Show JSON」 則可以看到更細部的分析,包含左右眼的位置、眼睛上下緣的位置、人臉的仰角、傾角、可能的情緒狀態等極細微的特徵
如果想學習更多,先透過Python入門,就可以知道語言程式的世界無遠弗屆!!
現在人工智慧 ( AI ) 已經應用到很多專業的產業中,如醫療、咖啡、零售、人臉合成、養殖業、無人駕駛、救流浪貓等等。 Google 也展現了將人工智慧技術帶入日常生活的決心也包括了Python,並推出了新一代機器學習產品。本文要介紹的 Google Vision API 為 Google Cloud 提供的 AI 影像辨識工具,還被聯合利華 Unilever 採用、傢俱大廠 IKEA 也透過 Cloud Vision API 打造一項商品搜尋應用程式,消費者只要對產品照相,立即就能得知詳細資訊內容。
目錄 動手玩玩 Google Vision API 標籤偵測(LABEL_DETECTION) 臉部偵測(FACE_DETECTION) 煽情露骨內容偵測(SAFE_SEARCH_DETECTION) 標誌偵測(LOGO_DETECTION) 地標偵測(LANDMARK_DETECTION) OCR 文字辨識(DOCUMENT_TEXT_DETECTION) |
動手玩玩 Google Vision API
Google Vision API 就像是 Google 的照片搜尋功能,主要能夠讓機器學習圖片中的物件 (如人臉、商標 Logo、圖片中的文字等等),還可以偵測是否有暴力色羶腥的內容等等。簡單而言,Vision API 會自動辨認照片出現的物品並逐一做標籤。 只要點我打開 Google Cloud Vision API 的網頁,將圖片拉進下圖中的紅色區域,就能無痛、無料試玩大多數的 API 功能。 API 功能可簡單分成臉部辨識、標籤偵測、Web、文本辨識等等,下面將會就各個功能分別做說明。標籤偵測
今天我們上傳一張圖片,API 就會回傳一組或多組回應。下圖為我們上傳一張貓咪圖片的例子,API 回傳了多組回應。每一組回應包含三個值:mid、description 以及 score。上圖中右側顯示有 description 以及 score。 mid、description 以及 score。上圖中右側顯示有 description 以及 score。 description:這就是對該物件的文字敘述,例如:Cat(貓)、Mammal(哺乳類)等;而 score 就是 Cloud Vision API 對於這個敘述的信心分數。如此例中 Cat 為 100%,代表 API 認為 「貓」 是圖片中的主題,因此給了最高分。 其他敘述還有 Mammal(哺乳類)99%、Felidae(貓科動物)97%、Tabby Cat(虎斑貓) 95% 等。利用這個文字敘述,可以輕易找出照片內容關鍵字,對於大量照片的分類、關鍵資訊的抽取都很有幫助。 而 mid 值則是 Machine-generated identifier(機器合成辨識)的縮寫,要點選 「Show JSON」 才會看的到。如果 API 偵測出的物件或特徵是知識卡裡面的資料,那麼mid 值就會秀出該物件在知識圖譜中的位置 (如下圖紅框內容所示):
臉部偵測
可以偵測輸入圖片中的多個臉孔,並可針對圖片中的每個臉,個別指出臉部的喜怒哀樂、特徵、位置、是否有戴眼鏡、是否模糊等。點選 「Show JSON」 則可以看到更細部的分析,包含左右眼的位置、眼睛上下緣的位置、人臉的仰角、傾角、可能的情緒狀態等極細微的特徵
煽情露骨內容偵測
此功能可偵測 5 種內容:adult(成人)、spoof(詐騙)、medical(藥物)、violence(暴力)、racy(性刺激),幫助使用者過濾出可能有爭議而不適合顯示的圖片。 下圖為使用裸體假人圖測試 API 的結果。API 則依據假人的裸體判斷此圖 「可能」 含有 adult(成人)及 racy(性刺激)的內容。標誌偵測
此功能可偵測出圖片中是否含有著名商標。以下圖為例,賽車上的 「Red Bull」 就被偵測出來了。地標偵測
此功能可偵測出圖片中是否含有著名地標。以下圖為例,台北 101 的地點、經緯度都被偵測出來了。OCR 文字辨識
這功能很強大,能抓取圖片中出現的文字,可存成文字檔,省去輸入謄稿的時間。推薦閱讀:
人工智慧進入醫療體系將帶來更多希望
電信與醫療業導入AI人工智慧,全球逾四成企業跟進
AI人工智慧成功自駕船, 未來不用自己開車
搶救低薪大作戰,再不來上Java課程就來不及了!
Java課程讓我百萬年薪科技新貴之路只需要六個月!
達內教育評價-故事背後事實的真相甚麼是這樣?!
中國IT教育領導品牌 達內教育集團第一家海外授權中心