<thead id="vr1xr"></thead><cite id="vr1xr"></cite>
<cite id="vr1xr"><span id="vr1xr"></span></cite>
<var id="vr1xr"></var>
<var id="vr1xr"></var>
<var id="vr1xr"></var>
<var id="vr1xr"></var>
<var id="vr1xr"><video id="vr1xr"><listing id="vr1xr"></listing></video></var>
<cite id="vr1xr"><strike id="vr1xr"></strike></cite><var id="vr1xr"><strike id="vr1xr"></strike></var>

人工智能

人工智能里的“血汗工廠”

投中網 2019-04-16

摘要 在人工智能(AI)高大上的科技光環背后,存在一個被大部分人忽略的環節,這是一個勞動密集型的鏈條,這個鏈條上的工人,拼命在用自己重復性、機械性勞動,來訓練一個強大的人工智能系統,進而革掉自己工作的命。

????【CPS中安網 cps.com.cn】人工智能(AI)高大上的科技光環背后,存在一個被大部分人忽略的環節,這是一個勞動密集型的鏈條,這個鏈條上的工人,拼命在用自己重復性、機械性勞動,來訓練一個強大的人工智能系統,進而革掉自己工作的命……

  訓練別人,革自己的命。這不僅是一個科技問題,更像是一個哲學問題。

  人工智能的核心是機器學習,是教會機器如何像人類一樣認知世界,如何像人類一樣思考。這只是一句話的簡單概括,在實際中,遠比這一句話要復雜的多。教會機器認知世界,在AI領域,被稱為“訓練”,而訓練需要的是海量的數據。

  我們常說AI訓練用的海量數據,仍然需要人工采集和整理,屬于勞動密集型產業。那些每天坐在電腦旁邊,不斷整理采集來的數據,準備培養機器認知世界所需要的素材的人,被稱為“數據標注員”,跟富士康流水線上的工人并沒有什么本質的不同。

  1、教會機器像人一樣思考不容易

  教會機器像像人一樣思考,并不是一件容易的事情。養育一個有血有肉、智力健全的娃娃,尚且能逼瘋一個老母親,更何況教會以沙子為原材料的機器去思考?

  筆者上一篇文章里曾形象描述了人工智能的原理,類比一下三歲小孩認知世界的過程。三歲小孩是怎么知道如何分辨貓和狗的?是因為來自大人的不斷灌輸,這是一只貓,這是一只花貓,那是一條狗,那是一條哈士奇狗……訓練出孩子的認知,貓的基本特征,狗的基本特征,再看到一只動物,符合貓的特征的,就是貓,符合狗的特征的,就是狗。這樣一個“養娃”的過程,對應到人工智能的三大核心要素,在大人的不斷灌輸(算力)下,給孩子介紹貓和狗(數據),孩子在腦子里形成了判別貓和狗的基本認知(算法)。

  因此,為了讓機器跟三歲孩子一樣去認知,就需要準備足夠的海量數據來灌輸給機器,來教會機器認知。而這些用來訓練機器認知模型的數據,必須是基于人類認知加工過的“熟數據”,而且必須是正確的“熟數據”。

  否則,就如同一開始教育孩子的方法和基礎認知都錯了,ABCD都教錯了,就別指望孩子英語能學好。

  而且,機器面對的世界不僅僅是貓和狗,而是整個物理世界,包括圖像、視頻、聲音、各種感知和情感等等,這么一個復雜的世界,需要更加復雜且海量的數據來支撐機器認知世界。

  所以目前的人工智能,都是細分領域的人工智能,專門針對圖像的、專門針對文字的、專門針對語音的……離著構建一個完整的人,還相差甚遠。

  而產生這些訓練機器認知的數據,不但要符合人類認知體系,還要有規則有標簽,更要數量龐大,是一個勞動密集型行業,因此,說成高科技行業的富士康不為過。

  2、機器學習的原理

  機器學習分為監督學習和無監督學習。

  所謂監督學習,就是通過已有的訓練數據去訓練得到一個最優模型。在監督學習中,訓練數據必須是有輸入和輸出的數據,也就是有一定規則的數據。根據對訓練數據的分析,機器可以訓練出一個模型,這個模型內嵌認知世界的規則。

  所謂無監督學習,是讓機器自主分析雜亂的數據,從而得到這些數據中的一些規則/規律,類似于科研探索,在沒有發現科研成果之前,對于研究的對象和結果是未知的。最典型的無監督學習是聚類,也就是分類,讓機器自己將對象進行分類聚合。

  目前流行的AI,主要還是依賴監督學習,所以才有了海量數據處理的“富士康工廠”。

  舉個例子,如果想要一臺計算機能夠準確識別貓,那就必須給計算機輸入大量的不同的貓的照片,每幅照片都需要做上大量標注,圖片里的哪個區域是貓、什么品種、什么顏色、尾巴、耳朵……只有有了這些標注,訓練數據才能成為“熟數據”,才能夠讓計算機在這些數據的基礎上,形成自己認知貓的模型。

  人工智能可不僅僅是認知貓狗這么簡單,而是認知整個世界……

  3、機器需要學習什么

  要正確認知這個世界,機器需要學習的東西太多了。

  認識這個世界已經不容易了,更何況還要理解這個世界。他的表情是友善還是敵意?他說的話是玩笑還是認真?他寫的歪歪扭扭的手寫字到底啥意思……

  每個細分領域,機器都在深度學習。目前比較流行的AI領域有圖像、視頻、音頻、文本……應用領域主要集中在安防、無人駕駛、電商零售、智能機器人等多個垂直領域。所有這些領域,都需要海量的訓練數據,需要海量的數據標注。

  比如上周BUPT AI Club會議上,大家熱議的首都機場剛安裝的表情識別系統,根據每個人表情的不同,對于緊張表情的乘客加強安檢措施。這就需要系統不但能實現人臉識別,還能識別人的表情。

  比如用在自動駕駛上的場景識別,需要準確識別路況、路標等信息,并能夠準確分辨模糊路標,防止偽裝路標的欺騙等等。

  比如AI掃描儀,如何識別不同人、不同筆跡的手寫字體,特別是醫生開的處方……

  4、如何教會機器學習

  有了大量的數據,并不是把這些雜亂的數據一股腦兒全部交給機器,他們就能自動長大成人。這些數據也需要標記和注釋,被標記、標注、著色或突出顯示,以標記出差異、相似性或類型。

  數據標注種類繁多,如分類、拉框、區域、描點等等

  分類標注,俗稱打標簽,將數據的所有屬性都打上標簽,比如人的照片,可以有性別、年齡、膚色、頭發等等各種屬性標簽;文字可以有主語、謂語、賓語,名詞動詞、語氣、感情等各種屬性標簽。

  拉框標注,主要應用于圖像和視頻領域,就是用框選的方式把目標對象標注出來,比如把人的臉、各種不同物品標注出來,可用于人臉識別和場景識別。

  區域標注,準確標注出區域的范圍,比如自動駕駛中行車道、路面的范圍等等。

  描點標注,要求更為精確了,在不同圖像上進行大量的描點,有有助于機器進行對比識別,主要用于識別,人臉識別、動作識別等等。

  比如人臉識別,通過分析對比這68個點的特征,可以精準實現人臉識別。當然了,描的點越多,訓練得到的模型準確率越高。

  5、數據標注行業狀況

  以上說了機器學習的本質,是需要給機器輸入海量的、不同場景的帶標注數據,數據量越大、標注越準確,得到的AI模型準確率也就越高。

  衡水中學的題海戰術,用在了人工智能上而已。

  這些海量的數據標注,都是流水線上工人手工完成的,一張一張圖片,一幀一幀聲音,一個一個單詞地標注……頂著高科技光環的人工智能數據標注,其實與富士康流水線并無本質的差別。

  在眾包網站上,一件件任務被發布,明碼標價。

  在流水線上,一個個員工盯著屏幕,或者在一張張圖片上不斷地標注關鍵點,或者在交通圖上框選路燈、指示牌,或者在無人便利店標注不同的商品并加上備注,或者……

  而隨著人工智能行業的興起,對訓練數據的需求也指數級增長,對于數據標注員的數量要求也隨之增長,在流水線上,為人工智能的成長和強大,源源不斷地提供彈藥,也許他們是最后一批被革命的手工業者。

?

責任編輯:yxshi


pk10牛牛规律