人民網
人民網>>廣東頻道

人工智能訓練師:我教AI如何“更懂”人類

2022年08月09日16:11 | 來源:廣州日報
小字號

電腦前,張力文向記者演示一個火情識別算法模型的數據標注及模型訓練的過程。

智慧安防、智慧物流、智能交通……人工智能技術正讓我們的生活更便利。而讓人工智能(AI)“更懂”人類的新職業——人工智能訓練師在當中起到十分重要的作用,相當於人工智能的教練。

人工智能訓練師在2020年正式成為新職業並納入國家職業分類目錄。隨著去年底該職業的國家職業技能標准頒布,業內開展職業培訓和人才技能評價有了基本依據。人社部發布的報告顯示,經測算我國人工智能人才缺口超過500萬。近日記者採訪了解到,在廣東,人工智能訓練師的需求旺盛,“現在有做AI的公司基本都有自己的人工智能訓練師,隨著人工智能在各個應用領域的不斷拓展,數據標注員等工種存在較大的人才缺口。”業內人士說道。

新職業檔案:人工智能訓練師

使用智能訓練軟件,在人工智能產品實際使用過程中進行數據庫管理、算法參數設置、人機交互設計、性能測試跟蹤及其他輔助作業的人員。

主要工作任務:

1.標注和加工圖片、文字、語音等業務的原始數據﹔

2.分析提煉專業領域特征,訓練和評測人工智能產品相關算法、功能和性能﹔

3.設計人工智能產品的交互流程和應用解決方案﹔

4.監控、分析、管理人工智能產品應用數據﹔

5.調整、優化人工智能產品參數和配置。

訓練:“喂數據”圖片數以萬計 還要避免AI“背題”

給人工智能“喂數據”,讓其“長智慧”是人工智能訓練師的主要工作。日前,記者在天翼數字生活科技有限公司見到了正在給人工智能“喂數據”的張力文,研究生畢業后他便進入公司從事機器視覺相關的算法研發工作,至今已有七年時間。

“我的日常工作主要包括人工智能需求分析、數據標注、算法開發以及算法調優等,其中數據標注和算法開發是最主要的工作。”電腦前,張力文向記者演示了一個火情識別算法模型的數據標注及模型訓練的過程。隻見他在電腦用標注工具將圖片中的火焰逐一圈出來,並標注為“fire”,標注一定數量后將這些圖片數據“喂”給人工智能學習,學習后進行測試,再逐張查看人工智能識別火焰的結果是否正確。張力文發現,人工智能將圖片裡的黃色盒子誤判成“火焰”了,於是他把該黃色盒子重新標注為“非火焰”,對算法進行調優,再對人工智能進行迭代訓練,如此往復……

每訓練一次,系統會自動生成一次測試結果,在訓練兩三百次之后形成有多個指標結果的“loss曲線”圖,loss值是判斷“智能還是智障”的關鍵指標。“我們主要查看兩個指標來判斷人工智能是否需要重新學習。”張力文說,一般來說他們會查看人工智能“訓練集”和“測試集”的正確率,如果訓練集數據正確率高,但測試集的低,那麼說明人工智能存在“背題”的情況,需要再次學習,如果兩者正確率都高,說明人工智能已經“學會”。

張力文介紹,一個算法模型的訓練,少則需要5000-10000張圖片數據,多則要幾萬張甚至幾十萬張圖片數據,“像目標檢測一般一萬張圖片數據即可,但識別類算法,比如人臉識別,通常要幾十萬張圖片數據。”不過在數據標注階段,如今已有智能標注幫忙,訓練師在智能標注后再進行個別的人工標注即可,大大減輕人工標注的工作量。這些圖片數據如何來?張力文說,網上開源數據一般可滿足人工智能的基礎訓練,但針對性訓練的數據需要購買或搜集,有時候甚至需要他們自己拍攝。

經驗:要有核心算法 還要“走出去”

張力文從小對數學、物理十分感興趣,每天都會花很多時間鑽研相關理論。2012年,張力文大學本科畢業,看到人工智能技術在國內興起,誕生很多技術創新和應用創新,各種人工智能應用遍地開花,為此他決定繼續攻讀數字圖像處理方向的研究生。

視聯網明廚亮灶、平安慧眼、天翼應急、智慧商企……這些人工智能應用項目張力文都“經手”過。讓張力文印象深刻的是他負責的第一個項目。當時他帶領一支應屆生團隊研發智能相冊,由於缺乏產品設計、架構設計以及算法工程化落地相關經驗,盡管在啟動研發前技術方案已經改了10個版本,但在研發過程中還是遇到了很多不可預知的漏洞及問題。“項目需要研發人臉識別以及事物分類算法,我們直接使用了開源算法,結果項目完成后發現,人工智能分析的結果簡直不堪入目,相片分類有很多錯誤,可以說是‘人工智障’。”后來張力文跟團隊經過多個版本的迭代優化,才正式上線商用。“這個經歷讓我刻骨銘心,這說明我們要不斷提升技術能力以及累積項目經驗。商用項目不能過於依賴開源項目,我們要有自己的核心算法,才能做得更好,走得更遠。”張力文說道。

為了讓人工智能“學得更好”,訓練師有時候還要“走出去”調研具體的應用場景。比如明廚亮灶項目,要到廚房觀察攝像頭安裝的位置和角度,攝像頭拍攝的畫面質量,廚房光線、擺放物品等。“我們都會做一些分析,分析會引起人工智能誤判的因素。”張力文說道。

建議:求職者除了懂技術 更要懂行業

“一個新開發的算法模型需要大量數據訓練,這個時候就需要人工智能訓練師介入和參與。”天翼數字生活科技有限公司AI視聯及行業應用事業部副總經理王藝指出,人工智能技術已經滲透到各個行業,包括工業、金融、教育、安防、市政、物流、交通等,這些行業對人工智能訓練師都有著很高的需求。“現在有做AI的公司基本都有自己的人工智能訓練師,隨著人工智能在各個應用領域的不斷拓展,數據標注和算法訓練等工種存在較大的人才缺口。”

人社部2020年發布的《人工智能工程技術人員就業景氣現狀分析報告》指出,經測算我國人工智能人才缺口超過500萬,國內的供求比例為1:10,供需比例嚴重失衡。不斷加強人才培養,補齊人才短板,是當務之急。廣州市人工智能產業發展促進會執行秘書長蔡遠塵介紹,協會連續四年進行廣州市人工智能大數據企業入庫工作,目前已累計入庫800多家,其中大部分企業都是應用型傳統企業轉型而來,對人工智能人才有大量的需求。

“找到合適的、了解某個應用領域的訓練師還是很難。”王藝指出,人工智能並非一個單一的產業,而是一項跨行業的技術,“比如明廚亮灶的應用,需要針對廚房裡不規范操作進行智能識別,這就需要了解食品安全相關規范的人員進行數據標注。所以,數據標注員要了解某個垂直行業的背景知識。”

作為企業管理人員,王藝建議求職者不僅要了解算法調優、數據清洗、標注等基礎知識,還要了解不同應用行業的背景知識。“隻有了解行業,才能真正知道哪些數據需要標注。訓練師既需要有邏輯思維、理性分析,還要有敏銳感、發現數據的能力。”

“很多人認為人工智能可以完全替代人力解決所有的問題,但智能是一個不斷優化的過程,需要人工輔助。”張力文建議,有意入行的求職者要注重提升自身基礎理論以及工程實踐能力,持續關注前沿技術的發展動態﹔其次要做好個人的職業規劃,結合個人的興趣以及特長,定位從事人工智能的具體領域或模塊,比如機器視覺、自然語言處理、語音識別等,“做好定位后,要深入學習這些領域和分工涉及的軟件、基本技能、數據處理常用手段等。”

廣州日報全媒體記者 何穎思 駱昌威

(責編:王雅蝶、初梓瑞)

分享讓更多人看到

返回頂部