周小琪 梁文雪
河南郟縣東邊一個(gè)建材廣場的三層,這些天,來了500個(gè)長了眼袋的人。他們被輪流帶進(jìn)了臨時(shí)搭的攝影棚里——一個(gè)光線昏暗、不到30平方米的小房間。
有人指引他們坐在椅子上,面朝一部被固定在三腳架上的手機(jī),手機(jī)和眼袋者之間的距離是25厘米,不能多,也不能少。每次開拍前,一名長著老實(shí)憨厚方臉的員工都會(huì)掏出卷尺,仔細(xì)再量一遍。
方臉員工叫張凱。量完距離后,他需要用5部像素不同的手機(jī)拍攝這些有眼袋的人。
這項(xiàng)工作名為“數(shù)據(jù)采集”。采集而來的照片、語音等,進(jìn)行“數(shù)據(jù)標(biāo)注”后,將會(huì)提供給人工智能企業(yè),作為機(jī)器的學(xué)習(xí)資料。這些資料能教計(jì)算機(jī)分辨車輛、廚具等不同的物體,讓它們像人一樣,去認(rèn)識(shí)大千世界。
去年夏天,張凱要重新找工作養(yǎng)家,一家名為“千機(jī)數(shù)據(jù)”的公司正好在招人,人力主管向他介紹說,公司主要做“數(shù)據(jù)標(biāo)注”,簡單來說就是給圖片上的物體拉框框,只要會(huì)用電腦就能干。工資保底2000元,多勞多得。
他被安排在一個(gè)有電腦的工位上。領(lǐng)導(dǎo)傳來幾百張廚房、餐廳的圖片。張凱需要做的是:把圖片上的碗、碟、杯子、筷子等餐具都框出來,然后選好屬性、分好類。拉對一個(gè)框能賺4分錢。
張凱覺得很新奇——把這些鍋碗瓢盆框出來能干嗎?但初來乍到,他沒好意思多打聽。
第一天上班,張凱費(fèi)勁拉了幾百個(gè)框。他不熟悉規(guī)則,比如,三個(gè)堆在一起的碗,是應(yīng)該一起拉一個(gè)框,還是分開拉三個(gè)框?
一周后,他已經(jīng)熟練到每天能拉幾千個(gè)框,掙100多塊錢了。時(shí)間久了,張凱看什么都帶框,看到家里廚房的鍋碗瓢盆,他第一反應(yīng)是,框框應(yīng)該從哪個(gè)角度拉?拉多大比較合適?
才來三個(gè)月,張凱就開始挑戰(zhàn)難度更高的3D全景圖。工作了大半年,張凱已經(jīng)是公司最優(yōu)秀的員工之一,但他依舊沒問過,拉這些框是為了什么?
“數(shù)據(jù)標(biāo)注”的工作干了一年,張凱開始接手新任務(wù)“數(shù)據(jù)采集”。
他的第一項(xiàng)采集任務(wù)就是拍攝有眼袋的人。
一開始,張凱完全分不清眼袋、臥蠶和黑眼圈。在他看來,它們都是堆在下眼瞼的皮膚組織,只有喜歡熬夜或者上了年紀(jì)的人才會(huì)有。
為了這次拍攝任務(wù),張凱仔細(xì)研究了很多張照片,終于搞明白這三者的區(qū)別:眼袋呈倒三角形,浮腫而松弛;臥蠶是橢圓形的,比眼袋小很多,笑的時(shí)候才明顯;黑眼圈則是烏黑色的、平坦的,不會(huì)像眼袋和臥蠶一樣凸出來。
拍攝前,張凱少不了回答被拍攝者的質(zhì)疑。有人問:“照片上有我們的正臉,你們會(huì)不會(huì)拿來做違法的事?要是把它們用來刷臉支付怎么辦?”
張凱給出解釋:“大街上那么多攝像頭,如果拍幾張照片就能用來刷臉支付的話,走在路上是不是也不安全?”“我們公司是正規(guī)的,幾百號(hào)人,合作的都是大企業(yè),你就放心吧。”
創(chuàng)辦“千機(jī)數(shù)據(jù)”之前,公司CEO劉洋鋒也很少聽說“人工智能”這個(gè)詞,上中專時(shí)他學(xué)計(jì)算機(jī),畢業(yè)后從事的工作卻都跟計(jì)算機(jī)不沾邊。后來,劉洋鋒和兩個(gè)發(fā)小湊在一起,準(zhǔn)備創(chuàng)業(yè)。去年,一個(gè)偶然的機(jī)會(huì),他們在網(wǎng)上看到一個(gè)轉(zhuǎn)讓的“數(shù)據(jù)標(biāo)注”的單子。他不明白“數(shù)據(jù)標(biāo)注”是干什么的,直到在一個(gè)網(wǎng)頁看到這段話:
“要理解數(shù)據(jù)標(biāo)注,得先理解AI其實(shí)是部分替代人的認(rèn)知功能。我們學(xué)習(xí)認(rèn)識(shí)蘋果,需要有人拿著一個(gè)蘋果告訴你,這是一個(gè)蘋果。類比機(jī)器學(xué)習(xí),我們要教它認(rèn)識(shí)一個(gè)蘋果,給它一張?zhí)O果的圖片,它是完全不知道的。我們得先有蘋果的圖片,上面標(biāo)注著‘蘋果兩個(gè)字,然后機(jī)器通過學(xué)習(xí)了大量圖片的特征來認(rèn)識(shí)蘋果?!?/p>
劉洋鋒懂了。他把“蘋果”的例子講給發(fā)小聽,他們都覺得“這事兒能成”。
三個(gè)人湊了10萬元,在縣城租下一間30平方米的單間,拉回20臺(tái)價(jià)值1000多塊的二手電腦,然后通過微信群和朋友圈招了十幾個(gè)員工。
乘著“人工智能”的東風(fēng),劉洋鋒接的單子越來越多,短短幾個(gè)月,公司就擴(kuò)張到一整層3000平方米,可以容納數(shù)百名員工,還在鄭州、許昌、平頂山等地開設(shè)了分公司。
對張凱和千機(jī)數(shù)據(jù)的其他普通員工來說,他們現(xiàn)在采集、標(biāo)注的數(shù)據(jù),和穿過的珠子、壓過的電池片沒有什么不同,都是流水線上的一個(gè)部件。
昔日流水線上的工人,成了教“人工智能”認(rèn)識(shí)世界的第一位老師,把認(rèn)知事物的經(jīng)驗(yàn)濃縮進(jìn)一張張圖片中以后,他們對人工智能也開始有了更敏銳的感知。
2019年6月,張凱第一次坐上了高鐵。進(jìn)高鐵站時(shí),張凱拿著身份證和高鐵票,經(jīng)過一道需要人臉識(shí)別的閘機(jī),攝像頭對著他的臉掃描了幾秒鐘后,顯示“請通過”。他突然想到,以前做標(biāo)注時(shí)做過人臉標(biāo)點(diǎn),會(huì)不會(huì)應(yīng)用在了這上面?
“科技如果發(fā)展得太快,會(huì)淘汰掉很多東西”,張凱擔(dān)心,機(jī)器會(huì)取代掉那些流水線上的工人,他們都會(huì)失業(yè)。但他又覺得,像自己這樣做數(shù)據(jù)采集和標(biāo)注的工人,很難被替代。“畢竟機(jī)器還要通過我們來學(xué)習(xí)。”
劉洋鋒也思考過這個(gè)問題。他把人工智能產(chǎn)業(yè)比作了一個(gè)人,“算法工程師他們負(fù)責(zé)的是大腦,而我們負(fù)責(zé)的是四肢”,二者都不可或缺。他們公司采集、標(biāo)注好的數(shù)據(jù),要經(jīng)過一套特定的算法加工,才能喂給機(jī)器,算法是人工智能中最核心的部分。
劉洋鋒也擔(dān)憂,畢竟“承接的都是重復(fù)性的工作”。為了防止被淘汰,劉洋鋒開始把業(yè)務(wù)向高端化、專業(yè)化轉(zhuǎn)移。
在劉洋鋒過去的人生中,人工智能神秘、新奇且遙不可及。而短短兩年,他就發(fā)現(xiàn),“萬物皆可AI”。比如,視頻軟件錄制時(shí)的美顏功能要靠人工智能,加特效要靠人工智能,給用戶推送的內(nèi)容也要靠人工智能。
公司接了很多無人駕駛的項(xiàng)目,劉洋鋒?;孟耄谐蝗漳苜I一輛無人駕駛汽車,坐進(jìn)車?yán)?,?dòng)動(dòng)嘴,把目的地告訴系統(tǒng),然后倒頭大睡,車子便把自己送到目的地。
“那一天一定不會(huì)太遠(yuǎn)?!?/p>
(白坤摘自2019年8月21日《新京報(bào)》,梁效誠圖)