這些人工智能成果"翩翩起舞"的背后,不得不提到“數據”為AI落地提供的底層支撐與價值。AI數據采集標注是人工智能三大構成要素之一——“數據”的處理環(huán)節(jié),它隨著AI產業(yè)需求發(fā)展進行著快速發(fā)展,目前處于規(guī)范化成長的階段。
近日,《互聯(lián)網周刊》&eNet研究院、德本咨詢聯(lián)合發(fā)布了《2021數據標注公司排行》,又一次將AI數據服務產業(yè)推到了人們眼前。我們通過剖析本次排行榜TOP1服務商——云測數據,來了解AI數據服務產業(yè)的發(fā)展脈絡及未來趨勢。
據《2020年中國AI數據服務行業(yè)研究報告》預測,中國AI數據服務行業(yè)正在加強專業(yè)化發(fā)展,隨著人工智能產業(yè)落地需求升級,理念更先進、技術更硬核、效率度極高的專業(yè)AI數據服務企業(yè)將成為主流趨勢。
云測數據作為Testin云測旗下AI數據采集標注的一個業(yè)務品牌,以高質量、場景化的AI數據服務而出名,擁有行業(yè)首創(chuàng)的數據場景實驗室和自建數據標注基地,為智能駕駛、智慧城市、新零售等眾多領域提供高質量的數據采集、數據標注服務。
首先,在雄厚實力的加持下,云測數據在人工智能所需要的視覺、語音和文本三大數據類型上實現了更高精確度的支持。在2020年的中國創(chuàng)新創(chuàng)業(yè)成果交易會上,云測數據正式向業(yè)界發(fā)布了他們在AI領域的最新成果——AI數據項目的最高交付精準度已近提升至99.99%。這個數字標志著,“數據”作為人工智能三大基石之一,已近邁入了高品質時代。從此,云測數據在行業(yè)內外也就成了高質量AI數據的代名詞。
以視覺類型的數據為例,云測數據的標注精度可以完成多高呢? 據云測數據總經理在某次采訪時透露,“一張人臉需要你準確地在內眼角上標注人臉關鍵點,在圖片上,內眼角也就不到100像素,而任務還會到標注到具體哪個像素上。”
其實,高精度的數據標注僅僅是AI需求復雜度上升的后半程的要求,人工智能對數據高質量的需求同樣體現在數據場景化的采集上。,隨著人工智能技術的不斷成熟,更多的場景和行業(yè)開始嵌入使用人工智能技術,AI行業(yè)應用場景逐漸趨于長尾和碎片化,產生了大量新興垂直領域的數據需求,如疫情期間的口罩識別應用等。
為了進一步攻克場景化數據這一難題, 云測數據開創(chuàng)“數據場景實驗室”,成為行業(yè)內第一個規(guī)范化進行場景化數據生產的數據服務商。如為了進行多角度多姿態(tài)的采集任務,云測數據專門在橫店設置了“數據場景實驗室”,進行特定動作和表情的捕捉。據了解,云測數據也是目前唯一聘請群眾演員進行人工智能數據采集的公司。
如在音頻領域,為保證音頻數據采集的質量,云測數據開發(fā)了“音頻檢測”功能,通過對音頻的底噪和能量值進行檢測,來保證底噪和能量值在閾值范圍之內。這種預處理方式可大幅提升數據的采集質量并切實提升數據采集的效率。
人工智能越深入發(fā)展,數據資產的重要性就越高,尤其是AI數據更加立體和豐富、精準度到達一個新的高度后,AI數據的價值變得更高,數據安全就更加成為客戶企業(yè)的剛需。對數據隱私安全的重視,導致不少數據標注企業(yè)至少在數據安全維護方面擁有可圈可點的技術耕耘,甚至不輸于其他被打上技術公司標簽的巨頭。
一個現實是,像云測數據這樣的頭部企業(yè),數據精準度、場景化做得越好,就更看重數據隱私安全的保護。這些對數據安全的重視,是其實現高效的作業(yè)效率,甚至不斷引導行業(yè)的規(guī)范化發(fā)展的前提原則。據了解,除了流程和工作方式的嚴格控制,云測數據內部還開發(fā)了數據隔離、質量保障等一系列數據安全方面的技術,這也使得數據標注企業(yè)的“技術”標簽更加濃厚。
Testin云測CMO張鵬飛也強調,“從目前看來,AI數據行業(yè)關于安全、隱私等方面并沒有統(tǒng)一的標準。但從我們長遠角度出發(fā),一直在隱私和安全防護角度下大力氣服務行業(yè)、樹立數據質量標桿,只有以這種負責的態(tài)度來服務客戶,我們的行業(yè)才能‘良幣驅除劣幣’,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程”。
當前,行業(yè)頭部企業(yè)將數據質量提升到一個“頂尖”時,馬太效應將愈發(fā)突出,企業(yè)間差異化趨勢愈發(fā)明顯。對于人工智能相關的企業(yè)來說,AI數據是否優(yōu)質關乎著企業(yè)效率、用戶感受、價值回報等等,這也是以云測數據為代表的AI數據服務商們需要共同發(fā)展一起解決的問題。