人民網(wǎng)北京12月29日電 (記者 申孟哲)美國(guó)東部時(shí)間12月10日,素有“計(jì)算機(jī)視覺奧林匹克”之稱的ImageNet結(jié)果揭曉。此次比賽有微軟、三星、高通、騰訊、UIUC等業(yè)界和學(xué)界巨頭參與,三支華人科學(xué)家團(tuán)隊(duì)則囊括了所有冠軍。來(lái)自國(guó)內(nèi)的商湯科技(SenseTime),更是成為首個(gè)在此項(xiàng)賽事中奪魁的中國(guó)企業(yè)?!都~約時(shí)報(bào)》對(duì)這項(xiàng)賽事結(jié)果第一時(shí)間進(jìn)行了報(bào)道。
首奪世界冠軍的中國(guó)企業(yè)
在計(jì)算機(jī)視覺領(lǐng)域,ImageNet堪稱發(fā)展風(fēng)向標(biāo),在學(xué)界和業(yè)界都有著深遠(yuǎn)影響。
中國(guó)企業(yè)此次奪魁的“視頻物體檢測(cè)”比賽,是今年ImageNet的新增比賽任務(wù),需要在運(yùn)動(dòng)的連續(xù)視頻中檢測(cè)物體位置、同時(shí)識(shí)別物體類別,堪稱此次比賽中難度最大的領(lǐng)域。一旦該技術(shù)成熟,在無(wú)人機(jī)、交通、安防、電影、動(dòng)畫等領(lǐng)域都將迎來(lái)巨大的應(yīng)用空間。
這項(xiàng)賽事中奪冠的團(tuán)隊(duì),由香港中文大學(xué)歐陽(yáng)萬(wàn)里教授和商湯科技主任研究員閆俊杰領(lǐng)銜,在檢測(cè)數(shù)量、檢測(cè)準(zhǔn)確率兩項(xiàng)指標(biāo)上都獲得了世界第一,其中檢測(cè)準(zhǔn)確率更是超過60%。要知道,在四年前的首屆ImageNet上,冠軍對(duì)于靜態(tài)圖片物體的檢測(cè)準(zhǔn)確率也僅為8%。
這并非香港中文大學(xué)在此項(xiàng)賽事上首次一鳴驚人。該校的多媒體實(shí)驗(yàn)室由湯曉鷗教授創(chuàng)立,是最早應(yīng)用深度學(xué)習(xí)進(jìn)行計(jì)算機(jī)視覺研究的華人團(tuán)隊(duì)。在去年的ImageNet上,該實(shí)驗(yàn)室團(tuán)隊(duì)就曾獲得世界第二名,僅次于谷歌;同樣是在去年,在另一項(xiàng)世界級(jí)人工智能競(jìng)賽LFW(大規(guī)模人臉識(shí)別競(jìng)賽)上,該實(shí)驗(yàn)室曾力壓FaceBook奪得冠軍,使得人工智能在該領(lǐng)域的識(shí)別能力首次超越真人,引爆科技界,并直接催生了之后該項(xiàng)技術(shù)的大規(guī)模商用浪潮。
領(lǐng)跑視覺技術(shù)的華人科學(xué)家
ImageNet由斯坦福、卡耐基梅隆、北卡羅萊納、密歇根等一流名校發(fā)起。現(xiàn)在,它正在迎來(lái)華人科學(xué)家“包圓兒”的時(shí)代。
比如,在圖像中物體定位、檢測(cè)比賽中獲得多項(xiàng)冠軍的微軟研究院團(tuán)隊(duì),就是由4位中國(guó)科學(xué)家組成。該團(tuán)隊(duì)研究員何愷明博士,同樣畢業(yè)于香港中文大學(xué)多媒體實(shí)驗(yàn)室,2009年,他就成為首獲計(jì)算機(jī)視覺領(lǐng)域三大國(guó)際會(huì)議之一CVPR“最佳論文獎(jiǎng)”的中國(guó)學(xué)者。
而在圖像中物體定位等任務(wù)中取得世界第一的,同樣是由華人科學(xué)家率領(lǐng)的團(tuán)隊(duì)——悉尼科技大學(xué)陶大程教授、鄧健康博士、和南京信息工程大學(xué)劉青山教授領(lǐng)銜此團(tuán)隊(duì)。值得一提的是,2015年獲頒澳大利亞科學(xué)最高榮譽(yù)尤里卡獎(jiǎng)的陶大程,也出身于港中大多媒體實(shí)驗(yàn)室。
在計(jì)算機(jī)視覺這項(xiàng)“燒錢”又存在重重技術(shù)困難的領(lǐng)域,歷屆ImageNet中,都體現(xiàn)出巨大的技術(shù)壁壘。自2010年創(chuàng)辦以來(lái),ImageNet 的參賽者中,不乏人工智能巨頭,包括谷歌、百度、微軟、高通、IBM、NEC、Adobe、三星、INRIA、牛津大學(xué)、伯克利大學(xué)等;而冠軍,則大多由谷歌,微軟、NEC等工業(yè)界巨頭,以及多倫多大學(xué)、東京大學(xué)等名校獲得。
縱覽此次奪冠的所有團(tuán)隊(duì),無(wú)一例外地,都吸納了大量的知名教授、優(yōu)秀博士生。
打通學(xué)界與工業(yè)界
在ImageNet中,每隔一段時(shí)間,就會(huì)增加一項(xiàng)學(xué)術(shù)和工業(yè)界公認(rèn)的最難的任務(wù)。例如,2013年新增的圖像中的物體檢測(cè)任務(wù),需要同時(shí)標(biāo)出圖像中所有物體位置并識(shí)別,是當(dāng)時(shí)人工智能的研究熱點(diǎn)。而今年新增的“視頻中通用物體檢測(cè)”,則是首次引入的視頻任務(wù),除了難度更高之外,其對(duì)于工業(yè)界的實(shí)用價(jià)值也更強(qiáng),更好地反映了市場(chǎng)的需求。
2012年至今,隨著人工智能突破性新技術(shù)—深度學(xué)習(xí)方法不斷進(jìn)步,計(jì)算機(jī)視覺技術(shù)也進(jìn)入了黃金發(fā)展期。作為最“燒腦”的行業(yè)之一,人工智能也的確需要這樣的合作。
商湯科技CEO徐立表示,深度學(xué)習(xí)給人工智能領(lǐng)域帶來(lái)了巨大變革,傳統(tǒng)工業(yè)界和科技界都需要有儲(chǔ)備和準(zhǔn)備應(yīng)對(duì)這場(chǎng)變革。
“利用深度模型在競(jìng)賽中學(xué)習(xí)得到的特征可以被廣泛應(yīng)用;由 ImageNet 訓(xùn)練得到的深度學(xué)習(xí)模型,將會(huì)是推動(dòng)人工智能在視覺領(lǐng)域發(fā)展的強(qiáng)大引擎。我們希望用持續(xù)積累的原創(chuàng)力量推動(dòng)這場(chǎng)變革,幫助更多的企業(yè),尤其是中國(guó)企業(yè)把現(xiàn)有產(chǎn)品與科技前沿的成果有地融合,讓中國(guó)的消費(fèi)者更早享受到科技進(jìn)步的改變。”徐立說。
陶大程則十分看好學(xué)術(shù)界與工業(yè)界的合作前景:“我們這支參賽隊(duì)伍由悉尼科技大學(xué)、南京信息工程大學(xué)聯(lián)合組成,并獲得了AMAX的硬件支持。大公司的優(yōu)勢(shì)在于硬件、人力資源方面的整合能力,學(xué)術(shù)界則能夠提供很多創(chuàng)新的想法。港中文多媒體實(shí)驗(yàn)室和商湯科技的聯(lián)手奪冠,也是很成功的范例。大家合作研究技術(shù)與產(chǎn)品,這不僅僅是某一個(gè)實(shí)驗(yàn)室、某一家公司的事情,而是整個(gè)人工智能界的必由之路。