在CCF GAIR 2019(全球人工智能與機(jī)器人峰會)上,騰訊AI Lab Robotics X實驗室主任張正友博士以其深厚的學(xué)術(shù)積淀與前沿的產(chǎn)業(yè)視角,發(fā)表了題為“計算機(jī)視覺的三生三世”的精彩演講。本次演講不僅系統(tǒng)梳理了計算機(jī)視覺技術(shù)的發(fā)展脈絡(luò),更結(jié)合騰訊在AI與機(jī)器人領(lǐng)域的探索,揭示了該技術(shù)從感知到認(rèn)知、再到行動的演進(jìn)軌跡,以及對未來技術(shù)開發(fā)和產(chǎn)業(yè)應(yīng)用的深遠(yuǎn)影響。
第一生:從“看見”到“看懂”——感知智能的崛起
張正友博士首先回顧了計算機(jī)視覺的“第一生”,即從圖像處理到模式識別的經(jīng)典時期。這一階段的核心目標(biāo)是讓機(jī)器“看見”,即從像素中提取邊緣、角點、紋理等特征,進(jìn)而完成物體識別、目標(biāo)檢測等基礎(chǔ)任務(wù)。算法從傳統(tǒng)的SIFT、HOG特征描述子,發(fā)展到基于統(tǒng)計學(xué)習(xí)的模型。這一時期的技術(shù)突破,為安防、醫(yī)療影像等領(lǐng)域的初步自動化奠定了基礎(chǔ),但機(jī)器的“理解”仍停留在表層特征匹配,缺乏對場景的深度語義解析。
第二世:深度學(xué)習(xí)的革命——認(rèn)知智能的飛躍
演講的重點落在了計算機(jī)視覺的“第二世”,即深度學(xué)習(xí)驅(qū)動下的爆發(fā)式增長。張博士指出,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的復(fù)興,尤其是AlexNet在2012年ImageNet競賽中的突破性表現(xiàn),徹底改變了領(lǐng)域格局。機(jī)器不再僅僅“看見”輪廓,而是開始“看懂”內(nèi)容——識別千類萬物、理解復(fù)雜場景、甚至生成逼真圖像。這一階段,計算機(jī)視覺技術(shù)與自然語言處理、語音識別深度融合,催生了跨模態(tài)理解能力,例如圖像描述、視覺問答等。張博士分享了騰訊AI Lab在視頻理解、人臉識別、醫(yī)療影像分析等方面的前沿成果,體現(xiàn)了認(rèn)知智能在產(chǎn)業(yè)落地中的巨大價值。
第三世:從認(rèn)知到行動——具身智能的未來
最為前瞻的部分,張正友博士闡述了正在開啟的“第三世”:計算機(jī)視覺與機(jī)器人學(xué)的深度融合,即“具身視覺”或“機(jī)器人視覺”。這標(biāo)志著技術(shù)從被動“看懂”世界,邁向主動“交互”與“改變”世界。在這一階段,視覺系統(tǒng)不僅是感知器官,更是機(jī)器人決策與行動的核心導(dǎo)航與反饋系統(tǒng)。它需要解決動態(tài)環(huán)境中的實時定位與地圖構(gòu)建(SLAM)、手眼協(xié)調(diào)、復(fù)雜操作等挑戰(zhàn)。作為騰訊Robotics X實驗室的負(fù)責(zé)人,張博士特別強(qiáng)調(diào)了其在機(jī)器人感知、決策與控制一體化方面的探索,例如靈巧操作、移動導(dǎo)航等,目標(biāo)是打造能夠適應(yīng)復(fù)雜物理世界的智能體。這不僅是技術(shù)的演進(jìn),更是計算機(jī)視覺從虛擬信息處理走向?qū)嶓w世界交互的關(guān)鍵一躍,將為智能制造、無人駕駛、家庭服務(wù)機(jī)器人等帶來革命性變化。
計算機(jī)技術(shù)開發(fā)的啟示與展望
貫穿整個演講,張正友博士結(jié)合其領(lǐng)導(dǎo)騰訊AI Lab Robotics X的實踐經(jīng)驗,對計算機(jī)技術(shù)開發(fā)提出了深刻見解。他認(rèn)為,未來技術(shù)的發(fā)展必然是跨學(xué)科的融合,計算機(jī)視覺需要與強(qiáng)化學(xué)習(xí)、機(jī)器人學(xué)、認(rèn)知科學(xué)更緊密結(jié)合。技術(shù)的落地必須緊密結(jié)合真實場景的需求,解決數(shù)據(jù)稀缺、模型可解釋性、安全倫理等核心挑戰(zhàn)。騰訊正通過“AI in All”的戰(zhàn)略,將包括視覺在內(nèi)的AI能力賦能于游戲、內(nèi)容、社交、醫(yī)療等廣泛領(lǐng)域,而Robotics X則聚焦于前沿的通用人工智能與實體智能研究。
張正友博士在CCF GAIR 2019的演講,以“三生三世”為喻,清晰勾勒出計算機(jī)視覺從感知、認(rèn)知到行動的宏大技術(shù)史詩。這既是對過往成就的,更是對尤其是視覺與機(jī)器人結(jié)合所開啟的“第三世”的激昂展望。它為全球的計算機(jī)技術(shù)開發(fā)者與研究者指明了一個方向:人工智能的終極使命,或許是創(chuàng)造出能夠像人一樣,通過視覺感知世界、理解世界并最終靈巧作用于世界的智能機(jī)器。騰訊在此征程中的布局與實踐,無疑將成為推動這一未來加速到來的重要力量。