中國(guó)AI簡(jiǎn)史 裴健和華人數(shù)據(jù)挖掘大牛們

近日加拿大皇家科學(xué)院公布了新當(dāng)選的一批院士名單,其中 CCF-GAIR 2018 的講者、加拿大 Simon Fraser 大學(xué)計(jì)算科學(xué)學(xué)院教授裴健入選,是本次當(dāng)選的四位計(jì)算機(jī)學(xué)科院士之一。

借此,左林右貍頻道八一八新科院士裴健以及在數(shù)據(jù)挖掘領(lǐng)域的諸多華人之光。這也是《中國(guó)人工智能簡(jiǎn)史》的系列劇透之一,是的,大叔在沸騰新十年的同時(shí)也在與岑峰共同創(chuàng)作《中國(guó)人工智能簡(jiǎn)史》,創(chuàng)作完結(jié)時(shí)間節(jié)點(diǎn)大約在冬季,出版時(shí)間應(yīng)該在明年春天。

左林大叔與裴健的結(jié)緣始于 2017 年,從 2016 年起,雷鋒網(wǎng)積極參與了十余個(gè)國(guó)際頂級(jí) AI 學(xué)術(shù)會(huì)議的報(bào)道,其中包括在加拿大哈利法克斯召開(kāi)的 SIGKDD 2017。就在 SIGKDD 大會(huì)前,裴健履新成為 SIGKDD 的主席,我們對(duì)裴健也進(jìn)行了專訪,也就是在這屆大會(huì)上,雷鋒網(wǎng)向裴健介紹了我們與 CCF 聯(lián)合舉辦的 CCF-GAIR 大會(huì)并邀請(qǐng)他來(lái)做演講,裴健欣然應(yīng)允。

在 2018 年的 CCF-GAIR 大會(huì)上,履新京東副總裁的裴健結(jié)合在企業(yè)界的實(shí)踐做了題為《智慧供應(yīng)鏈》的演講,分享了智慧供應(yīng)鏈帶動(dòng)制造和流通行業(yè)降本增效的心得,是大會(huì)最受歡迎的演講者之一。

2017 年 KDD 大會(huì)上,裴健正式就任 SIGKDD 主席,右為前任主席劉兵

2017 年 KDD 大會(huì)上,裴健正式就任 SIGKDD 主席,右為前任主席劉兵

裴健當(dāng)選加拿大皇家科學(xué)院院士可謂華人數(shù)據(jù)挖掘領(lǐng)域的一件大事。數(shù)據(jù)挖掘的概念最初在 1995 年提出,相對(duì)于計(jì)算機(jī)科學(xué)的其它學(xué)科,數(shù)據(jù)挖掘?qū)儆诮陙?lái)才得以迅速發(fā)展的一個(gè)方向,此前在 2004 年,吳建福教授作為第一位統(tǒng)計(jì)學(xué)者當(dāng)選美國(guó)國(guó)家工程院院士,也是華人統(tǒng)計(jì)學(xué)者當(dāng)選主流國(guó)家院士第一人。

而此后真正因?yàn)閿?shù)據(jù)挖掘成就當(dāng)選院士的研究者屈指可數(shù),在左林大叔的印象中,在華人中只有清華校友、英國(guó)帝國(guó)理工學(xué)院數(shù)據(jù)研究所所長(zhǎng)郭毅可 2018 年當(dāng)選英國(guó)皇家工程院院士,不過(guò)工程院院士更多反映的是在工程項(xiàng)目上的能力,而科學(xué)院院士的評(píng)選更為注重學(xué)術(shù)研究能力,以裴健在數(shù)據(jù)科學(xué)的影響力來(lái)看可謂實(shí)至名歸。

多說(shuō)一句,雷鋒網(wǎng)的另一位老朋友也是 CCF-GAIR 2019 的講者鄧力是加拿大工程院的院士(加拿大工程院與皇家科學(xué)院的異同大抵與中國(guó)工程院和科學(xué)院的異同差不離),鄧力在深圳期間也給我們講述了當(dāng)年他與陸奇、余凱的交往故事,以及微軟百度谷歌三家爭(zhēng)奪 Hinton 團(tuán)隊(duì)的江湖軼事,十分精彩,我們也會(huì)在《中國(guó)人工智能簡(jiǎn)史》里一一呈現(xiàn)。

加拿大工程院院士鄧力在CCF-GAIR 2019大會(huì)上

加拿大工程院院士鄧力在CCF-GAIR 2019大會(huì)上

加拿大工程院院士鄧力在CCF-GAIR 2019大會(huì)上

回來(lái)八裴健,在左林大叔看來(lái),裴健成為數(shù)據(jù)挖掘領(lǐng)域當(dāng)之無(wú)愧的領(lǐng)軍人物的原因在于他的全面性:學(xué)術(shù)方面,他發(fā)表了 200 余篇論文,被引用 8 萬(wàn)多次,并因在 Frequent Patterns 的相關(guān)研究獲得了 SIGKDD 2017 的創(chuàng)新獎(jiǎng)(Innovation Award),是第三位獲得該獎(jiǎng)項(xiàng)的華人,在他之前獲得過(guò)該獎(jiǎng)項(xiàng)的兩人分別是韓家煒(2004)和俞士綸(Philips S. Yu,2016)。

他還是第三位獲得 KDD 卓越服務(wù)獎(jiǎng)的華人,在2015年他獲獎(jiǎng)之前,獲得該獎(jiǎng)項(xiàng)的華人包括清華的吳信東(2005)、Ying Li(2012);他是第二個(gè)擔(dān)任 SIGKDD 主席的華人,此前擔(dān)任過(guò)該職位的華人是伊利諾伊大學(xué)的劉兵(記得裴健在 2017 年的專訪也提到劉兵對(duì)其的耳濡目染);而此次當(dāng)選加拿大皇家科學(xué)院院士,則是華人在數(shù)據(jù)挖掘領(lǐng)域的又一個(gè)里程碑。

裴健分別于 1991 年和 1993 年在上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系獲得學(xué)士與碩士學(xué)位。前兩年曾為中央領(lǐng)導(dǎo)講解大數(shù)據(jù)概念的梅宏院士,博士也是在上海交大,和裴健系出同門,兩人在交大時(shí)就相熟,有著二十多年的交情。梅宏博士畢業(yè)后到北京大學(xué)做楊芙清的博士后,裴健也到北京大學(xué)繼續(xù)攻讀數(shù)據(jù)庫(kù)方面的博士。

1998 年,由 IBM 資助,復(fù)旦大學(xué)召開(kāi)過(guò)一次數(shù)據(jù)挖掘的討論班,這也是中國(guó)最早的數(shù)據(jù)挖掘交流活動(dòng),當(dāng)時(shí)請(qǐng)來(lái)的主講老師是陸宏鈞和韓家煒,這一討論班為參會(huì)的師生推開(kāi)了數(shù)據(jù)挖掘的大門,從這一點(diǎn)講,韓家煒無(wú)愧于中國(guó)數(shù)據(jù)挖掘的引路人。當(dāng)時(shí)裴健還在北大讀博士,在討論班中他提出的問(wèn)題頗有深度,給韓家煒留下了深刻的印象。一年后裴健來(lái)到加拿大,到韓家煒麾下攻讀 PhD。

2000 年,裴健與韓家煒發(fā)表了《Mining frequent patterns without candidate generation》一文,這篇文章被引用 8000 多次,也正是這一研究使得裴健成為國(guó)際數(shù)據(jù)挖掘界的學(xué)術(shù)之星;當(dāng)然,讓裴健影響力達(dá)到頂峰的是他在 2011 年與韓家煒編寫的經(jīng)典教材《Data Mining: Concepts and Techniques》,這也是全世界學(xué)習(xí)數(shù)據(jù)挖掘的學(xué)生的首選教材。

韓家煒在數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)和信息網(wǎng)絡(luò)領(lǐng)域發(fā)表論文數(shù)百篇,在 Google Scholar 上的被引用量接近 17 萬(wàn)次,h-index 高達(dá) 169,被譽(yù)為“數(shù)據(jù)挖掘第一人”。韓家煒父親上海交大畢業(yè),是鄭州紡織機(jī)械廠任財(cái)務(wù)科長(zhǎng)兼總會(huì)計(jì)師。韓家煒是家里四個(gè)孩子中的老二,不僅提早讀書(shū),后來(lái)還跳了一級(jí),1966 年文化大革命開(kāi)始的時(shí)候,韓家煒剛剛從鄭州七中讀完高中,文革期間就地就讀鄭州大學(xué)并以工農(nóng)兵學(xué)員畢業(yè),如果不是文革,韓家煒像他哥哥和父親一樣考個(gè)交大應(yīng)該是沒(méi)有問(wèn)題的。

韓家煒在 CCAI 2018 中國(guó)人工智能大會(huì)上

韓家煒在 CCAI 2018 中國(guó)人工智能大會(huì)上

1978 年恢復(fù)高考后,韓家煒便報(bào)考了中科院的研究生,因?yàn)楫?dāng)時(shí)中科院掛著中國(guó)科技大學(xué)研究生院的牌子,因而也有不少人錯(cuò)認(rèn)為韓家煒是中科大的畢業(yè)生。實(shí)際上韓家煒在中科院的研究生只讀了一年,第二年他就考取美國(guó)公費(fèi)留學(xué)的名額。在威斯康星麥迪遜大學(xué)讀博士期間,他最初先是做計(jì)算機(jī)數(shù)據(jù)庫(kù)的專家系統(tǒng),后來(lái)專家系統(tǒng)遭遇困境,考慮到研究方向的發(fā)展前景問(wèn)題,隨后又選擇了關(guān)聯(lián)數(shù)據(jù)庫(kù)作研究方向。

韓家煒的這一選擇也恰好趕上了知識(shí)發(fā)現(xiàn)的風(fēng)口。隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展應(yīng)用,數(shù)據(jù)的積累不斷膨脹,導(dǎo)致簡(jiǎn)單的查詢和統(tǒng)計(jì)已經(jīng)無(wú)法滿足企業(yè)的商業(yè)需求,而人工智能在專家系統(tǒng)上遇到困境,也急需一個(gè)新的場(chǎng)景落地。于是數(shù)據(jù)庫(kù)與人工智能兩者的結(jié)合促生了一門新的學(xué)科,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)。

1989 年 8 月召開(kāi)的第 11 屆國(guó)際人工智能聯(lián)合會(huì)議的專題討論會(huì)上,首次提出了知識(shí)發(fā)現(xiàn)(KDD)這個(gè)術(shù)語(yǔ),并在 1995 年召開(kāi)了第一次 SIGKDD 大會(huì),韓家煒正是 KDD 早期的組織者和參與者。在 SIGKDD 大會(huì)上,韓家煒組也是發(fā)表論文最多的研究團(tuán)隊(duì)之一。

韓家煒是被 KDD 社區(qū)認(rèn)可的第一位華人,他于 2004 年在 SIGKDD 大會(huì)上獲得創(chuàng)新獎(jiǎng)。第二位被授予重要獎(jiǎng)項(xiàng)的華人是吳信東,他獲得的是 2005 年 SIGKDD 的卓越服務(wù)獎(jiǎng)。

吳信東的故事頗有戲劇性,他本、碩均畢業(yè)于合肥工業(yè)大學(xué)并留校,1991 年到英國(guó)愛(ài)丁堡大學(xué)攻讀博士學(xué)位,之后一直從事數(shù)據(jù)挖掘與知識(shí)處理方面的研究。吳信東在還沒(méi)有到英國(guó)讀博士之前,就有給知識(shí)與數(shù)據(jù)挖掘領(lǐng)域最好的期刊TKDE(IEEE Transactions on Knowledge and Data Engineering)投稿,但一直屢投不中,屢敗屢戰(zhàn),直到博士畢業(yè)后的 1998 年才終于投中了第一篇 TKDE。

到了 2005 年,吳信東成為了 TKDE 的主編,實(shí)現(xiàn)了“從奴隸到將軍”(吳信東自稱)的轉(zhuǎn)變?;蛟S是對(duì)投論文的艱難歷程深有體會(huì),他創(chuàng)辦了數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)會(huì)議 IEEE ICDM,這一學(xué)術(shù)會(huì)議后來(lái)成為不少華人學(xué)者的發(fā)聲平臺(tái),在幫助提升華人學(xué)者在知識(shí)工程和數(shù)據(jù)挖掘領(lǐng)域的影響力方面起到了積極作用。

明略數(shù)據(jù)首席科學(xué)家和副總裁 吳信東

明略數(shù)據(jù)首席科學(xué)家和副總裁 吳信東

2001 年,韓家煒從 Simon Fraser 大學(xué)轉(zhuǎn)至 UIUC 任教。UIUC 也是眾多留學(xué)生偏愛(ài)的學(xué)校,其特點(diǎn)一是相對(duì)于藤校和斯坦福伯克利這一等級(jí)的熱門學(xué)校要相對(duì)好申請(qǐng)一些,二是出門的上限高,如果你足夠勤奮和努力,這里的名師絕對(duì)不會(huì)讓你失望。華人計(jì)算機(jī)視覺(jué)的燈塔黃煦濤,就是在 1980 年從普渡大學(xué)來(lái)到 UIUC(在《中國(guó)人工智能簡(jiǎn)史》一書(shū)視覺(jué)一章里,黃老先生的故事支撐了整個(gè)華人計(jì)算機(jī)視覺(jué)研究起承轉(zhuǎn)合的起)。

韓家煒的到來(lái),讓 UIUC 也成為了數(shù)據(jù)研究的重要基地。韓家煒在 UIUC 期間,每年都從國(guó)內(nèi)招收學(xué)生,每年報(bào)考人數(shù)數(shù)百名,最終成為他學(xué)生的可以用“百里挑一”形容。韓是那種自己學(xué)術(shù)做得極好,還能把學(xué)生培養(yǎng)好的極為少見(jiàn)的老師,除了早期的裴健等學(xué)生,后來(lái)在UIUC培養(yǎng)的學(xué)生還包括嚴(yán)錫峰(UCSB)、蔡登(浙江大學(xué))、朱飛達(dá)(新加坡管理大學(xué))、顧全全(UCLA)、孫怡舟(UCLA)、任翔(USC)等學(xué)術(shù)新星和柳超(天眼查)等創(chuàng)業(yè)者。不過(guò)傳言 2019 秋季將是韓家煒最后一次招博士生,之后再拜入韓門,只能從第二代弟子做起了。

韓家煒后期帶的學(xué)生時(shí)常將裴健這位“大師兄”作為學(xué)習(xí)的榜樣和趕超的目標(biāo),當(dāng)中也發(fā)生了一些有趣的故事。例如在 2010 年的 ECML-PKDD 上,韓家煒做了一個(gè)題為《結(jié)構(gòu)就是信息:挖掘結(jié)構(gòu)信息網(wǎng)絡(luò)》的主題演講,在提問(wèn)環(huán)節(jié),另一位大牛 Christos Faloutsos 舉手問(wèn)道:“你做的這個(gè)網(wǎng)絡(luò)很厲害,但是你能否預(yù)測(cè)到我明年寫什么文章?”韓回答道:“我連自己的都預(yù)測(cè)不到,更別提你的啦。”回去后韓家煒將這個(gè)笑話講給當(dāng)時(shí)還在他手下讀博士的孫怡舟聽(tīng),孫怡舟很嚴(yán)肅地認(rèn)為這不是一個(gè)簡(jiǎn)單的笑話。經(jīng)過(guò)分析和討論后,韓家煒和孫怡舟定了一個(gè)新課題,預(yù)測(cè) Christos 今后幾年會(huì)和哪些新的作者合作。

伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)

伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)

2011年在ASONAM 上,孫怡舟發(fā)表了一篇影響力巨大的文章《Co-author Relationship Prediction in Heterogeneous Bibliographic Networks》,在文章中,孫怡舟根據(jù) 1996-2002 年的數(shù)據(jù),預(yù)測(cè)大師兄裴健在 2003-2009 年間會(huì)有哪些合作者,排名前五的預(yù)測(cè)中只有一個(gè)沒(méi)有出現(xiàn)。而實(shí)際上裴健也和這位作者有合作,只不過(guò)他們合作的論文要晚兩年,在 2011 年才發(fā)表,沒(méi)有被統(tǒng)計(jì)進(jìn)測(cè)試集中而已。數(shù)據(jù)挖掘大牛的世界還真心遵循數(shù)據(jù)挖掘的規(guī)律啊。

另一位從Simon Fraser大學(xué)走出、受韓家煒影響的大牛是楊強(qiáng),哪個(gè)楊強(qiáng),就是最國(guó)際化的華人 AI 大牛,IJCAI 2019 的理事會(huì)主席楊強(qiáng)。楊強(qiáng)父親是北大天文學(xué)家楊海壽,因此楊強(qiáng)最初也子承父業(yè),1982 年考取了李政道的中國(guó)與美國(guó)聯(lián)合培養(yǎng)物理類研究生計(jì)劃(CUSPEA)來(lái)到美國(guó)馬里蘭大學(xué)學(xué)習(xí)天體物理。

楊強(qiáng)是一個(gè)對(duì)新鮮事物特別感興趣的人,早在 1980 年代初還在北京大學(xué)寫論文的時(shí)候,他就被當(dāng)時(shí)的小型機(jī)所吸引,通宵達(dá)旦地研究計(jì)算機(jī),并在計(jì)算機(jī)上編寫了一個(gè)游戲程序,后來(lái)在美國(guó)做太陽(yáng)耀斑活動(dòng)(對(duì),就是《流浪地球》里導(dǎo)致地球流浪的原因)研究的時(shí)候,還用計(jì)算機(jī)做了一個(gè) 3D 模型。

但真正將楊強(qiáng)引上計(jì)算機(jī)道路的是當(dāng)時(shí)也在馬里蘭大學(xué)學(xué)習(xí)的彭云,彭云是烈士江姐的兒子,也是文革后留學(xué)美國(guó)的學(xué)生中,最早研究人工智能和在美國(guó)取得計(jì)算機(jī)教職的人。受彭云影響,楊強(qiáng)不僅在拿到天文學(xué)的碩士后又拿了一個(gè)計(jì)算機(jī)碩士,之后在攻讀博士時(shí),也改行選擇了做人工智能與邏輯推理的方向。

楊強(qiáng)當(dāng)選新任 IJCAI 理事會(huì)主席,現(xiàn)場(chǎng)評(píng)選結(jié)果圖

楊強(qiáng)當(dāng)選新任 IJCAI 理事會(huì)主席,現(xiàn)場(chǎng)評(píng)選結(jié)果圖

楊強(qiáng)在馬里蘭大學(xué)拿到博士學(xué)位后,先后在滑鐵盧大學(xué)和 Simon Fraser 任教,也正是在 Simon Fraser 與韓家煒共事期間,楊強(qiáng)接觸到了很多關(guān)于數(shù)據(jù)挖掘的東西。當(dāng)時(shí)楊強(qiáng)剛剛拿到終身教職,他希望去做一些可以解決實(shí)際問(wèn)題的研究而不光是寫論文,于是選擇了基于實(shí)例的推理(Case Base Reasoning)方向;而數(shù)據(jù)挖掘正好能與他所做的這方面研究結(jié)合起來(lái)。所以楊強(qiáng)今日所做的遷移學(xué)習(xí)、聯(lián)邦學(xué)習(xí)以及大數(shù)據(jù)方面的研究,其實(shí)可以從 Simon Fraser 時(shí)期算起。

楊強(qiáng)與裴健也關(guān)聯(lián)頗多,當(dāng)裴健來(lái)到 Simon Fraser 攻讀韓家煒的博士生時(shí),楊強(qiáng)恰好是計(jì)算機(jī)系研究生院的Chair,因此裴健來(lái)到 Simon Fraser 時(shí)最終是楊強(qiáng)簽的字,在之后的學(xué)術(shù)研究中楊強(qiáng)也對(duì)裴健給予了諸多支持和鼓勵(lì),后來(lái)兩人也有諸多交集。這兩個(gè)人的關(guān)系像極了機(jī)器人領(lǐng)域的兩位超級(jí)大牛 Vijay Kumar 和徐楊生,他們?cè)诳{基梅隆大學(xué)相遇時(shí)也是一個(gè)剛剛博士畢業(yè)的青年教師,一個(gè)是博士生,這種明師實(shí)友的交往成為他們一輩子最珍惜的青春財(cái)富。

Vijay Kumar是 CCF-GAIR 2016-2017 兩年的明星講者,而徐楊生是 CCF-GAIR 最重要的發(fā)起人之一,大叔作為 CCF-GAIR 的發(fā)起人之一曾經(jīng)與徐楊生校長(zhǎng)共同接待并陪伴Vijay Kumar前后多日,目睹了Vijay Kumar與徐楊生之間跨越時(shí)空的友誼。

回來(lái)八楊強(qiáng),1998 年,李開(kāi)復(fù)籌建微軟中國(guó)研究院時(shí)力邀楊強(qiáng)“回中國(guó)來(lái)看一看”,恰逢楊強(qiáng)次年有一段學(xué)術(shù)休假期,于是便利用這一機(jī)會(huì)來(lái)到了微軟中國(guó)研究院。楊強(qiáng)幫助微軟做了中國(guó)最早的一個(gè)搜索引擎,他在微軟亞研做項(xiàng)目到 2000年(大叔的師兄王海峰也在此期間參與該項(xiàng)目,算起來(lái),王海峰也是中國(guó)最早做搜索的幾個(gè)人之一,王海峰今天升任百度 CTO,也是名至實(shí)歸),直到微軟決定把搜索引擎的研究拿到總部去做為止。

在微軟亞研的經(jīng)歷讓楊強(qiáng)感覺(jué)到了中國(guó)正在崛起,開(kāi)始動(dòng)了回來(lái)的念頭,但考慮到國(guó)內(nèi)研究的基礎(chǔ)環(huán)境,最終與家人商量后選擇了一個(gè)折中方案,去了香港科技大學(xué),與國(guó)內(nèi)和國(guó)際學(xué)術(shù)界、產(chǎn)業(yè)界均保持緊密的合作。2004 年和 2005 年,楊強(qiáng)團(tuán)隊(duì)連續(xù)兩年在 KDD Cup 上獲得冠軍,楊強(qiáng)本人也在 2010 年擔(dān)任 SIGKDD 的程序主席及 2012 年北京 SIGKDD 的大會(huì)主席(這一年 SIGKDD 的程序主席正是裴健)。

2005 年楊強(qiáng)(右二)KDD Cup 奪冠照片,右一為沈抖

2005 年楊強(qiáng)(右二)KDD Cup 奪冠照片,右一為沈抖

2005 年楊強(qiáng)(右二)KDD Cup 奪冠照片,右一為沈抖

也正是在 2012 年,在任正非的推動(dòng)下,華為開(kāi)始關(guān)注大數(shù)據(jù)并在香港成立了諾亞方舟實(shí)驗(yàn)室,楊強(qiáng)任首任主任,后任者還有今天去了頭條的李航。

楊強(qiáng)曾經(jīng)告訴左林大叔,諾亞方舟的最初目標(biāo)雖然是大數(shù)據(jù),但他認(rèn)為當(dāng)時(shí) Hadoop、Spark 這些工具已經(jīng)比較成熟,因此提議將一大部分資源放到人工智能與機(jī)器學(xué)習(xí)的研究上。當(dāng)時(shí)人工智能正處于低谷,諾亞方舟作為第一批做人工智能的工業(yè)實(shí)驗(yàn)室,對(duì)于希望去工業(yè)界的博士來(lái)說(shuō)還是很有吸引力的。

當(dāng)時(shí) Yann Lecun 還向楊強(qiáng)推薦了幾個(gè)博士后,條件都談得差不多了,最后這幾個(gè)博士后還是被一家在英國(guó)的初創(chuàng)公司“截胡”了。又過(guò)了幾年,楊強(qiáng)在新聞上再一次看到了這家初創(chuàng)公司的名字:DeepMind。如果這幾個(gè)博士后選擇的是諾亞方舟,不知先做出 AlphaGo 的會(huì)不會(huì)是華為呢?

就在 AlphaGo 火了的 2016 年,楊強(qiáng)發(fā)起成立了 ACM 數(shù)據(jù)挖掘中國(guó)分會(huì)(KDD China)并擔(dān)任主席。僅在 2016 年,KDD China 就已經(jīng)組織了十項(xiàng)活動(dòng),大力促進(jìn)了 SIGKDD 在中國(guó)的發(fā)展,為中國(guó)工業(yè)和學(xué)術(shù)界之間架起了橋梁。正因?yàn)槎嗄陙?lái)在數(shù)據(jù)挖掘領(lǐng)域的非凡服務(wù)和貢獻(xiàn),楊強(qiáng)在 2017 年的 SIGKDD 上獲得了卓越服務(wù)獎(jiǎng)。

和楊強(qiáng)一樣橫跨機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘兩大領(lǐng)域的還有南京大學(xué)的周志華。周志華本碩博均在南京大學(xué),是人工智能界佼佼者中少有的本土博士。周志華的導(dǎo)師是陳世福,陳世福教研組主要的科研項(xiàng)目方向是專家系統(tǒng),周志華自己進(jìn)入當(dāng)時(shí)尚屬冷門的機(jī)器學(xué)習(xí)領(lǐng)域,一直堅(jiān)持了下來(lái)。由于當(dāng)時(shí)“數(shù)據(jù)挖掘”比“機(jī)器學(xué)習(xí)”更容易被應(yīng)用單位理解,他也開(kāi)展了作為機(jī)器學(xué)習(xí)應(yīng)用的數(shù)據(jù)挖掘研究工作。2007 年的 PAKDD 在南京大學(xué)召開(kāi),楊強(qiáng)和周志華正是大會(huì)的兩大 Program Chair。

周志華

周志華

順便說(shuō)一句,PAKDD 現(xiàn)在在 CCF 的國(guó)際頂會(huì)名單上雖然只是 C 類會(huì)議,實(shí)際上卻是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域歷史最悠久、領(lǐng)先的國(guó)際會(huì)議之一(像吳信東創(chuàng)辦的 ICDM 屬于后起之秀),在國(guó)外口碑很好。第一屆 PAKDD 于 1997 年在新加坡召開(kāi),第一屆委員會(huì)中的華人包括劉兵和劉歡,當(dāng)時(shí)兩人均在新加坡國(guó)立大學(xué)任教,屬于近水樓臺(tái)先得月。

劉兵后來(lái)去往伊利諾伊芝加哥分校,不僅積極參與KDD社區(qū)組織工作,在1998年發(fā)表的《Integrating Classification and Association Rule Mining》及2004 年發(fā)表的《Mining and Summarizing Customer Reviews》分別在 KDD 2014 及 KDD 2015 年連續(xù)兩屆獲得時(shí)間檢驗(yàn)獎(jiǎng),他本人也在 2013 年被當(dāng)選為 SIGKDD 第一位華人主席。

劉歡則是前往亞利桑那大學(xué),他本人也是橫跨信息檢索與數(shù)據(jù)挖掘領(lǐng)域的高被引學(xué)者,在他的帶領(lǐng)下,他的兩個(gè)學(xué)生胡俠、湯繼良也積極參與 KDD 社區(qū)活動(dòng),擔(dān)任了近幾屆 SIGKDD 大會(huì)的分領(lǐng)域 Chair,胡俠還是 CCF-GAIR 2018 和 CCF-GAIR 2019 兩屆的明星講者。

周志華在2004年在南京大學(xué)創(chuàng)建了機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所(LAMDA),經(jīng)過(guò)十余年的發(fā)展,LAMDA 已成為國(guó)內(nèi)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘最具影響力的機(jī)構(gòu)。楊強(qiáng)發(fā)起成立 KDD China,周志華出任 KDD China 副主席,另一位副主席、百度高級(jí)副總裁沈抖是楊強(qiáng)的博士生。楊強(qiáng)團(tuán)隊(duì)在 2005 年 KDD Cup 奪冠,沈抖就是其中一員,也是公認(rèn)的一號(hào)位。

這一年奪冠隊(duì)伍里,有一位我們的老熟人,也是 CCF-GAIR 2017 的講者,IPin的聯(lián)合創(chuàng)始人潘嶸,當(dāng)時(shí)潘嶸在給楊強(qiáng)做博士后。還有一位楊強(qiáng)的博士后,后來(lái)去微軟的孫劍濤,其他的則都是楊強(qiáng)教授的博士:潘軍鋒(FB) ,吳康恒(香港某科技公司),寅潔(澳洲)。楊強(qiáng)教授的學(xué)生里還有一位不是博士生勝似博士生的超級(jí)大牛戴文淵,戴文淵今天是數(shù)據(jù)挖掘和深度學(xué)習(xí)明星公司第四范式的創(chuàng)始人,也是交大 ACM 班的明星學(xué)生之一,戴文淵和交大ACM班的故事也是我們《中國(guó)人工智能簡(jiǎn)史》的重要章節(jié)。

第一屆 KDD Cup 于 1997 年舉行。作為目前數(shù)據(jù)挖掘領(lǐng)域最有影響力、最高水平的國(guó)際頂級(jí)賽事,KDD Cup 每年都會(huì)吸引世界數(shù)據(jù)挖掘界的頂尖專家、學(xué)者、工程師、學(xué)生等前來(lái)參賽。它被譽(yù)為大數(shù)據(jù)領(lǐng)域的“奧運(yùn)會(huì)”。

KDD Cup 1997預(yù)測(cè)出最可能的善款捐贈(zèng)人

KDD Cup 1997預(yù)測(cè)出最可能的善款捐贈(zèng)人

KDD Cup 1997預(yù)測(cè)出最可能的善款捐贈(zèng)人

KDD Cup 的題目大都強(qiáng)調(diào)實(shí)用性,歷年的競(jìng)賽所用數(shù)據(jù)往往被數(shù)據(jù)挖掘從業(yè)者用作研究和開(kāi)發(fā)的良好訓(xùn)練數(shù)據(jù)。KDD Cup 前期多為大學(xué)來(lái)承辦,近 10 年來(lái)多為企業(yè)承辦,也反映出有價(jià)值的大規(guī)模數(shù)據(jù)逐步從研究機(jī)構(gòu)轉(zhuǎn)向由業(yè)界公司掌握的趨勢(shì)。

早在 2004、2005 年,香港科技大學(xué)教授、IEEE Fellow 楊強(qiáng)就作為領(lǐng)隊(duì)引導(dǎo)其團(tuán)隊(duì)連續(xù)兩年拿下 KDD Cup 比賽冠軍。略有不同的,2005 年楊強(qiáng)是親自帶學(xué)生,2004 年 KDD Cup 是楊強(qiáng)與中科院高文團(tuán)隊(duì)合作,當(dāng)年的試題之一是蛋白質(zhì)同源性預(yù)測(cè),生物信息檢索正好是高文老師研究的方向之一,2002 年,高文課題組成功申請(qǐng)到國(guó)家 973 項(xiàng)目下的“基于信息技術(shù)的蛋白質(zhì)組研究”課題,這或許正是中國(guó)隊(duì)伍在這一年的 KDD Cup 取得突破的原因。

高文在CCF-GAIR 2018上

高文在CCF-GAIR 2018上

高文在CCF-GAIR 2018上

言歸正傳,KDD 2004 的賽題要求參賽者運(yùn)用各種數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)手段從訓(xùn)練數(shù)據(jù)中找出規(guī)律,將康奈爾大學(xué)開(kāi)發(fā)的蛋白質(zhì)折疊識(shí)別程序LOOPP 生成的 74 個(gè)蛋白質(zhì)同源性度量指標(biāo)合并成一個(gè)同源性打分函數(shù),對(duì)數(shù)據(jù)庫(kù)中的蛋白質(zhì)與查詢蛋白質(zhì)之間的同源性進(jìn)行預(yù)測(cè)。這一題目有三個(gè)難點(diǎn):一是數(shù)據(jù)具有塊結(jié)構(gòu)形式;二是訓(xùn)練樣本數(shù)量巨大;三是訓(xùn)練數(shù)據(jù)的類別分布極端不平衡。

對(duì)于這一問(wèn)題,當(dāng)時(shí)的主流方法是利用SVM和最大熵等判別模型來(lái)構(gòu)造排位函數(shù),高文則是在此基礎(chǔ)上,使用了一個(gè)線性判別模型合并從隱馬科夫模型導(dǎo)出的多個(gè)特征,最終這一方法有效地提高了檢索函數(shù)學(xué)習(xí)的準(zhǔn)確性,從而在 KDD CUP-2004 蛋白質(zhì)同源性預(yù)測(cè)問(wèn)題上得到了非常成功的應(yīng)用。

最終的預(yù)測(cè)結(jié)果取得了 APR 和 RMS 指標(biāo)第一名,TOP1 指標(biāo)第二名,RKL 指標(biāo)第十四名,綜合成績(jī)并列第一名的成績(jī)。這是中國(guó)研究人員首次在 ACM KDDCUP 數(shù)據(jù)挖掘競(jìng)賽取得優(yōu)勝。這也是中國(guó)的學(xué)術(shù)研究人員在國(guó)際頂會(huì)的競(jìng)賽項(xiàng)目取得冠軍的最早突破之一,之所以說(shuō)是之一,是幾乎是同期,丁曉青團(tuán)隊(duì)在 ICPR 上取得 FAT 2004 人臉比賽的第一名。

按照大叔的大學(xué)同學(xué),也是 KDD Cup 2004 年的冠軍成員之一的山世光的描述,這次奪冠的第一主力是付巖,付巖后來(lái)從計(jì)算機(jī)去了數(shù)學(xué)所,當(dāng)時(shí)是計(jì)算所兩位教授高文和賀思敏共同的博士生,賀思敏是這次比賽奪冠的 leader,另一位主力孫瑞祥也是當(dāng)時(shí)賀思敏團(tuán)隊(duì)成員。

山世光

山世光

哦,忘了恭喜山世光名列 2019 騰訊首屆科學(xué)探索獎(jiǎng)的 50 名青年科學(xué)家行列。

說(shuō)來(lái)也巧,周志華作為香港科技大學(xué)計(jì)算機(jī)系聘請(qǐng)的不多幾位內(nèi)地榮譽(yù)兼職教授,第一次到香港科大訪問(wèn)時(shí),去接站的就是當(dāng)時(shí)在讀博士生,KDD Cup 2005 的第一主力沈抖。沈抖畢業(yè)后進(jìn)入工業(yè)界,在加入百度前是微軟西雅圖 AdCenter 實(shí)驗(yàn)室的研究員。

KDD China主持具體工作的負(fù)責(zé)人秘書(shū)長(zhǎng)鄭宇,現(xiàn)任京東副總裁,之前是微軟亞洲研究院的明星研究員,同樣是 CCF-GAIR 多屆明星講者,2016 年第一屆 CCF-GAIR,鄭宇就是程序主席,為 CCF-GAIR 大會(huì)做了不少工作。

鄭宇也還是 KDD 社區(qū)的活躍組織者。他從 2011 年開(kāi)始參加 SIGKDD,之后每年的 SIGKDD 大會(huì)都會(huì)參加。鄭宇很早就在 SIGKDD 上舉辦城市計(jì)算的 Workshop,到今年(2019年)已經(jīng)是第八屆。從 2016 年起,KDD China 在 SIGKDD 上開(kāi)始舉辦"Data Science in China "論壇主題活動(dòng),活動(dòng)的主要組織者也是鄭宇,這一活動(dòng)的舉辦也有力展示了中國(guó)在數(shù)據(jù)挖掘領(lǐng)域的實(shí)力。

京東集團(tuán)副總裁鄭宇在 IJCAI 2019 大會(huì)上

京東集團(tuán)副總裁鄭宇在 IJCAI 2019 大會(huì)上

如果說(shuō) 2016 年是華人在數(shù)據(jù)挖掘領(lǐng)域全面發(fā)力的拐點(diǎn),那么接下來(lái)的時(shí)間則是華人數(shù)據(jù)挖掘的高光時(shí)刻。在 SIGKDD 2017 上,不僅裴健接任劉兵當(dāng)選 SIGKDD 主席,在三大獎(jiǎng)項(xiàng)中,楊強(qiáng)獲得杰出服務(wù)獎(jiǎng)、裴健獲得創(chuàng)新獎(jiǎng),華人得其二,此外,本屆大會(huì)的最佳應(yīng)用論文被西弗吉尼亞大學(xué)葉艷芳團(tuán)隊(duì)獲得,同時(shí)中國(guó)隊(duì)伍包攬了這屆 KDD Cup 的所有獎(jiǎng)項(xiàng)。

在接下來(lái)的 SIGKDD 2018 上,不僅劉兵、唐杰再度包攬創(chuàng)新獎(jiǎng)及杰出服務(wù)獎(jiǎng)兩項(xiàng)大獎(jiǎng),郭毅可、唐杰、熊輝、林智仁、楊強(qiáng)等人擔(dān)任了大會(huì)主席、副主席、程序主席、評(píng)獎(jiǎng)委員會(huì)主席等重要角色,在評(píng)獎(jiǎng)委員會(huì)的八人名單中,華人更是占到五人(楊強(qiáng)、韓家煒、裴健、王薇、俞士綸),“中國(guó)力量”儼然成為這幾年 KDD 的主基調(diào)。

在左林大叔看來(lái),在諸多人工智能相關(guān)的領(lǐng)域中,數(shù)據(jù)挖掘是華人參與度最高、也是最有望實(shí)現(xiàn)超越的領(lǐng)域。這不僅是因?yàn)閺?qiáng)調(diào)“動(dòng)手能力”的數(shù)據(jù)挖掘更能發(fā)揮中國(guó)人的長(zhǎng)處,還因?yàn)閿?shù)據(jù)挖掘是一門與產(chǎn)業(yè)密切結(jié)合的學(xué)科,中國(guó)龐大的市場(chǎng)與人口基數(shù),以及新一批互聯(lián)網(wǎng)科技公司的茁壯成長(zhǎng),都為中國(guó)人引領(lǐng)世界潮流提供了堅(jiān)實(shí)的基礎(chǔ)。

羅馬不是一天建成的,今日數(shù)據(jù)挖掘領(lǐng)域所呈現(xiàn)的“中國(guó)力量”,有數(shù)據(jù)挖掘老中青三代人的不懈努力,更離不開(kāi)研究者們的薪火相傳。不過(guò)關(guān)于數(shù)據(jù)挖掘的故事,大叔更愿意用天時(shí)地利人和來(lái)形容:

所謂天時(shí),是韓家煒、俞士綸、陸宏鈞等最早一批進(jìn)行數(shù)據(jù)挖掘的研究者,恰逢數(shù)據(jù)挖掘興起之時(shí)就積極參與其中,為后來(lái)華人社區(qū)的壯大打下了堅(jiān)實(shí)的基礎(chǔ);

所謂地利,是從上世紀(jì) 90 年代起中國(guó)高速發(fā)展崛起的過(guò)程中,對(duì)數(shù)據(jù)挖掘的旺盛需求為新一批數(shù)據(jù)挖掘中堅(jiān)力量的崛起供了良好的機(jī)會(huì);

所謂人和,是裴健、楊強(qiáng)、劉兵、劉歡、周志華、吳信東、鄭宇等之后一批數(shù)據(jù)挖掘的領(lǐng)軍人物與中堅(jiān)力量發(fā)揮了承上啟下的作用,在參與數(shù)據(jù)挖掘社區(qū)活動(dòng)的同時(shí),積極帶動(dòng)其他后起之秀參與到社區(qū)中來(lái),使得華人贏得了數(shù)據(jù)挖掘社區(qū)的尊重。

KDD 2017 China Day 合影

KDD 2017 China Day 合影

前排左起:劉兵、韓家煒、楊強(qiáng)、裴健

后排左二:鄭宇 左四:劉歡

從行業(yè)周期的角度看,從 1989 年知識(shí)發(fā)現(xiàn)的概念提出到今天,數(shù)據(jù)挖掘剛剛走過(guò)了三十年的一個(gè)完整周期。從這一角度看,授予裴健院士是一個(gè)肯定的信號(hào),也預(yù)示著數(shù)據(jù)挖掘下半場(chǎng)拉開(kāi)了序幕。

再度恭喜裴健被評(píng)為院士,也恭喜投身數(shù)據(jù)挖掘領(lǐng)域的各位研究者們,你們正站在一個(gè)新時(shí)代的起點(diǎn)。大叔預(yù)計(jì)在不久的將來(lái),這個(gè)領(lǐng)域會(huì)有更多的研究者獲得他們應(yīng)有的榮譽(yù),也希望各位研究者們?cè)谖磥?lái)三十年中保持初心,壯志前行,繼續(xù)書(shū)寫數(shù)據(jù)挖掘的輝煌。

數(shù)風(fēng)流人物,還看今朝。

推薦DIY文章
朗科新推絕影NV5000-t固態(tài)硬盤 溫控技術(shù)更高 售價(jià)暫未公布
2022款iPadPro將可使用視頻編輯軟件達(dá)芬奇 使用軟件更專業(yè)
蘋果全新推出AppleTV 4K產(chǎn)品:流式傳輸可以千兆以太網(wǎng)進(jìn)行
智己L7SnakePerformance高性能版:新車瞄準(zhǔn)數(shù)秒級(jí)圈速提升
閃迪大師PRO-G40SSD外置固態(tài)硬盤:兼具極速傳輸與耐用優(yōu)點(diǎn)
i9版ThinkBook14+/16+新品有望下月上市 首發(fā)約4999元起
精彩新聞

超前放送