他們正在嘗試用“圖”拼出人類大腦
日期:2024-12-23 06:22
瀏覽次數(shù):236
摘要:前幾天,螞蟻技術(shù)研究院和復(fù)旦大學(xué)腦科學(xué)研究院宣布他們聯(lián)合攻堅的類腦研究——“基于圖計算的腦仿真架構(gòu)”校企合作項目正式啟動,目標(biāo)是打造新一代大規(guī)模高精度腦仿真系統(tǒng),而我們離這一科幻場景和大劉“理工科的浪漫”又近了一步。
帶著加深對生物智能的理解,以及為腦****提供新的研究手段的目的,這個項目集結(jié)了圖計算和實驗神經(jīng)科學(xué)等**學(xué)科,是一件極富想象力卻也挑戰(zhàn)重重的事情,就像是試圖用一個非常復(fù)雜的東西來解釋另一個非常復(fù)雜的東西,為什么要這么做呢?螞蟻技術(shù)研究院院長陳文光認(rèn)為,“兩者之間的邏輯關(guān)系是互為...
前幾天,螞蟻技術(shù)研究院和復(fù)旦大學(xué)腦科學(xué)研究院宣布他們聯(lián)合攻堅的類腦研究——“基于圖計算的腦仿真架構(gòu)”校企合作項目正式啟動,目標(biāo)是打造新一代大規(guī)模高精度腦仿真系統(tǒng),而我們離這一科幻場景和大劉“理工科的浪漫”又近了一步。帶著加深對生物智能的理解,以及為腦****提供新的研究手段的目的,這個項目集結(jié)了圖計算和實驗神經(jīng)科學(xué)等**學(xué)科,是一件極富想象力卻也挑戰(zhàn)重重的事情,就像是試圖用一個非常復(fù)雜的東西來解釋另一個非常復(fù)雜的東西,為什么要這么做呢?螞蟻技術(shù)研究院院長陳文光認(rèn)為,“兩者之間的邏輯關(guān)系是互為手段,互為目的”,而這句話仿佛一個注腳,以比“人工”智能、“電”腦等名詞更直接的方式,詮釋了計算機科學(xué)與神經(jīng)科學(xué)之間跨越幾十年、千絲萬縷的互生關(guān)系。時至今日,刻在希臘德爾斐神廟門楣上的這句箴言,不論從哲學(xué)上還是生理上都接近一個不可能解決的問題。自從現(xiàn)代人體解剖學(xué)之父安德烈亞斯·維薩里斯在 16 世紀(jì)**將手術(shù)刀伸向人體,人類開啟了向內(nèi)探索之路。多年來我們了解了器官、組織,理解了消化系統(tǒng)、循環(huán)系統(tǒng)甚至外圍神經(jīng)系統(tǒng),卻始終對大腦——這一宇宙間*復(fù)雜的物體知之甚少,而它才是認(rèn)識自我、理解意識和智能的關(guān)鍵。人類大腦重約 1.4kg,僅占體重的 2~3%,卻包含了 860 億神經(jīng)元、比神經(jīng)元高四個數(shù)量級以上的突觸,僅已知能夠呈現(xiàn)出的狀態(tài)就有 2000 萬億種,而“作為我們與物理世界交互的真正工具,其能耗才不到 30W,且一生之中沒有任何備件可供更換”,領(lǐng)銜項目的復(fù)旦大學(xué)腦科學(xué)研究院** PI、博士生導(dǎo)師王云講述道。理解大腦能夠幫助我們提升人類的學(xué)習(xí)和記憶能力、應(yīng)對腦相關(guān)的**,乃至理解智能,科學(xué)家們也從未停止對大腦的探索。那么迄今為止,我們干得怎么樣?有人樂觀地相信,人類已經(jīng)理解了大腦的 40%,也有人悲觀地認(rèn)為這個比例僅有不到 1%,而研究了 40 年腦子的王云則略為無奈地表示,“我不知道”。可以說,礙于顯微技術(shù)的局限,以及當(dāng)前實驗神經(jīng)科學(xué)低通量的研究方式,對人類而言,大腦仍像一個神秘的“黑盒”,以不為人知的方式運轉(zhuǎn)著。為了解決這個問題,“從有計算機開始,搞計算機的人就思考著、嘗試著用它做大腦仿真,弄明白大腦”。事實上,計算機科學(xué)與神經(jīng)科學(xué)催生的計算神經(jīng)科學(xué)由來已久,*早的神經(jīng)系統(tǒng)仿真可以追溯到上世紀(jì) 50 年代。1952 年純物理的霍奇金-赫胥黎模型(HH Model)被發(fā)表,而沒過多久,到 1965~1975 年人工智能促進協(xié)會(AAAI)的科學(xué)家們建立的人工神經(jīng)元網(wǎng)絡(luò)(ANN),再到 1985~1995 年間日本生物計算機發(fā)展的十年,計算機科學(xué)在不斷進步;另一方面,上世紀(jì) 70 年代膜片鉗技術(shù)的發(fā)明,使得記錄單個離子通道的電流成為了可能,為神經(jīng)元電生理模型的建立打下了基礎(chǔ),***厄文·內(nèi)爾和伯特·薩克曼也因此獲得 1991 年的諾貝爾生理學(xué)或醫(yī)學(xué)獎。千禧年之后,深度學(xué)習(xí)的出現(xiàn)使得計算機、人工智能技術(shù)飛速發(fā)展,*初受到生物神經(jīng)網(wǎng)絡(luò)啟發(fā)而建立的人工神經(jīng)網(wǎng)絡(luò)深度愈發(fā)加大,各種模型相繼出現(xiàn),終于催生了基于注意力機制的 Transformer 和我們現(xiàn)在所熟知的 GPT-4,Google Bard,Claude 等大型語言模型(LLM)。然而,其龐大的數(shù)據(jù)量、神經(jīng)網(wǎng)絡(luò)的深度和億萬級別的參數(shù)量,使得開發(fā)它們的科學(xué)家也無法解釋乃至預(yù)測這些大模型的行為。當(dāng)下,人工智能三巨頭之一的 Yann LeCun 認(rèn)為大模型并非通往通用人工智能的正途,而另一巨頭 Geoffrey Hinton 則相信它們的學(xué)習(xí)方式強于人類,雙方各執(zhí)一詞、爭論不下,不過一個明顯的事實是,大模型的工作方式已與人類智能相去甚遠(yuǎn)。諷刺的是,我們”仿生“多年創(chuàng)造出來的 AI 成為了另一個無法理解、不可解釋的“黑盒”,神秘、強大,卻無法幫助我們更好地理解人類大腦了。不過,一切努力并沒有白費。得益于神經(jīng)科學(xué)技術(shù)和計算機技術(shù)的長足進步,人類仍在尋求新的方法研究大腦這一世界性的難題。隨著算力的不斷提升和多通道膜片鉗技術(shù)的出現(xiàn),世界各國相繼出臺自己的“腦計劃”,包括 2013 年啟動的美國“腦科學(xué)計劃”(BRAIN Initiative),同年啟動的歐洲“人腦計劃”(HBP)等,不過兩者的思路并不相同。BRAIN 致力于繪制*完整的人腦細(xì)胞圖譜,側(cè)重于生物實驗的測量和記錄;HBP 則試圖在十年內(nèi)用超級計算機模擬人腦的全部神經(jīng)元和它們之間的一百萬億個連接,更偏向于計算模型的建立,這一宏偉的計劃也因其“野心過大”而遭到許多業(yè)界專家的非議。而 2021 年正式啟動的“中國腦計劃”則介于兩者之間,“一體兩翼”,既做腦科學(xué)基礎(chǔ)理論研究,也做類腦研究,也就是計算神經(jīng)科學(xué)的一部分。雖然有著各種各樣的局限性,但所有這些前沿科研的工作以及計算機科學(xué)的發(fā)展無疑為更先進的圖計算腦仿真方法帶來了寶貴的積累。神經(jīng)科學(xué)的進步與各國腦計劃的進展,提供了豐富度****的大腦數(shù)據(jù)集,是一切研究的源頭;算力的指數(shù)級提升和模型算法的不斷優(yōu)化,給了大腦數(shù)字孿生一個實現(xiàn)的可能性;顯微技術(shù)的發(fā)展使得我們的觀察精度達到了 10 的-10 次方,能看見原子,從而更好地理解神經(jīng)電信號的傳導(dǎo)和處理;同時腦**的蔓延和對個性化醫(yī)療需求的增長,也在客觀上驅(qū)動了**研究方法的發(fā)展。“歷史是螺旋上升的,而現(xiàn)在時候到了?!睆?fù)旦大學(xué)腦科學(xué)研究院工程師王小斐這樣說道。那么,為什么是圖計算呢?要回答這個問題,我們首先需要了解一下什么是圖計算。從本質(zhì)上來說,圖計算呈現(xiàn)的是一種抽象的數(shù)據(jù)結(jié)構(gòu),由頂點和邊兩種數(shù)據(jù)類型組成,擅長表達事物及其相互之間的關(guān)聯(lián)關(guān)系,而相對于關(guān)系型數(shù)據(jù)來說,圖數(shù)據(jù)更直觀、更符合人類的認(rèn)知習(xí)慣,且在路徑查找、復(fù)雜關(guān)系解析、群體特征提取等方面大幅優(yōu)于需要窮舉的關(guān)系型數(shù)據(jù),能夠高效地將多個數(shù)據(jù)來源整合在一張關(guān)系網(wǎng)絡(luò)上。聽起來是不是很像我們大腦的神經(jīng)網(wǎng)絡(luò)?沒錯,圖計算的模式與神經(jīng)元、腦仿真有著天然的相似性,前者更像是后者的一種自然抽象。相對于和生物神經(jīng)網(wǎng)絡(luò)分道揚鑣的大模型深度神經(jīng)網(wǎng)絡(luò),圖數(shù)據(jù)中頂點之間的連接更為“稀疏”,與主流深度神經(jīng)網(wǎng)絡(luò)中每一層神經(jīng)元全部彼此相連的“稠密”連接截然不同,更接近于大腦的神經(jīng)網(wǎng)絡(luò);同時,圖計算的特性也決定了其參數(shù)和途徑的透明和可解釋性,從“黑盒”變成“白盒”;而*重要的是,圖數(shù)據(jù)中邊的建立和神經(jīng)元突觸生長的邏輯極為相似,為腦仿真模型帶來了****的動態(tài)性,也讓我們離破解這一電生理現(xiàn)象之謎更近了一步。同時,當(dāng)前腦仿真系統(tǒng)的常用架構(gòu)開發(fā)可追溯到上世紀(jì) 90 年代,可以說是立足于 20 年前的數(shù)據(jù)量、計算能力和生物學(xué)對神經(jīng)的理解,雖然技術(shù)成熟度很高,但其更關(guān)注單個神經(jīng)元細(xì)胞的模擬而非整個神經(jīng)網(wǎng)絡(luò),采用的也往往是傳統(tǒng)的多進程并行計算架構(gòu),在如今看來已經(jīng)頗為過時。“現(xiàn)代的圖計算引擎則是多進程與多線程混合并行的模式”,螞蟻技術(shù)研究院圖計算實驗室研究員朱曉偉解釋道,能夠容納更大量的數(shù)據(jù)、提供更強的算力且能耗更低,更適用于構(gòu)建整個大腦的**仿真模型。回到腦科學(xué)研究上。當(dāng)前的技術(shù)下,僅僅是做針對五六對神經(jīng)元的電生理信號記錄,就需要一個專業(yè)研究團隊兩到三周的時間,而如果再針對某一病癥進行病理分析的話,王云保守估計需要三到五年的時間。他的愿景,就是用圖計算引擎構(gòu)建一個高精度的、動態(tài)的仿真腦模型,通過虛擬研究和虛擬篩選的方式大大縮短這個時間。當(dāng)然,要實現(xiàn)這樣宏偉的目標(biāo),挑戰(zhàn)是非常大的。據(jù)朱曉偉介紹,圖計算往往面臨著數(shù)據(jù)規(guī)模極大、冪律度數(shù)分布導(dǎo)致的負(fù)載均衡問題。不過,螞蟻在這方面有著非常深的技術(shù)積累,其 TuGraph 圖數(shù)據(jù)庫多次登頂行業(yè)權(quán)威測評 LDBC 榜首,是當(dāng)前世界紀(jì)錄保持者;更直觀地說,我們?nèi)粘J褂玫闹Ц秾毱鋵嵕驮诘讓邮褂昧宋浵伒膱D計算技術(shù),能夠在龐大的用戶基數(shù)和數(shù)據(jù)規(guī)模上,實現(xiàn)精準(zhǔn)的金融風(fēng)控、黑灰產(chǎn)識別等等。然而,更大的挑戰(zhàn)還不在此。讓**的復(fù)旦大學(xué)腦科學(xué)研究院與實力雄厚的螞蟻技術(shù)研究院聚在一起,真正的挑戰(zhàn)在于兩撥人的“語言都不一樣”,陳文光如此說道,“(腦科學(xué)和計算機科學(xué))兩個領(lǐng)域連術(shù)語同步都很難?!?/span>關(guān)于這兩個學(xué)科之間的壁壘和鴻溝,王小斐舉了個生動的例子來說明,”搞計算機的人有了什么成果,**時間就會把論文發(fā)表到預(yù)印本平臺 arXiv 上;而搞生物的人**不會看,因為沒有經(jīng)過同行評審,99.9%的概率是在浪費時間和精力”。也正是因為實驗科學(xué)與計算機科學(xué)這個巨大的差異,雙方的合作更顯得至關(guān)重要,而促成這次寶貴合作的正是有著計算機和神經(jīng)科學(xué)跨界背景的王小斐?!斑@件事情的緣起是小斐有**在清華門口約我喝咖啡,拿著一份腦科學(xué)的論文找我談圖計算”,陳文光笑笑說,而這杯咖啡,王小斐等了二十年。2003 年,還是清華計算機系研究生的王小斐有**去上了神經(jīng)生物學(xué)的課,非生物科班出身的他交出了一份關(guān)于如何將 CPU 和人腦連接在一起的論文,而當(dāng)時的導(dǎo)師謝佐平教授給他的評價是,“計算機系每隔十年,就會來一個你這樣的”,王小斐回憶道。這不僅是他個人理想主義的一種堅持,也是自上世紀(jì) 50 年代以來無數(shù)科學(xué)家的向往,“我們還可以再試試”,王小斐這么說著,“拼”起了這個團隊。兩個不同團隊的碰撞與合作,帶來的自然是兩個學(xué)科研究范式的交叉與融合。與歐美腦計劃都不同,螞蟻與復(fù)旦的合作采用的是“干濕實驗結(jié)合的研發(fā)方法”,一邊基于圖計算去構(gòu)建動態(tài)、實時、高精度的腦仿真模型,搭建硅基空間的虛擬實驗平臺;一邊基于實驗神經(jīng)科學(xué),在碳基空間中對大腦真實數(shù)據(jù)進行測量和驗證。“希望我們兩個團隊能夠密切地結(jié)合在一起,得到的實驗數(shù)據(jù)可以輸入給圖計算團隊,幫助構(gòu)建這個神經(jīng)計算系統(tǒng);而系統(tǒng)模擬得出的數(shù)據(jù),又可以回到腦科學(xué)團隊,在實驗中得到驗證”,王云如此說道。螞蟻和復(fù)旦團隊的**愿景當(dāng)然是建立全腦的仿真模型。不過目前,他們**期的目標(biāo)是先構(gòu)建出小鼠 MS 中腦間隔這個腦區(qū)的模型,瞄準(zhǔn)的是與其密切相關(guān)的阿爾茲海默癥這一至今無解的神經(jīng)退行性**,項目周期為三年。如果模型驗證成功的話,王小斐透露他們考慮將架構(gòu)開源,為世界各地的腦仿真研究人員提供一個真正好用的開放性基礎(chǔ)架構(gòu),并在上面分別搭建不同腦區(qū)的模型。“我希望全球人民幫我拼出一個腦子”,王小斐半開玩笑地說。