

在數(shù)據(jù)要素價值加速釋放的背景下,科學數(shù)據(jù)的開放共享與協(xié)作正成為破解科研難題、推動產(chǎn)業(yè)升級的核心引擎。4月29日,第八屆數(shù)字中國建設峰會科學數(shù)據(jù)合作分論壇在福州數(shù)字中國會展中心舉行。論壇以“開放科學數(shù)據(jù),共筑數(shù)字未來”為主題,由復旦大學主辦,上海科學智能研究院(下稱上智院)承辦,華為云計算技術有限公司、中國聯(lián)通上海分公司、中國電信上海分公司、阿里云計算有限公司共同協(xié)辦,吸引了各界代表共議科學數(shù)據(jù)生態(tài)建設。
福建省政協(xié)副主席劉獻祥,復旦大學副校長、中國科學院院士馬余剛,先后進行了致辭。復旦大學校長助理、上智院理事長吳力波,復旦大學浩清特聘教授、復旦大學人工智能創(chuàng)新與產(chǎn)業(yè)研究院院長、上智院院長漆遠,分別發(fā)表開幕演講。上海市數(shù)據(jù)科學重點實驗室主任肖仰華,上海數(shù)據(jù)研究院有限公司學術副院長朱揚勇,上海財經(jīng)大學數(shù)字經(jīng)濟研究院院長高紅冰,上海庫帕思科技有限公司董事長山棟明,聯(lián)通(上海)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司總經(jīng)理、研究院院長堵煒煒,中國電信上海公司云技術總監(jiān)、集團高級專家沈鳴,華為云數(shù)據(jù)要素業(yè)務總經(jīng)理、首席專家劉萬來,英矽智能中國區(qū) IT 負責人沙林,阿里云智能政企業(yè)事業(yè)部大模型智算產(chǎn)品與研發(fā)負責人王浩等產(chǎn)學研代表發(fā)表主題演講。上智院首席戰(zhàn)略官、復旦大學兼職教授楊燕青主持論壇。
會上,復旦大學人工智能創(chuàng)新與產(chǎn)業(yè)研究院副院長、上智院院長助理程遠作為代表發(fā)布了三項科學數(shù)據(jù)基礎設施——生命流體數(shù)據(jù)集、催化化學反應活性數(shù)據(jù)集及科學數(shù)據(jù)標注平臺。由復旦大學和上智院共建的系列科學數(shù)據(jù)新基建旨在通過數(shù)據(jù)開放共享與智能化工具,破解科研效率瓶頸,推動跨學科創(chuàng)新。
三項科學數(shù)據(jù)基建成果發(fā)布
血流動力學研究是生物醫(yī)學領域的重要組成部分,它幫助科學家深入理解生物體內(nèi)的運動規(guī)律,有助于理解心血管系統(tǒng)的功能和疾病機制。通過分析血液在血管中的流動特性及其與血管內(nèi)壁的相互作用,研究人員能夠識別出血壓、血管直徑、血液粘度等影響血流的因素,這對高血壓、心力衰竭、顱內(nèi)動脈瘤等心腦血管疾病的預防和治療至關重要。其中,顱內(nèi)動脈瘤是一類腦部血管畸變,通常無癥狀,但是一旦破裂卻可能導致嚴重的蛛網(wǎng)膜下腔出血(SAH)。盡管臨床實踐通常基于動脈瘤的個體因素和形態(tài)特征,但其病理生理和血流動力學機制仍存在爭議。
生命流體數(shù)據(jù)集Aneumo基于466個真實顱內(nèi)動脈瘤的幾何形狀開發(fā),通過切除和變形操作生成超10000個合成幾何形狀(含 466 個無動脈瘤幾何和 9534 個變形動脈瘤幾何),涵蓋流速、壓力、壁面切應力等關鍵參數(shù),為研究動脈瘤的發(fā)病機制和臨床預測提供了寶貴資源。
該數(shù)據(jù)集將為顱內(nèi)動脈瘤破裂風險預測提供多場景模擬支持,還可基于血流動力學原理助力優(yōu)化血管支架、人工血管等醫(yī)療設備的設計流程。這將有助于加深對顱內(nèi)動脈瘤病理特征和血流動力學機制的理解,并支持相關領域的深入研究,加速心腦血管疾病診療方案的臨床轉化。
催化化學反應活性數(shù)據(jù)集
聚焦于解決化學研發(fā)中的關鍵挑戰(zhàn)
化學文獻中反應數(shù)據(jù)的記錄方式存在顯著差異,特別是產(chǎn)率計算標準、催化劑命名規(guī)則等關鍵信息往往缺乏統(tǒng)一規(guī)范。通過開發(fā)專用的化學信息提取算法與人工校驗流程,團隊實現(xiàn)了對海量非結構化數(shù)據(jù)的標準化重構,基于該數(shù)據(jù)集訓練的催化反應預訓練模型在Buchwald-Hartwig、Suzuki-Miyaura等關鍵交叉偶聯(lián)反應上能實現(xiàn)反應活性的精準預測,預測誤差低于10%。
該數(shù)據(jù)集在微觀層面完整記錄了反應底物、催化劑、溶劑、添加劑等關鍵組分,在宏觀層面系統(tǒng)整合了制藥、化工催化及電池研發(fā)等領域的近30類反應類型,包括經(jīng)典的偶聯(lián)反應、環(huán)加成反應以及前沿的碳氫鍵活化反應等。數(shù)據(jù)集提供了超過100萬條經(jīng)過嚴格校驗的反應記錄,并建立了從實驗室小試到工業(yè)化放大的標準化數(shù)據(jù)橋梁。
會上發(fā)布的另一項科學數(shù)據(jù)成果——科學數(shù)據(jù)標注平臺,則旨在通過人工智能與專業(yè)標注工具的結合,提升科研數(shù)據(jù)處理效率,加速科學發(fā)現(xiàn)進程。平臺打造了端到端智能文獻提取方案,實現(xiàn)自動化采集,加工,標注和落庫的一站式自動化方案,大幅度提高質(zhì)量數(shù)據(jù)集加工效率。
該平臺將提供化學分子式標注
文獻表格提取
及2D/3D醫(yī)療影像標注等
多模態(tài)工具
通過AI輔助標注功能
大幅縮短標注周期
降低專業(yè)門檻
并構建安全可信可審計的
數(shù)據(jù)標注環(huán)境
平臺配備50人以上
專業(yè)化標注團隊
以低培訓門檻
和高效率服務支持科研需求
上述成果基于上智院和復旦大學共建的高質(zhì)量科學語料平臺開發(fā)。該平臺具備從數(shù)據(jù)采集、加工到管理和建模的全鏈路能力,目前已匯聚超10PB高質(zhì)量科學數(shù)據(jù),支持多學科研究效率躍升。
學界業(yè)界共話數(shù)據(jù)開放生態(tài)
吳力波在演講中指出,語料和數(shù)據(jù)是未來AI發(fā)展的戰(zhàn)略性資源,但當前數(shù)據(jù)價值評估體系與開放治理機制仍不完善。她說:“為了科學和社會的利益,當下需要探索能夠針對科學數(shù)據(jù)非實體性、場景特異性、加工難度大、價值易變等特征,構建結合成本特征、公共屬性與市場屬性的定價機制,同時通過可信、可追溯的智能合約增進科學合作和信息共享。政府、NGO、大型企業(yè)和科研機構是全球開放數(shù)據(jù)的主要來源,亟待各方共同推動多層級數(shù)據(jù)開放體系,夯實開放科學的數(shù)據(jù)基石。
吳力波
“大模型是對互聯(lián)網(wǎng)的壓縮,而數(shù)據(jù)決定了接下來人工智能能力的上限。”漆遠在演講中強調(diào),“領域-模型-工程”的開放合作是科學智能發(fā)展的核心驅(qū)動力,相對Deepseek等大語言模型,垂直領域科學大模型更多樣化,尤其需要工程力和基礎設施的支撐。他表示,此次復旦大學和上智院聯(lián)合發(fā)布的科學數(shù)據(jù)基礎建設成果就是對此模式的實踐,將以標準化數(shù)據(jù)和工具助力科研人員專注創(chuàng)新。
漆遠
在后續(xù)的主題演講環(huán)節(jié),肖仰華聚焦科學數(shù)據(jù)的價值變現(xiàn),呼吁通過碎片化信息的關聯(lián)與融合等方式來激活數(shù)據(jù)價值;朱揚勇分析了數(shù)據(jù)跨境的歷史和現(xiàn)狀,從多個維度探討了科學數(shù)據(jù)跨境流通的技術與政策平衡點;高紅冰從數(shù)據(jù)、信息、知識、智慧四個層面出發(fā),提出基于D-I-K-W模型的實施框架來促進科學數(shù)據(jù)合作與應用;山棟明從產(chǎn)業(yè)視角分享AI技術重構科研底層邏輯的實踐;堵煒煒提出通信運營商在科學數(shù)據(jù)生態(tài)中的AI新基座方案;沈鳴解析了教育科研新基建對開放科學的助推作用;劉萬來展示了云平臺如何融合各類流通利用技術,實現(xiàn)數(shù)據(jù)跨主體、跨邊界流通的可信、可控、可證;沙林分享了新藥研發(fā)中通過AI 自動化實驗室主動創(chuàng)造高質(zhì)量數(shù)據(jù)等方面的經(jīng)驗;王浩則展望了大模型時代下的科研創(chuàng)新與產(chǎn)業(yè)升級,闡釋了以“云+AI”推動科技創(chuàng)新的優(yōu)勢。
肖仰華
作為推進數(shù)字中國建設的重要載體,自2018年起,數(shù)字中國建設峰會每年春天在福建福州召開。本屆峰會由國家發(fā)展改革委、國家數(shù)據(jù)局、國家網(wǎng)信辦、工業(yè)和信息化部、福建省人民政府共同主辦,福州市人民政府和相關單位承辦,超過800位企業(yè)家、超100名院士專家以及社會各界人士齊聚,持續(xù)為數(shù)字中國戰(zhàn)略注入創(chuàng)新動能。
(記者 王至瑩)