工作動(dòng)態(tài)
當前預訓練大語(yǔ)言模型的蓬勃發(fā)展為面向科學(xué)文獻的領(lǐng)域NLP(Natural Language Processing ,?NLP)任務(wù)帶來(lái)了新的前景。我中心大數據部與國家納米科學(xué)中心合作,構建了大模型增強的電催化還原和合成過(guò)程的開(kāi)源數據集,幫助催化領(lǐng)域科學(xué)家快速發(fā)現新型高效催化劑并完成制備,同時(shí)發(fā)布了基于電催化領(lǐng)域文獻預訓練和標注數據指令微調后的大模型參數,為催化材料領(lǐng)域的其他生成式任務(wù)提供模型支持。該研究成果在Nature數據子刊Scientific?Data上發(fā)表。大數據部陳雪青、王露笛為論文共同第一作者,杜一研究員為論文共同通訊作者。
該成果得到重點(diǎn)研發(fā)計劃青年科學(xué)家項目“基于領(lǐng)域知識圖譜的光電催化材料挖掘軟件”以及國家基礎學(xué)科公共科學(xué)數據中心等項目的支持。
語(yǔ)料庫構建的整體框架及合成過(guò)程拆解流程
論文鏈接:
https://www.nature.com/articles/s41597-024-03180-9
數據庫鏈接:
https://doi.org/10.57760/sciencedb.13290;
https://doi.org/10.57760/sciencedb.132924;
https://doi.org/10.57760/sciencedb.13293。
責任編輯:郎楊琴
附件下載