探索生命奥秘的新钥匙:BioMedGPT-R1开启生物医药研究新时代
2月21日,清华大学人工智能产业研究院(AIR)与北京水木分子生物科技有限公司(简称:水木分子)联合宣布,已正式发布升级版生物医药多模态开源基础大模型BioMedGPT-R1。
此前,在2023年,双方合作推出了开源且可商业化的生物医药多模态百亿参数基础大模型BioMedGPT。水木分子则发布了自主研发的千亿参数多模态生物医药专业大模型ChatDDFM以及新一代由AI驱动的药物发现工具ChatDD。此次,DeepSeek版本的ChatDD-R1基座模型也已同步在ChatDD平台上推出,旨在助力生物医药企业的药物研发工作。
BioMedGPT 是清华大学智能产业研究院(AIR)携手水木分子开源的全球首个可商用多模态生物医药百亿参数大模型,该模型在生物医药专业领域问答能力号称“比肩人类专家水平”,发布时在自然语言、分子、蛋白质跨模态问答任务上达到 SOTA。
在清华大学AIR与水木分子的共同努力下,BioMedGPT-R1正式发布。这一新模型通过采用DeepSeekR1蒸馏版本,对BioMedGPT中原有的文本基座模型进行了升级。这样的改进不仅增强了文本的推理能力,也使得BioMedGPT-R1在处理复杂的生物医学文本时表现更加出色。从这个角度来看,BioMedGPT-R1的推出无疑为生物医学领域的研究提供了更为强大的工具,有望推动相关领域的发展进入一个新的阶段。 可以看出,这次的技术升级不仅是技术层面的进步,更是对生物医学研究需求的一次深刻回应。随着人工智能技术的不断进步,我们有理由期待未来会有更多类似的创新成果出现,为科学研究带来更多的可能性。
通过跨模态特征对齐技术,BioMedGPT-R1成功地将生物模态信息与自然语言文本模态整合到同一特征空间中,从而在生物多模态环境下展示了模型的深层推理能力。
通过训练对齐翻译层(Translator),BioMedGPT-R1将生物模态编码器(MoleculeEncoder与ProteinEncoder)输出映射到自然语言表征空间,从而在DeepSeekR1的基础上增强了对生物模态数据的理解能力。这一创新不仅提升了机器处理复杂生物信息的能力,还为医药研发领域提供了更为强大的工具。通过这种技术的进步,科研人员能够更准确地解析分子和蛋白质的信息,从而加速新药的研发进程。这无疑标志着人工智能在生物医学领域的应用迈上了新的台阶,未来有望带来更多突破性的研究成果。
BioMedGPT-R1 的训练分为两个主要步骤:
首先,仅训练对齐翻译层Translator,使其能够将编码后的生物特征信号映射到语义表示空间。
然后,在当前的技术趋势下,同时微调对齐翻译层Translator和基础大语言模型,以激发其在下游任务上的多模态深度推理能力,显得尤为重要。这种技术手段不仅能够显著提升机器翻译的准确性和流畅度,还能够在处理跨模态信息时展现出更强的理解与生成能力。这无疑为人工智能领域的发展开辟了新的可能性,特别是在处理复杂多样的实际应用场景时,如智能客服、虚拟助手等,这些技术的应用将极大地提高用户体验和工作效率。未来,随着研究的深入和技术的进步,我们有理由相信,在多模态深度推理方面会有更多突破性的进展,从而推动整个行业的快速发展。
清华大学AIR和水木分子研究团队宣布,他们将继续致力于维护OpenBioMed开源平台,并积极探索如何在强大的推理语言模型基础上,更有效地实现跨模态对齐。目前,团队正以BioMedGPT-R1为基石进行深入的研究与综合评估。据观察,该模型在化学分子理解任务中的表现显著提升,在CheBI-20化学分子描述任务中,相比前一版本效果提升了超过15%。未来,这些研究成果将在OpenBioMed平台上公开发布,包括BioMedGPT-R1模型以及生物医药研发的Agent系统框架。 这一进展表明,随着技术的进步,我们正逐步提高在生物医药领域内复杂问题的解决能力。特别是在跨模态对齐方面取得的突破,意味着人工智能在理解和处理生物医学信息时能够更加精准和高效。这不仅有助于加速药物发现过程,还可能推动整个生物医药行业的发展,使更多创新成果更快地惠及社会。
附开源地址如下,当前新版本还未开源:
https://github.com/PharMolix/OpenBioMed