全球首个可商用生物医药大模型 BioMedGPT-10B 开源


水木分子联合清华大学智能产业研究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。

此外,该模型在生物医药专业领域问答能力比肩人类专家水平,在自然语言、分子、蛋白质跨模态问答任务上达到 SOTA,已成功通过了美国医师资格考试。

开源地址:

  • https://github.com/PharMolix/OpenBioMed
  • https://huggingface.co/PharMolix/BioMedGPT-LM-7B

BioMedGPT 是全新的多模态语义理解框架,它运用了生物医学领域中的预训练大语言模型—BioMedGPT-LM作为桥梁,将自然语言、生物编码语言以及化学分子语言等连接起来。

BioMedGPT 架构::

BioMedGPT-LM 通过充分利用海量生物医学相关数据,对通用的基于GPT架构的大型语言模型进行微调,在生物医学领域发挥更出色的性能。

作为连接桥梁,BioMedGPT-LM能够连接各种生物模态的编码,包括分子、蛋白质、细胞和基因表达数据,同时还能够整合知识图谱、文档、数值实验结果以及其他格式所体现的专业知识。通过跨模态特征融合模块集成,不同模态的生物编码语言、化学分子语言与自然语言能够在同一个特征空间中实现统一融合。

同时,水木分子、AIR联合开源了全球首个免费可商用、生物医药专用Llama 2大语言模型BioMedGPT-LM-7B。“AIR-智源健康计算联合研究中心” 合作开源了小分子药物基础模型DrugFM。此次开源的生物医药基础模型重科研、可商用,为生物医药研究与应用提供大模型底座。


相關推薦

2023-10-11

体、新材料、新能源、智能汽车、人工智能、数字经济和生物医药等多个方向,全面助力国家产业升级转型和经济发展。 太平创新是国内首批经原中国银保监会批准设立的保险系私募基金管理公司之一,作为中国太平保险集团

2023-11-06

大语言模型测评MME中,综合得分排名第一。该评测首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。Skywork-MM模型位列综合榜单第一,其中,感知榜单排名第一、认知

2023-09-25

物研发助手 ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B。水木分子成立于今年6月,由清华大学智能产业研究院(AIR)孵化,专注于生物医药垂直行业大模型的研发与应用。 根据介绍,水木分子

2023-07-27

和反复试验后,OpenBuddy团队成功完成了OpenBuddy-LLaMA2-13B的首个版本的训练工作。 OpenBuddy-LLaMA2-13B 在测试OpenBuddy-LLaMA2-13B的过程中,团队发现模型涌现出了强大的泛化能力和思辨能力,这是目前他们的研发历程中,最令人满意的13

2024-08-27

个脑机接口开源软件平台 MetaBCI 研究成果 我国研制成功全球首个可开源“片上脑-机接口”智能交互系统 MetaBOC 我国编制首部脑机接口研究伦理指引

2024-06-27

共融海河实验室团队与南方科技大学等团队,协同开发了全球首个可开源的“片上脑-机接口”智能交互系统MetaBOC,实现了培养“大脑”对机器人避障、跟踪、抓握等任务的无人控制,完成了多种类脑计算的启发工作。 培养“

2023-10-31

时,昆仑万维「天工」Skywork-13B系列大模型即将全面开放商用;开发者无需申请,即可商用。 “此次Skywork-13B系列大模型将全面开放商用许可,用户在下载模型并同意并遵守《Skywork模型社区许可协议》后,无需再次申请授权即

2023-06-10

,并在 Apache 2.0 许可下全部开源。 RedPajama 是一个开源可商用大模型项目,由 TOGETHER 联合蒙特利尔大学的 AAI CERC 实验室、EleutherAI 和 LAION 共同发起。目前包括一个基于 LLaMA 论文的 RedPajama 基础数据集(5 TB 大小),自 4 月份发

2024-01-23

手机工厂、理想汽车旗舰工厂提前投产。 北京精心打造全球数字经济标杆城市,率先建成全球性能领先的区块链基础设施,新增5G基站3万个,获准向公众开放的生成式人工智能大模型产品占全国近一半,“京通”“京办”“京

2023-07-22

型 GLM-130B 正式上线,是同年亚洲唯一入选斯坦福评测的全球主流大模型。同年 9 月,智谱 AI 完成数亿元 B 轮融资,并发布 130 亿参数规模的代码生成模型 CodeGeeX。2023 年 3 月,对话模型 ChatGLM-6B 及千亿对话模型ChatGLM(内测版)

2023-10-10

了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。 全球首个70B长文本大语言模型发布 LongLoRA的提出,让全球大语言模型的对话缺陷第一次得到解决,自此,几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。

2023-07-19

模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。 目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间。 那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样,比如与ChatGPT3

2024-01-16

关于CSGHub 大模型百花齐放的时代,数据和模型已成为企业和个人用户最核心的数字资产。然而,当前面临的挑战是模型文件和数据集的管理工具分散、管理手段单机化碎片化等问题。这些问题不仅带来了安全运营的巨大风险,

2023-12-02

界最强开源大模型,性能超越开源标杆Llama 2-70B和大部分商用闭源模型。 通义千问-72B (Qwen-72B) 主要特性: 大规模高质量训练语料:使用超过3万亿tokens的数据进行预训练,包含高质量中、英、多语言、代码、数学等数据,