清华大学聂再清:科学研究需要大胆设想,不用刻意避免大模型幻觉|36氪专访

文|胡香赟

编辑|海若镜

当前,围绕大模型的“短期炒作太多,长期关注不足”。进入年中,伴随着ChatGPT网站开始下滑的访问量,OpenAI创始人山姆·奥特曼给出前述警示。

整个上半年,在历来不会错过AI技术任何细小突破的医疗健康领域,疯狂同样止不住。据36氪不完全统计,国内企业今年来发布的医疗健康类大模型已接近20个,全面覆盖学术科研、医学影像、医疗问诊等场景。

短暂的狂欢过后,随着盈利模式不清晰、概念验证尚未落地、大模型问诊效果不及真人医生等经营或技术层面的问题频频出现,行业开始重新审视医疗大模型开发的必要性。

在给了所有人一个惊喜之后,大模型究竟是将走向颠覆,还是只迎来一个阶段性高峰?药物研发大模型和医疗大模型有什么大的不同吗

36氪就这些话题与清华大学教授聂再清聊了聊。2020年年底,摘下阿里达摩院“大牛”的头衔后,聂再清加盟清华大学智能产业研究院(AIR),目前还担任着由AIR孵化的科技企业水木分子首席科学家的职位。近日,他带领的团队刚刚开源一款参数达百亿的可商用、多模态生物医药大模型BioMedGPT-10B,现已在多个生物医药问答基准数据集上实现SOTA,在专业领域的问答能力比肩人类专家。

清华大学聂再清:科学研究需要大胆设想,不用刻意避免大模型幻觉|36氪专访

聂再清,受访者供图

在聂再清看来,大模型最突出的特点在于实现了自然语言和生物编码语言的对齐生命现象本质上也是“一种自然进化的语言编码”,通过将作为自然语言的人类知识与蛋白质、氨基酸等数据放置到统一的大模型中进行编码学习,有望让大模型实现融会贯通的能力,进而推动生命科学相关的研究应用。

以下为36氪与聂再清的对话:

大模型要解决“给谁用”的问题

36氪:AI大模型在医疗领域的使用场景很多,更常见的有医学影像、医疗文本处理等。水木分子为什么选择药物开发这个方向?

聂再清:开发大模型首先要弄清楚“到底给谁用”的问题。在医疗健康领域,可应用的场景包括医学影像、药物研发、医疗文本处理、学术科研等。

从实用性角度而言,我们认为医生在接诊时是否真的需要用到大模型仍有待检验,但大模型直接拿给科学家做AI for Science的使用场景是明确的,药物开发是真正能把很多文章、数据去融会贯通,并产生比较好的结果的领域。一些医疗场景需要的可能是智能文本和影像这两个数据模态,但在制药这件事上,数据代码可能是小分子、大分子,或者一段氨基酸序列,蕴含大量生物功能在里边,更具有挑战性。

另一方面,处在训练初始阶段,我们还不能很好地操控大模型时,应该选择一个安全性更高的领域。药物开发的试错环节更多,如果一款药有问题,临床前、临床试验等管线开发的各个阶段都可以随时叫停,不像诊疗那样直接面对患者,风险相对更小。给病人做诊断,10个结果里有1个错的后果可能就很严重;但药物开发时,10个分子里有1个能用,就是一件好事。

36氪:开发生物医药大模型需要怎样的团队配置?

聂再清:开发大模型的门槛相对较高,团队既要懂人工智能,还要懂药,至少是融合了这两个领域的团队才能做,其实并不好招。水木分子在多模态生物医药大模型开发这件事上已经做了两年多了,团队中已经配备了医学背景的科研人员,并聘请了专门做药的顾问,但在生物医药方面也还是在不断学习。

36氪:利用大模型做药物开发和传统的AI制药概念有什么区别?公司提到要做ChatDD引领下的“人机协作对话式药物研发”,如何理解这一概念?

聂再清:传统的药物设计可分为TMDD(Traditional Manual Drug Design)、CADD(Computer-Aided Drug Design)和AIDD(AI Drug Design)三个阶段。其中TMDD基于大量人工试验和经验主义,利用手工合成、提取和筛选药物,低通量、成本高,且缺乏系统性,虽然古老,但很多药企还在沿用这一方法。

清华大学聂再清:科学研究需要大胆设想,不用刻意避免大模型幻觉|36氪专访

图源:水木分子

CADD和AIDD概念其实相似,都是通过计算辅助药物的研发和设计。这一过程中,AI本身是理论计算的一环,AIDD确实可以做得很好,但无法自己做出一款药。因为AI赋能的过程中需要大量人工和AI模型的互动,但行业尚未开发出一个系统或工具实现科研人员和算法的紧密互动。

基于此,我们提出药物设计应该进入一种名为ChatDD的新阶段。相较过去,它多了自然语言和生物编码语言对齐的环节。相当于通过一个大模型把所有外部的知识、数据和工具全部整合,再把科研人员的问题通过提示词传输到大模型中,形成交互,将人的知识和直觉与数据、工具融会贯通,进而提高药物研发效率,甚至产生一些过去时意想不到的效果。

36氪:现在有没有具体的证明大模型提高药物研发效率的案例,比如节省多少开发时间?

聂再清:我们现在还更多的在干实验上验证了效率的提升,和药企的湿实验验证还在进行中。这件事的重点在于,如果有了对蛋白、分子的更好的理解,科研人员在和大模型对话时,就能把语义带进去,做很多操作。

比如在做分子设计时,我们输入一个靶点,然后就能基于靶点的信息和模型进行对话,生成一个小分子药;或者要开发针对某个疾病的小分子药物时,找到最有可能成为成药的小分子大模型就会自动调用DTI算法进行药物靶点亲和力预测。过去研发人员自己手动用算法操作这些步骤,现在通过对话就能实现。

不要怕大模型“胡说八道”

36氪:一般而言,基于语言的生成式模型,它能生成的都是模型已经知道的规则,而药物设计其实是一个不断试错的过程,很多时候逃脱不了人的认知。大模型本身到底能否做研究性的内容?

聂再清:其实蛋白或小分子、疾病之间都是相互连接的知识,我们把这些称作知识图谱,并应用在模型训练的工作上。正是因为有这些联系的存在,我们能将更多的信息融合在一起,启发大模型去思考,比如用在优化分子上。从这个角度来讲,大模型是可以生成新的内容的,并不只是已有知识的重复。

同理,在难成药靶点的开发上,某一个靶点可能尚未被开发,但有没有和这个靶点相似的靶点?这个靶点属于那个疾病?如果有这样的联系,大模型就可以据此去做联想,这是它优于人工的地方。

36氪:有观点认为,医药研发不一定非要做通用大模型,而是各个环节上能有特定的、加速小模型就可以。您是如何看待这个问题的?

聂再清:小模型或针对单独模态的模型“更多只是对一个生物编码语言的理解”。有一个小分子模型,理解的就是小分子的情况;做一个大分子模型,理解的就是大分子。但在实际的应用中,由于人类现有知识中存在大量通过自然语言记录的内容,所以除了要把这些小分子、大分子的自身编码模型做得越来越好之外,还需要将这些分子的自身编码模型与之对齐。最终,小模型会成为大模型里的一个可随时调用的工具,从而更好应用于药物研究,甚至临床报告设计、患者招募等环节。通过和一些从业者的沟通,我们发现这部分需求也确实存在。

从数据质量角度来讲,目前已公开的各种结构化、非结构化的数据,比如PubMed、生物医药专利、以及海量的蛋白质氨基酸序列和单细胞测序数据等,能够提供的数据量就已经足够多,就像ChatGPT一样,我们完全能够基于公有数据训练模型,能做的事情非常多。对于私有数据,它的价值确实也很大,但也可以通过和相关企业开展合作的形式做私有化部署。

36氪:如何避免大模型“一本正经地胡说八道”?

聂再清:我们并不刻意避免。科研工作有时候需要一定的幻觉,只是要把控这个程度,因为科研创新并不是完全把以前的知识重新重复出来,而是要产生新的内容,所谓“胡说八道”其实给创新提供了一定的可能性

36氪:评价大模型公司的维度、标准有哪些,大模型之后会不会陷入“内卷”状态?

聂再清:生物医药大模型企业尚处在早期阶段,评价体系还没有那么全面,但不会完全参考制药公司的评价标准。归根结底是要看你的大模型能否为客户产生价值,比如是否真的提升效率、提高立项成功率等。

我认为通用大模型不会内卷,因为随着开源的通用大模型越来越多,你只有证明自己比开源的模型更好才有价值,不然为什么要做它?所以有些人可能做着做着就放弃了。未来,真正能跑出来的可能还是和各行业相结合的大模型,因为大模型的未来更多会成为行业的操作系统,将各行业里的工具、数据、和自然语言文本整合起来。从这个角度来讲,基于各行业开发的大模型有可能会再卷一卷。

36氪:大模型企业的商业模式可以是怎样的?

聂再清:生物医药大模型本身可以有To B和To C两种用法,基本都可以走软件付费、卖平台的方式。比如To B向的模式,就是和合作客户做私有化部署,至少在早期是这样的。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2024年4月15日 下午3:16
下一篇 2024年4月15日 下午3:28

相关推荐