行业焦点

人工智能作画来了,人工智能写论文还远吗?


浏览量:645

如何做出一个科研版的 GPT-3?

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。


编者按:最近 GPT-3、DALL-E 这样的人工智能又一次推高了 AI 的人气。因为它们让普通人只需简单的提示就能创作出相当高水平的文字和画作。但是科学领域却没有这种大众化的人工智能工具,阻碍在哪里?能做出来吗?怎么做?本文进行了探讨。文章来自编译。


想创作一幅迅猛龙在摩天楼顶上工作的画作,而且是 1932 年的“摩天楼顶上的午餐”的那种风格?找 DALL-E。想创作一档由彼得·泰尔、埃隆·马斯克和拉里·佩奇三人出演的虚构单口喜剧节目?用 GPT-3。


想深入了解 COVID-19 方面的研究,并基于证据回答问题?学习如何进行布尔搜索、阅读科学论文,甚至可能还得弄到博士学位,因为没有针对大量科学研究出版物进行训练的生成 AI 模型。如果有这样的模型的话,获得有证据支持的、通俗易懂的科学问题的答案将是这样的模型最简单的好处之一。


用于科学的生成型人工智能可以帮助扭转科学创新减速的局面,让我们更容易找到新的想法。这样的模型还可以为肯定会失败的治疗假说提供数据支持,让那种论调悬崖勒马,抵消掉人类的偏见,并避免走进会浪费数十亿美元、浪费几十年时间的死胡同。最后,此类模型还可以通过对研究结果进行映射、权衡以及联系上下文,给出可信度分数,从而应对可重复性危机。


那么为什么还没有用于科学身上的 DALL-E 或 GPT-3 呢?原因在于,虽然科学研究是全世界最有价值的内容,但同时也是最难获得、最难理解的内容。本文将解释如何大规模地解锁科学数据,让生成式人工智能成为可能,以及这种人工智能将如何改变我们的研究方式。


科学研究数据很有挑战性的原因在哪里

研究出版物是全世界最重要的内容和信息库之一。它们将不同时间和学科的想法和发现联系在一起,并通过图书馆的网络保存起来。这些材料有证据、分析、专家剖析与统计关系的支持。它们非常有价值,但基本上都隐藏在 web 之外,而且使用效率也非常低。Web 上充斥着各种各样阿猫阿狗的视频,但前沿的癌症研究却近乎空白。比方说,Web of Science 是最全面的科学知识索引之一了,诞生至今已有几十年,但大多数读者甚至连听都没听说过它,就更不必说使用了。我们当中的大多数人都没法看到那些研究论文,就算给你看,那些文字也十分的晦涩难懂,而且被打包成了 PDF——这种格式是专为打印而设计的。


因为科学论文不容易获得,我们不能轻易地利用这些数据来训练像 GPT-3 或 DALL-E 这样的生成模型。如果研究人员提出一个实验,人工智能模型马上就可以告诉他们之前是不是已经有人做过(更好是还提供结果),这样的情形你能想象吗?然后,一旦他们从某个新颖的实验中获得了数据,人工智能就可以根据结果提出后续实验设想呢?最后,再想象一下如果研究人员可以上传他们的结果,然后由人工智能模型为他们编写结果的手稿的话,又可以节省多少时间。与科学版的 DALL-E 最接近的是 Google Scholar,但后者不是一个可持续或可扩展的解决方案。IBM Watson 也在着手实现此处描述的大部分工作,但他们的大部分工作都是在大型语言模型取得的最新进展之前做的,并且没有利用适当或足够的数据来配合他们的营销炒作。


要想解锁我说的那种价值,我们需要有长期投资、承诺和愿景。为此,我们需要将科学出版物当作要进行大规模组合和分析的基质。一旦消除了障碍,我们就可以利用科学来为需要大量数据的生成 AI 模型提供数据。这些模型有加速科学和提高科学素养的巨大潜力,比方说可以训练这些模型来产生新的科学思想,帮助科学家管理和浏览大量科学文献,帮助识别有缺陷甚至是假冒的研究,以及综合复杂的研究结果并将其转化为普通的人类语言等。


如何才能得到科学版 DALL-E 或 GPT-3?

如果你是科技圈的,向朋友展示 DALL-E、GPT-3 等生成 AI 模型的输出,就仿佛在向他们展示魔法一样。这些工具代表了 web 的下一代。它们源自对海量信息的综合,这种综合超越了简单的关联,而是开发出具有生成能力的工具。那么,我们如何才能在科学领域也创造出类似的神奇体验,让任何人都可以用通俗易懂的语言提出科学文献的问题,并得到有证据支持的,可理解的答案呢?我们如何才能帮助研究人员做出假设,然后不断完善和检验这些假设?在阿尔茨海默症研究当中,人们因为错误地假设遗传与抑郁症之间存在关联,从而浪费了数十亿美元,我们如何才能避免这种无效的假设呢?


这些问题的解决方案听起来也许像科幻小说,但有证据表明,当科学工作的用途不仅仅是部分之和时,我们就可以做出惊人的、不可思议的事情。事实上,通过利用蛋白质数据库(Protein Data Bank)当中的近 200000 种蛋白质结构,AlphaFold 就能够准确地预测出有记录在案的每种蛋白质(超过 2 亿个!)的结构。用类似于理解蛋白质结构的方式去研究论文自然是我们要迈出的下一步。


将论文分解成最小的组件

研究论文里面充满了各种有价值的信息,包括数字、图表、统计关系以及对其他论文的引用。将这些内容分解成各种组成部分,并大规模地利用这些组成部分,可以帮助我们训练机器去处理科学相关的不同类型的工作或课题。简单的问题可以通过对某种成分类型的训练来回答,但更复杂的问题则需要结合多种成分类型,并需要了解它们之间的关系。


一些可能的比较复杂的提示例子如下:


“告诉我为什么这个假设是错的”


“告诉我为什么我的处理办法行不通”


“生成新的处理办法”


“有什么证据支持社会政策 X?”


“这个领域最可靠的研究是谁发表的?”


“根据我提供的数据帮我写一篇科学论文出来”


有些团体正在朝着这一愿景迈进。比方说,Elicit 就将 GPT-3 应用到数百万篇论文标题和摘要上,去帮助回答研究人员提出的问题——这有点像科学版的 Alexa。系统会提取实体之间的统计关系,显示不同的概念和实体是如何链接的。 Primer 本身的重点并不是研究论文,但它确实在与 arXiv 合作,提供了一个信息仪表板,可供企业和政府用来综合和理解来自多个来源的大量数据。


访问所有的组件

不幸的是,这些团体的工作主要靠标题和摘要,而不是全文,因为约六分之五的文章都不是免费就可以获得的,或者弄到并不容易。对于拥有数据或论文的 Web of Science 和谷歌等团体来说,其许可和使用范围存在限制或是不明确的。就谷歌而言,目前我们还弄不清楚为什么他们没有公开宣布自己在 Google Scholar 针对全文科学研究训练 AI 模型的努力。令人惊讶的是,在导致全球陷入停顿的疫情大流行期间,这种情况甚至都没有发生改变。在这种情况下,谷歌 AI 团队挺身而出,为公众就查询有关 COVID-19 的问题提供了一种方法原型。但是,奇怪的是,他们当时是用了来自 PubMed 的可免费访问的论文,而不是来自 Google Scholar 的论文。


几十年来,有人一直在倡导要开放获取论文,而且这些论文的用途不应该只是看一遍就完。我本人已经亲自研究了近十年,在我攻读博士学位的最后一年曾推出过一个名为 The Winnower 的开放获取出版平台,然后在另一家初创企业 Authorea 致力于开发未来的文章。虽然这些举措都没有完全按照我希望的方式取得进展,但正是因为有了那些努力,我才得以开展目前在 scite 方面的工作,至少部分通过直接与出版商合作解决了访问的问题。


连接组件并定义关系

scite的目标是引入下一代引文——我们称之为智能引文(Smart Citations)——它会呈现出文献是如何引用以及如何讨论特定文章、研究人员、期刊或主题的,以及为什么要引用。通过与出版商的合作,我们得以直接从全文中提取出所用引文的相关句子。这些句子可以为理解“论文是如何被更新的文章所引用的”提供定性的见解。就有点像研究版的烂番茄(译者注:Rotten Tomatoes,是一家美国电影和电视评论线上聚合网站)。


为了做到这一点,需要能访问引文的全文,并与出版商合作,通过利用机器学习来大规模提取和分析引文陈述。因为有了足够多的文章可供启动我们的工作,我们得以开发出概念验证,并一一向出版商展示被我们的系统索引到的文章的可发现性增加了,而且我们还为他们提供了一个系统,去展示更好的指标,帮助做出更负责任的研究评估。


用关系数据来训练 AI 模型

从论文提取的要素和关系可用来训练针对研究的新型大型语言模型。GPT-3 虽然非常强大,但毕竟它不是为科学工作而开发的,而且在回答你可能会在 SAT(译者注:也称 “美国高考” ,是由美国大学理事会主办的一项标准化的高中毕业生学术能力水平考试)上看到的那种问题方面表现不佳。用数百万篇研究论文对 GPT-2(GPT-3 的早期版本)进行训练适配后,这种 AI 在特定的知识任务上的表现要比直接用 GPT-2 的效果更好。这凸显了用于训练模型的数据是什么非常重要。


有些团体最近在用 GPT-3 来撰写学术论文,虽然这颇为令人印象深刻,但那些论文声称要展示的事实或论点也许是非常错误的。如果这个模型连简单的 SAT 式的问题都不能回答正确的话,我们又怎么可以相信它能写出一篇完整的论文呢?诞生比 GPT-3 早了近 20 年的 SCIgen 表明,生成看起来很逼真的论文相对容易。他们的系统虽然简单得多,但生成的论文却能够被各种会议接受。我们需要的不仅是一个看起来科学而且实际上也很科学的模型,而且需要要有一个系统来验证机器和人类的声明。 Meta 最近引入了一个用于验证 Wikipedia 引用的系统,有的出版商直言,希望学术出版物也能拥有这样的系统。


当前进展

再强调一次,这样的系统要想取得成果,关键是要排除获取论文和资源的障碍,有了这些才有做出模型的可能。但凡可以大规模使用论文或信息的地方,我们确实就看到了工具和新模型在这些地方的蓬勃发展。谷歌专利团队用 1 亿项专利来训练一个帮助分析专利的系统,其实那就相当于一个 GooglePatentBERT。其他人则引入了像 BioBERTSciBERT 这样的模型,尽管事实上用来训练模型的数据大概只占特定学科领域约 1% 的科学文本,但这些模型已经在学术任务(包括我们 scite 的引文分类系统)中有了令人印象深刻的表现。


最近又发布了一个 ScholarBERT 模型,这个模型可以利用所有的科学文献来训练 BERT。他们克服了访问问题,但他们对如何解决问题却保持沉默,只是强调使用是“非消耗性的”。这个用例可能会为其他人在未经出版商明确许可的情况下使用文章打开大门,并且可能是创建科学版 DALL-E 的重要一步。不过,令人惊讶的是,ScholarBERT 在各种专业知识任务上的表现还比不上 SciBERT 等规模较小的科学语言模型。


重要的是,BERT 风格的模型比 GPT-3 等大型语言模型的规模要小得多,而且这种模型不支持通用提示和上下文学习,而这是 GPT-3 炒作的主要卖点。问题仍然存在:如果我们用训练 ScholarBERT 的相同数据来训练像 GPT-3 这样的大规模生成模型会是什么情况?如果我们能设法展示机器提供的答案是来自哪里的,或者将它们直接与文献(如智能引用)关联起来又会怎样?


为什么是现在?

幸运的是,现在对论文的访问正变得越来越开放,机器也变得越来越强大。我们现在可以用论文以及连接的存储库中的数据来训练机器,去回答问题,并基于研究合成出新想法。这可能会对医疗保健、政策、科技以及我们周围的一切产生变革性的影响。想象一下,如果我们能搜索的不只是文档标题,还能搜索答案,这对各个学科的研究和工作流程会产生什么样的影响。


将全球的科学知识从可访问性和可理解性的双重障碍中解放出来,这可以帮助推动 web 把放在点击、浏览、点赞和关注上的焦点转移到证据、数据以及真实性上面。制药公司显然有动力实现这一目标,所以才会有越来越多的初创企业用人工智能来识别潜在的药物目标——但我相信公众、政府和任何用谷歌的人,为了结果的可信性和节省时间,可能都会愿意弃用免费的搜索。世界迫切需要这样一个系统,而且马上就要。


译者:boxi。