当前位置:主页 > Q泰生活 >厌倦烦闷的文献回顾吗?交给AI吧! > 正文

厌倦烦闷的文献回顾吗?交给AI吧!

发布:2020-06-22 热度:348℃


厭倦煩悶的文獻回顧嗎?交給AI吧!

在这资讯爆炸的时代,研究人员也备受困扰。据估计,全球每年产生约一百万篇科学研究文献,相当于每 30 秒发表一篇。如此数量,各领域的研究人员需要以年为单位的时间才能消化,早已超过能力所及,人工智慧又该如何挺身而出?

科研文献检索

在网际网路风行之前,研究人员搜寻论文的方法只能从同事、订阅的期刊或付费资料库中获得,再由参考文献中探索研究主题与範围。如果研究人员找到一篇认为重要的文献,必须付费取得或向作者索取,不仅费用可观,更是旷日废时。2008 年 11 月 18 日,Google推出Scholar搜寻功能,研究人员以关键字即可取得相关文献的摘要,甚至全文。即使十年后的今天,约六成的科学家仍表示有使用 Google Scholar的习惯。

只是,传统文献搜寻引擎,如Google Scholar或以生医为主的PubMed,其搜寻结果依然庞大,除在短时间难以消化外,也忽略了许多在科学研究中很重要的因素,例如在这个领域中重要的科学家、研究数据、文献所提供的假设和结论等。如果搜寻结果能包含这些结果,势必可以大幅减少研究人员的负担,提高文献调查的效率。2013 年开始,支援文献搜寻与整合的AI如雨后春笋般涌现,协助研究人员初步分析和筛选文献。以下便依照出现时间的先后,简单介绍。

元老级Semantic Scholar

Semantic Scholar ,2015 年 11月2日由位于美国华盛顿州西雅图的艾伦人工智慧学院 (Allen Institute for Artificial Intelligence)发布,与微软于2016年所开发的Microsoft Academic,可说是AI在科研文献应用的滥觞。虽然在外观与使用介面上仿效Google Scholar,但除了能提供更多资讯,如人气、数据集、研究方法外,亦会显示文献中,或因作者所提及的理论或说法早已广为学界接受,而未明示出处的引用来源。

系统在利用自然语言处理 (Nature Language Process,NLP)技术由文献中撷取相关讯息的同时,也会建立不同文献间不甚明显的关联,例如在「电脑科学」领域中与另一领域「演算生物学」相关的研究方法与成果,甚至指出特定领域中待解决的问题与重要假说。目前,其所分析的文献虽着重于计算机科学与神经科学领域,但预计2017年跨足生物医学。

着重实验数据的Source Data

来自德国海德堡欧洲分子生物学组织(European Molecular Biology Organization,EMBO)的SourceData,则着重文献图表背后的实验方法与数据,以便同侪搜寻与仔细审视。例如当有人搜寻「胰岛素是否会影响葡萄糖?」时,系统会回传与「胰岛素对葡萄糖之影响」相关的量化研究。

只是Source Data依然处于早期开发阶段,文献图表与图说中所提及如分子、基因或蛋白质等相关生医名词,是在文献编辑阶段透过人力标记与分类,目前也只含括1,000篇文献、两万笔实验的资料。研究团队希望在未来这些工作也能由机器透过机器学习完成,并将触角延伸至神经科学。

图像化的Iris.ai

一般文献搜索AI是透过出现在同一句子中的关键字产生「知识图谱」(knowledge graph),以拉起不同文献间的连结。例如当某一药物与特定蛋白被写在同一语句中时,AI便会判定两者有关连。总部位于德国柏林的Iris.ai, 则採用了不同的方法:与CORE资料库(一收录1亿3400万笔开放取用论文的可搜寻式资料库)连结,藉由文献中的用字与频率将其依主题分类。

使用者可以输入 300-500 字的简短叙述,或特定文章的URL来检索相关文献。搜寻结果会以图像化的方式呈现。Project Aiur 则是 Iris.ai 团队新开发的模组,可以多方面检视一篇论文,并与其他文献比较,以验证其中假设。

注重各项指标的Dimensions

科学研究人员的另一种选择,则是对多种指标多加着墨的Dimensions.ai 。于2018 年发布,提供以下七种指标以量化文献的重要性。

这些新式搜寻引擎,Semantic Scholar与Microsoft Academic 完全免费,Iris.ai 与 Dimentions.ai则须付费使用进阶功能。其中虽仍有许多缺陷待排除,一时也不至于撼动 Google Scholar 的主导地位,但已能协助学者在研究初期迅速了解特定领域及研究进展,缩短耗费在文献回顾的时间与精力。随着相关技术的进展,有朝一日,或能协助研究人员从中识别出有用的假设与实验设计,彻底颠覆现有科学研究的操作模式。

编译来源

A. Extance, “How AI technology can tame the scientific literature”, Nature 561, 273-274, 2018.

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)


相关推荐