回到家

什么是医疗保健的自然语言?

作者:查理·哈普

2016年2月17日上午9:22

医疗保健的自然语言

五年前,临床架构有一个客户打电乐动体育平台话给我们,问了以下关于我们的映射引擎的问题:“一个术语可以有多大?”

“你想要多大?”我回答道。

“我们认为5000字节就够了。”客户说。

事实证明,他们实际上是在尝试使用我们的地图引擎来确定他们从医院获得的微生物学报告中的文本是否提到了MRSA有机体。我们告诉他们使用映射引擎并不是一个好主意,但是我们想知道他们到底想做什么,这样我们就可以看看我们是否可以帮助他们。他们分享的用例让我们意识到,我们的行业正试图用一套完全错误的工具来解决问题。

概述的用例都是关于从非结构化文本中提取可用信息。所讨论的客户与一家拥有相当强大的工具集的大型技术供应商有合作关系,所以我问了这个过程中的第一个无辜的问题……“为什么不使用megacorps的NLP能力?”

医疗保健中传统NLP的问题

简短的回答是,他们尝试过,但失败了。为什么失败了?原因如下:

速度

NLP处理速度太慢,在尝试处理大量事务时成为瓶颈。

输出

NLP过程实际上并没有返回任何有用的东西。通常,输出是包含UMLS或SNOMED CT概念的复杂XML结构,这些概念基本上试图编纂每个句子的含义。这超出了他们试图解决的用例。

不自然的

NLP过程是为支持自然语言而设计的。客户所纠结的信息一点也不自然。无论是实验报告、微报告、程序笔记还是遇到笔记,他们根本不遵守英语语法。

黑盒

NLP过程不是可以定制或调整的东西。这是一个密封的黑盒子,必须送回供应商进行“调整”。当它被调整时,通常会出现意想不到的后果,导致它不得不回到供应商那里,等等。

培训要求

NLP过程需要训练,因为它期望“自然语言”,所以有很多训练要做。结果是,为了训练NLP过程,最终还是由人类来做这项工作。

的旅程

我们的结论是,现有的NLP解决方案并不适用于许多医疗保健情况。当遇到传统方法无法解决的用例时,Clinical Architecture会研究这些方法,试图确定它们不起作用的原因。乐动体育平台

NLP简史

NLP起源于艾伦·图灵在一篇题为《计算机器与智能》的文章中闪现的光芒。从20世纪60年代到80年代末,自然语言处理科学取得了一些进展。早期的重点是机器驱动的语言翻译。在20世纪70年代,程序员开始创建概念本体,旨在为计算机提供一个理解现实世界概念的框架。在此期间,许多NLP系统依赖于复杂的硬编码规则。在20世纪80年代后期,由于计算能力的稳步增长和语言学方法的一些变化,转向了机器学习算法。接下来是语法解析、词性标注和NLP中的概率模型。今天,商业上和公共领域的许多NLP引擎都利用了一组通用的NLP库和文本语料库。这意味着他们中的许多人在本质上都有同样的问题。这也解释了为什么有那么多人在外面吵着要引起注意。

这并不意味着是NLP的全面历史,而是一个快照,照亮了为什么NLP失败的医疗保健。其根源在于,NLP本质上是一个专注于基于语法的人类话语的人工智能研究项目。

筛选非结构化文本

基于我们客户的问题和传统NLP的局限性,我们决定建立一些新的东西。我们称之为我们的方法年代emanticnterpretation的F稀土元素Text (SIFT),设计原则如下:

  • 它必须很快。
  • 它必须是能够集中于一组特定概念以满足目标需求的东西。
  • 它一定不需要一个程序员团队来让它工作。
  • 它必须是被构造为信息的东西——而不是代码。因此,主题专家可以构建一个,测试它并部署它。
  • 它必须由最终用户进行调整,以便他们可以进行调整以获得他们想要的结果。
  • 它必须是语法不可知论的。它需要应对医疗保健文本样式无休止变化的粗糙地形。
  • 它必须可重复使用。您应该能够构建可集成到处理堆栈中的可移植理解单元。
  • 它必须能够以应用程序可以立即使用和处理的格式返回概念和值。
  • 它必须能够将结果与原始文本关联起来,以便其结果可以被人类审查和理解。

这些是我们开始时遵循的原则,我们花了近三年的时间进行开发,并在内测中进行了两年的测试。结果是一些新奇的东西,我们非常自豪。第一个用于医疗保健的非自然语言处理引擎,建立在我们行业中最复杂的企业术语平台上。

我们将在HIMSS16上演示SIFT,并展示客户如何定制SIFT工具来满足特定的用例。我们还将提供基于云的SIFT服务、用于药物调和、心血管和肺部观察、微生物、人口统计学和临床文件改进的SIFT api。

有太多的信息锁定在非结构化的文本,你放弃它。如果传统的NLP在过去未能满足您的期望,那么您应该在HIMSS16期间停留在721展位,看看当专门为解决您的问题而构建产品时会发生什么。如果你不打算参加HIMSS,或者等不及了,点击这个链接或者给我们一个电话,我们很乐意给你一个演示。

我知道,我知道……”查理!你通常不会在你的博客里卖东西给我们!”这是真的,而且是故意的。在这种情况下,我觉得SIFT是术语管理拼图的重要组成部分,我想确保,在您放弃尝试利用您的免费文本资产之前,您检查了我的团队构建的内容。我想你不会失望的。