回到家

自由文本综合征的诊断与治疗

作者:Victor Lee

2017年11月7日上午10:13

概述与诊断

自由文本综合症(FTS)是一种影响大量医疗IT系统的慢性疾病。临床特征包括在程序报告、临床记录和其他类型的文档或数据字段中存在非结构化数据。虽然FTS在目视检查中很明显,但最终的诊断是通过不成功的尝试来利用非结构化数据进行报告、分析、决策支持或其他计算用例。

在过去十年中,由于电子健康记录的采用激增,FTS的患病率也随之增加有意义的使用2009年美国复苏和再投资法案.FTS的病因主要是由于大量临床工作流程涉及自由文本数据输入,但也有其他因素,如将数据导入健康IT系统的工作流程,特别是当互操作性解决方案将结构化内容简化为自由文本时,这是最小的共同点。一个报告估计卫生IT系统中的免费文本量为80%,并且还在不断增长。

治疗,第1部分:早期一般方法

历史上治疗FTS的方法包括使用ICDsnom CTLOINCRxNorm,以及其他标准术语,以编纂诊断、实验室结果、药物和其他类型的健康信息。尽管这些术语可能包含大量结构化和编纂的术语,但在缺乏结构和可计算含义的信息量方面仍然存在很大的差距。此外,虽然编纂是有意义的,但这种处理方法的有效性因广泛使用本地(“本土”)术语而降低,从而为分析和决策支持的规范化数据带来了额外的挑战。虽然可以通过概念映射将本地术语与标准术语规范化,但这可能是另一篇博客文章的主题。在任何情况下,有时都不可能用标准或本地术语对整个患者记录进行编码。

FTS的另一种处理方法是结构化文档,它对某些用例(例如,某些结构化笔记和表单)工作得很好,但由于可用性和效率问题,可能会给其他用例(例如,听写的报告)带来不切实际的时间负担和最小的投资回报。这是公认的医生感到负担过重的文件要求的规则和条例,并寻求行政简化。例如,研究由Arndt et al (2017)Sinsky et al (2016)量化初级保健医生的时间分配,他们发现医生花在电子病历前的时间比花在病人身上的时间要多。因此,尽管在许多情况下非常有价值,但将结构化文档与当今可用的解决方案强加于所有临床工作流程是不切实际的。话虽如此,Clinical Arc乐动体育平台hitecture正在向市场推出名为ClinEvolve的下一代解决方案,该解决方案解决了大多数商业临床文档解决方案中存在的缺陷,使临床医生能够在今天花费的一小部分时间内捕获结构化文档……但这也是一个单独的博客文章的主题。

治疗FTS的其他努力包括自然语言处理(NLP)技术。虽然具体的方法各不相同,但一般的方法都是试图理解非结构化文本的整个主体——每个单词、句子、段落等。如果一个人的目标只是从自由文本中提取某些知识片段,那么NLP通常是多余的。此外,众所周知,NLP不能开箱即用,也不需要开箱即用适应不同的卫生保健环境在他们能够产生期望的结果之前。因此,根据用例的不同,NLP解决方案通常是过于笨重、缓慢和昂贵的FTS治疗方法。


治疗,第2部分:精准医疗方法

治疗FTS的一种新方法是临床语言处理,临床建筑学称之为自由文本的语义解释(乐动体育平台筛选).顾名思义,SIFT用于从自由文本中提取知识,并通过与标准术语的联系赋予语义,但它与NLP在以下几个重要方面有所不同:

  • 性能: SIFT比NLP更快,因为它有针对性地提取知识
  • 焦点SIFT针对特定的概念,并提供比NLP更高程度的确定性结果
  • 控制: SIFT精确地找到感兴趣的项目(例如,ICD, CPT, RxNorm, SNOMED CT概念),并且产生比NLP更少的噪声
  • 实现SIFT比NLP更快地建立起来
  • 设计SIFT是用“数组”和深度语义知识设计的,而不是使用传统的NLP技术堆栈——毕竟,临床语言不是“自然的”,应该有自己的针对性、智能化和定制化的方法

SIFT侧重于识别自由文本中的概念(以及相关的值),并将这些概念与标准术语中的术语联系起来。当需要加强决策、结果和绩效测量、报告和成本分析时,关键信息的转换是非常有价值的。由于临床术语的结构和关系,这些好处都是可能的。术语提供了解释自由文本中发现的语义的知识。

为了实现这一目标,SIFT利用了一组丰富的医疗保健元数据,这些元数据被精细地调整到特定的领域,如诊断、过程、药物、实验室结果、观察等。当自由文本被解析并与此元数据对齐时,就可以深入理解其含义,以便将其与最合适的标准术语相关联。例如,药物领域具有某些特征,如成分、剂型、剂量强度、剂量单位、途径等。实验室领域具有分析物、标本来源、刻度、方法等特征。将文本分解为这些组成特征,可以对非结构化文本进行细粒度的比较,并使其与标准参考术语的文本描述保持一致。

NLP以同样的方式处理非结构化文本,而不考虑用户的意图——这类似于给病人开氯吡格雷,但不知道这种药物的代谢情况如何,也不知道另一种抗血栓药物是否会是更好的选择。相比之下,SIFT采用了一种有目的和有针对性的知识提取方法,因为有不同的SIFT阵列被设计用于查找非结构化文本中的ICD-10、CPT、RxNorm、SNOMED CT或其他概念。进一步类推,SIFT类似于FTS的精确医疗解决方案。

为了说明SIFT用例,假设一家医疗保健组织想要识别患者,以便将其登记到心力衰竭疾病管理计划中。显然,第一步可能是查询具有一组特定标准术语和代码的患者的临床数据存储库,这些术语和代码汇总为心力衰竭的概念。然而,一小部分患者有未记录的疾病是很常见的。缩小这一差距的一种方法是根据听写超声心动图转录的左心室射血分数(LVEF)推断心力衰竭的存在。SIFT可以找到LVEF并返回SNOMED CT代码以及LVEF值和度量单位。同时,对左心室壁厚度或主动脉根部尺寸进行编码可能对本用例没有太大帮助,并且超出了范围。

图:左心室射血分数SNOMED CT编码。资料来源:美国医学协会,综合健康模式倡议。URL: https://ama-ihmi.org/groups/ama-ihm-community(需要注册)URL: https://ama-ihmi.org/groups/ama-ihm-community (需要注册)

同样的理念也适用于未记录的慢性阻塞性肺疾病(COPD)的检测。了解患者支气管扩张剂后FEV1/FVC比值是非常有用的,该比值是通过肺功能试验(PFT)获得的,用于诊断COPD,但不幸的是,通常隐藏在非结构化的非编码文本中。SIFT可以识别支气管扩张剂后的FEV1/FVC比率,同时不试图从其他PFT结果(如剩余容积、最大自主通气或其他对手头用例不立即有用的观察结果)中得出意义。

结论

总之,FTS是一种非常普遍的慢性疾病,很容易诊断,但历史上一直具有挑战性的治疗。较新的技术,如SIFT,侧重于有针对性的知识提取,可以从自由文本中识别概念和值,并将其与标准术语和代码联系起来。这种方法为希望利用现有数据改善结果和患者护理整体价值的组织提供了分析和临床决策支持。