阅读:3001回复:0
生物医学语言由于其特定表达的含量很高例如测量单位、物质名称或字母数字代码,在自动处理时带来了不可忽视的困难。 这是一个耗费时间和精力的项目,涉及不同领域的专业人士,需要大量投资。然而,考虑到它可以带来的长期好处,将最新的自然语言处理(NLP)技术应用于以文本形式存储的临床数据是许多医疗保健实体毫不犹豫地应对的挑战。 医学信息处理的重要性在于,一旦克服了最初的文本处理阶段,添加分析层的可能性是无限的: 检测指定实体,例如医院或药品, 检测基因等医学实体, 疾病或症状, 标记因果关系... 除了上述之外,还有许多其他智能流程可以优化和促进专业人员的工作。正如我们将在下面看到的,为了实现这些目标,必须有一个适合医学领域特殊性的语言分析工具。 语料库作为临床叙述的起点 医学术语任何语言 手机号码数据 处理项目的起点始终是语料库:一组必须完整、有代表性、随机且平衡的文本。 在医疗领域,获得满足这些要求的语料库已经成为首要困难,因为医院中心保存的临床记录并不总是准备好作为 NLP 项目的基础。 尽管是计算机化记录,但可能会出现获取信息或格式的技术问题,一旦解决,临床病例必须匿名以保护患者的隐私。 最后,在大多数情况下,我们获得的是非结构化信息,由医生用自然语言编写,不具备包含在数据库中的必要格式。因此,主要方法论包括对文本进行语言分析的三个基本层面。 临床叙述处理方法的各个阶段 在自然语言处理中,有三个初始阶段,稍后将允许添加更高层次的语言分析: 第 1 阶段:将临床文本分割成句子 处理文本意味着在第一阶段将其分割成句子:通过规则使语言分析工具知道句子的开头和结尾位置,从而使其将某些字符识别为短语终结符,例如句号。 然而,可能会出现不可预见的情况:有时这些字符并不能清楚地标记句子的结尾,而可能是首字母缩略词或缩写词的结尾,因此需要找到语言标准来区分某些情况和其他情况。一个模棱两可的例子可能如下,我们无法知道句号是否标志着句子的结束或者是否界定缩写。 并根据SN纠正酸中毒尽管患者没有表现出[…]的迹象 第 2 阶段:分割词汇单元(单词和医学术语) 同样的情况也可能发生在第二阶段,即对单词进行分割,通常称为标记化:当涉及到承认多个文字或包含词缀(反-)的技术细节时,获得区分单词开头和结尾的工具变得相当复杂。逆转录病毒/抗逆转录病毒),当我们面对由连字符连接的两个单词或当我们发现字母数字表达式作为符号或代码时:淋巴细胞的出现浓度首先开了抗焦虑抗抑郁药为了解决这些情况,决策过程是必要的,有时需要医学专家的协助:“CD4/CD8”可以表示单个实体,或者相反,被视为两个单独的实体。表达是如此,其中括号可以与术语“Ca”分开处理或附加到术语对于用连字符书写的单词,如果我们稍后要使用语料库进行高级搜索,我们可能会对将它们视为有区别的词汇单元感兴趣。 第阶段:单词和医学术语的语法标记 一旦克服了前两个阶段并获得了针对每种情况具有有效标准的分段文本,我们将面临第三阶段,也是最复杂的:正确标记每个单词或标记的语法类别和形态特征。 |
|