论文阅读 HEAL

发表于 2023-09-24 更新于 2024-09-17 分类于读论文

Title: A Knowledge Graph for Distress Management Conversations

论文速览

神经网络架构模型缺乏可控性和黑箱性质，导致其并不可靠
使用常识推理和知识图结构表示，可以生成适合的、可预测的、多策略的回应
相关工作
- ConceptNet、ATOMIC主要是通过捕获事实知识，在开放对话中嵌入常识推理辅助对话，不适用于移情对话
本文，通过子Reddit精心选择的对压力事件叙述和回应，生成了一个压力对话管理知识图谱HEAL
- 五类节点：压力源、期望、回应类型、反馈类型、情感状态
- 可以准确描述以痛苦为导向对话的潜在背景，使对话模型可以检索到更具体的上下文响应。提取响应会导致的反馈类型和是否能达到期望等信息，从而产生更为合适的反应

数据集管理
- 采用reddit数据集，通过Pushshift API，收集和处理8个子reddit对话主题：mentalhealthsupport、offmychest、sad、anxietyhelp、depression、suicidewatch、depressed、depressionhelp
- 数据预处理
概要
- 针对过长而超出预训练语言模型输入上限的对话，本文采用SMMRY摘要算法保留叙事本质
凝聚聚类
- 自动聚类：区分对话中的压力源、期望、响应和反馈类型
- 凝聚聚类法：递归地合并增加最小链接距离的簇对
- 链接距离：对SentenceBERT生成的embedding使用余弦相似度计算
定义压力源
- 每个阈值计算了各种聚类质量指标，结果显示以0.85的相似度阈值区分压力源最合适，将压力源中的4.7%分为了4363个类。
- 将聚类结果按照TF-IDF建模，可以明显区分压力源，表明聚类结果的可靠性。
期望、回复、反馈类型
- 提取带有❓的句子作为问题，以此问题提取相关的响应和反馈。使用NLTK分离响应和反馈中的单个对话，方便后续对其进行单一种类的聚类。
- 聚类方法与压力源一致，每个集群至少有两个不同的集群元素。
情感状态建模
- 使用Pu提出的基于BERT的情感分类器，将每一个簇与某一情感状态相关联，共有41种情感状态。先将每一个簇下的每个文本进行分类，再按照情感出现次数和分类置信度排序，选取最相关的情感状态。

HEAL：利用Reddit上约1M个与痛苦相关的对话得出的知识图谱。在不同类型的压力源、说话者期望、求助者反应和求助者反馈类型之间形成联系，同时将每个节点与41种情感状态中的一种联系起来