论文阅读 DQ-HGAN
Title: A heterogeneous graph attention network based deep Q-learning for emotional support conversation generation
论文速览
Abstract
- 关注的问题
- 动态建模对用户状态,包含个体的意图和情感
- 综合各类因素选择最合适的支持策略
- 提出的方法【基于异构图注意力网络的深度Q-learning情感支持对话生成】
- 为了捕获用户意图、情感和历史对话之间的交互关系,基于意图词典和情感分类器,构建了异构图注意力网络
- 采用基于DQN的最优响应策略以指导响应生成,优于传统的基于规则或启发式方法
Introduction
- 目前研究
- ESC任务要求能够确定求助者的心理意图和情绪状态,以便提供适当的支持。因此整合意图识别和情感识别对于提高情感支持对话的质量至关重要,且目前的方法对用户状态建模不充分。
- 关注的问题
- 建模用户状态
- 选择最优策略,以产生有效的保障响应
- 提出的方法
- 设计了基于注意力的异构图网络,与用户的意图、情感和历史对话交互,可以有效地捕获和建模图中不同类型的节点和边
- 构建意图词典和情感分类器来捕捉求助者在语境中的细微情感表达
- DQN算法对用户未来反馈的期望值进行估计,帮助系统选择获得最优长期值的策略。其允许系统从用户的反馈中学习,调整其策略,以提供最有效的支持响应。
- 主要贡献
- 提出了一种新的方法DQ-HGAN,将意图和情感识别与策略生成相结合,以提高情感支持对话系统的质量和个性化
- 构建意图词典和情感分类器,捕捉求助者在语境中的细微情感表达并跟踪其状态
- 设计了一种基于注意力机制的异构图网络,与用户的意图、情感和历史对话进行交互,并选择最优的支持策略以生成有效的支持响应
- ESC生成中使用ESC生成中使用强化学习,具体来说,使用DQN算法(Deep Q-Network)估计用户未来反馈的期望值,动态调整策略以提供最有效的支持响应
Related Work
- 对话中的意图和情感识别【在模型中融合了“意图”这个特征】
- 多头注意力机制
- 多头注意力机制来捕捉用户的意图和情感。缺点:缺乏有效捕捉用户细微情感表达的能力
- 使用预训练模型,增强PLM对话相关性,识别对话意图、推断对话情感。缺点:不是专门为ESC任务定制的,性能差
- 词典
- 词典包含特定意图或情感相关的词汇和短语,利用基于规则的算法将context与意图词典进行匹配,并分配相应的意图标签。缺点:只将单个单词与标签匹配,可能会忽略整个句子的意图或情感含义
- 多头注意力机制
- 图建模【捕获会话系统中用户意图、情感和对话历史之间的复杂关系】
- 同构图【忽略了用户意图和情感的异构性】
- GAT 图注意力网络,利用自注意力机制来捕获对话图中意图和情感节点之间的交互
- GCN 图卷积网络,利用图结构在节点之间传播信息,并捕获对话数据中的上下文依赖
- 异构图注意力网络是专为表示图中不同类型的节点和边而设计的,它擅长对不同的节点类型进行建模,如用户话语、系统响应、情感状态和意图,从而更全面地了解用户的情感状态;还擅长捕捉不同类型的边,包括顺序依赖、自依赖和状态依赖,从而能够更准确地表示用户的情感状态。此外,它还包含了一种注意力机制来进行重要性加权,允许它在聚合过程中专注于最相关的信息,从而更全面地了解用户的状态。
- 同构图【忽略了用户意图和情感的异构性】
- 策略选择
- 基于规则或启发式方法
- 强化学习方法(如:Q-learning)
- 采用DQN估计不同对话动作的期望值,并学习了一种最大化该值的策略。从用户反馈中学习,并生成更有吸引力和信息量的响应
- 响应生成
- 目前流行的Encoder-Decoder模型往往专注于根据对话历史生成回复,而没有考虑用户的意图、情感以及合适的支持策略
Preliminaries
- ESConv:标记对话,并将其转换为词嵌入,以将其输入到模型中
- COMET:使用COMET初始化模型的词嵌入,并在ESConv数据集上进行微调,以提高其构建意图词典的有效性
- ATOMIC:得到意图或目的(xIntent)
- NRC VAD 词典:得到情感词典,每个单词对应的效价-觉醒-支配(Valence-Arousal-Dominance)
- 问题定义:上下文+策略+Query =>响应Yt。最优策略基于当前状态和期望的长期回报(通过Q-learning预测)
Method
多源编码器
-
transformer编码器(TransformerEncoder)
- ht = TransformerEncoder(Ht)
-
意图词典(COMET):通过对ATOMIC 微调,同去意图关键词,构建意图词典(意图关键词,对应的词嵌入)
- $$g_{t}=TransformerEncoder\left(\sum_{w_{i}\in\mathscr{F}}\operatorname{softmax}\left(c_{i}^{T} h_{t}\right)c_{i}\right) $$
-
情感分类器(NRC VAD词典)
- $$e_{t}=\text{TransformerEncoder}\left(\sum_{w_{k} \in \mathscr{Z}}\operatorname{softmax}\left(z_{k}^{T} h_{t}\right) g_{t}\right) \text { }$$
基于异构图的用户状态跟踪
DQN强化学习
响应生成解码器
Experiments
Conclusion