论文阅读 AugESC
Title: Large-scale Data Augmentation for Emotional Support Conversation with Pre-trained Language Models
研究开放式对话数据增强,采用大语言模型 GPT-3 拓展了 ESConv 数据集大小
论文速览
Abstract
- 利用LLM进行数据增强,使用公开的对话帖子触发各种主题的对话
Introduction
- 目前工作的缺陷
- 成本高、耗时长
- 预算限制,所收集的对话规模小,主题少
- 本文主要贡献
- 关键发现
- 使用 GPT-J 和公开对话帖子触发各种主题的对话
- 构建机器增强数据集AUGES,具有更广泛和多样化的主题覆盖范围,可以提供更有效的情感支持
Related Work
- 预训练模型
- 预训练模型的数据增强
Key Findings
- 语言模型优于对话模型
- 语言模型存储了从大规模训练语料库中学习到的更丰富的知识,有助于更好地泛化到各种对话主题
- 与会话模型 BlenderBot 相比,gpt生成的对话具有更好的对话连贯性和一致性
- 语言模型比交互式仿真更适合开放式对话数据增强
- 提示GPT不如微调GPT模型
- 提示型GPT-3生成可控性差
- 只有微调才能掌握任务场景和所需特征
- 少样本(Few-shot)微调导致更好的泛化和更高的多样性
- 保持语言模型的内在知识
- 增加调优样本或训练步骤会导致对域外主题的泛化能力差
- 在大规模自动数据增强的帮助下,训练对话模型可能只需要少量手动策划的对话样本
- 信息性查询(第一个对话帖子)是触发主题对话的必要条件
- 泛型和无信息的查询往往导致离题和肤浅的对话
Methodology
- 主干模型:GPT-3,微调后的GPT-J
- 提示模板:对话场景+情感支持
- 将第一个对话框作为触发查询,模型生成后续的对话
- 不采用Prompt提示,使用ESConv微调GPT-J
- 触发Query
- 数据来源:EmpatheticDialogues(移情对话数据集)Reddit(心理健康相关的帖子)
- 保留带有负面情绪的Query
- 过滤结果,删除非法对话
AUGESC
相比ESConv对话轮次更少,内容更长。语料库规模的扩大导致唯一二元分词的数量
- ESConv中的对话话题与数据收集时期(如covid, pandemic, christmas)密切相关
- AUGESC-ED 涵盖了更多关于日常生活的主题(例如,汽车、狗、房子、邻居)
- AUGESC-Reddit 涵盖了关于心理健康的主题(例如,抑郁、焦虑、治疗师)
Quality Evaluation
在信息一致性、话题一致性和对话基础等方面存在问题
Interactive Evaluation
AUGESC是对ESConv的一种补充,用AUGESC+ESConv训练出来的模型表现优于只使用ESConv的模型
Conclusion
AUGESC能够显著增强对话模型提供情感支持的能力