论文阅读 AugESC

Title: Large-scale Data Augmentation for Emotional Support Conversation with Pre-trained Language Models

研究开放式对话数据增强,采用大语言模型 GPT-3 拓展了 ESConv 数据集大小

论文速览

Abstract

  • 利用LLM进行数据增强,使用公开的对话帖子触发各种主题的对话

Introduction

  • 目前工作的缺陷
    • 成本高、耗时长
    • 预算限制,所收集的对话规模小,主题少
  • 本文主要贡献
    • 关键发现
    • 使用 GPT-J 和公开对话帖子触发各种主题的对话
    • 构建机器增强数据集AUGES,具有更广泛和多样化的主题覆盖范围,可以提供更有效的情感支持
  • 预训练模型
  • 预训练模型的数据增强

Key Findings

  • 语言模型优于对话模型
    • 语言模型存储了从大规模训练语料库中学习到的更丰富的知识,有助于更好地泛化到各种对话主题
    • 与会话模型 BlenderBot 相比,gpt生成的对话具有更好的对话连贯性和一致性
  • 语言模型比交互式仿真更适合开放式对话数据增强
  • 提示GPT不如微调GPT模型
    • 提示型GPT-3生成可控性差
    • 只有微调才能掌握任务场景和所需特征
  • 少样本(Few-shot)微调导致更好的泛化和更高的多样性
    • 保持语言模型的内在知识
    • 增加调优样本或训练步骤会导致对域外主题的泛化能力差
    • 在大规模自动数据增强的帮助下,训练对话模型可能只需要少量手动策划的对话样本
  • 信息性查询(第一个对话帖子)是触发主题对话的必要条件
    • 泛型和无信息的查询往往导致离题和肤浅的对话

Methodology

  • 主干模型:GPT-3,微调后的GPT-J
  • 提示模板:对话场景+情感支持
  • 将第一个对话框作为触发查询,模型生成后续的对话
  • 不采用Prompt提示,使用ESConv微调GPT-J
  • 触发Query
    • 数据来源:EmpatheticDialogues(移情对话数据集)Reddit(心理健康相关的帖子)
    • 保留带有负面情绪的Query
  • 过滤结果,删除非法对话

AUGESC

相比ESConv对话轮次更少,内容更长。语料库规模的扩大导致唯一二元分词的数量

  • ESConv中的对话话题与数据收集时期(如covid, pandemic, christmas)密切相关
  • AUGESC-ED 涵盖了更多关于日常生活的主题(例如,汽车、狗、房子、邻居)
  • AUGESC-Reddit 涵盖了关于心理健康的主题(例如,抑郁、焦虑、治疗师)

Quality Evaluation

在信息一致性、话题一致性和对话基础等方面存在问题

Interactive Evaluation

AUGESC是对ESConv的一种补充,用AUGESC+ESConv训练出来的模型表现优于只使用ESConv的模型

Conclusion

AUGESC能够显著增强对话模型提供情感支持的能力