Transactions of the Association for Computational Linguistics

Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree-Structured Topic Guidance

M. Isonuma, J. Mori, D. Bollegala, and I. Sakata


This paper presents a novel unsupervised abstractive summarization method for opinionated texts.
While the basic variational autoencoder-based models assume a unimodal Gaussian prior for the latent code of sentences, we alternate it with a \emph{recursive Gaussian mixture}, where each mixture component corresponds to the latent code of a topic sentence and is mixed by a tree-structured topic distribution.
By decoding each Gaussian component, we generate sentences with \emph{tree-structured topic guidance}, where the root sentence conveys generic content, and the leaf sentences describe specific topics.
Experimental results demonstrate that the generated topic sentences are appropriate as a summary of opinionated texts, which are more informative and cover more input contents than those generated by the recent unsupervised summarization model (Bražinskas et al., 2020).
Furthermore, we demonstrate that the variance of latent Gaussians represents the granularity of sentences, analogous to Gaussian word embedding (Vilnis and McCallum, 2015).

本研究は商品レビューなどの意見文書を対象にした生成型教師なし要約手法を提案する。生成型教師なし要約では、参照要約なしに要約文の潜在表現をいかに獲得するかが鍵となる。そこで本研究では、根は一般的なトピックを、葉に近づくにつれより詳細なトピックを持つトピック木を導入し、意見文書の要約の各文が木構造上のトピックに対応することに着目した。文書から木構造上のトピックを推定し、トピック毎に要約文を生成することで、意見文書の要約が教師なしに得られることを示す。要約生成評価実験において、提案法は最新の教師なし要約生成手法と競合する性能を持つことを示した。また、根の文の潜在分布は分散が大きく一般的な文が生成される一方、葉に近づくにつれ分散が小さくなり具体的な文が生成されるといった特性を確認した。これは「動物」といったタクソノミー上の上位語の潜在分布は分散が大きく、「犬」や「猫」といった下位語は分散が小さくなるという、Gaussian word embeddingに類似する特性であり、質問応答や対話生成などの文の詳細度合いを考慮する他タスクにも有用な知見である。