論文翻訳: PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents

Takami Torao 2017年の論文 #NLP #PositionRank
  • このエントリーをはてなブックマークに追加

Corina Florescu and Cornelia Caragea
Computer Science and Engineering
University of North Texas, USA
CorinaFlorescu@my.unt.edu, ccaragea@unt.edu

Abstract

膨大で増加しつつあるオンライン学術データ量は知識の発見を強化する挑戦と機会の両方を表している。そのような挑戦の一つは、文書の内容を正確に記述でき、迅速な情報処理を容易にすることができるキーフレーズの小さな集合を文書から自動的に抽出することである。この論文では、単語の全ての出現位置からの情報をバイアス PageRank に取り込む、学術論文からのキーフレーズ抽出の教師なしモデルである PositionRank を提案する。我々のモデルはこのタスクに対する強いベースラインのみならず、単語の位置を考慮しない PageRank モデルに対する顕著なパフォーマンスの改善を得ている。具体的には、研究論文のいくつかのデータセットにおいて PositionRank は 29.09% という高い改善を達成している。

  1. Abstract
  2. 1 Introduction
  3. 2 Related Work
  4. 3 Proposal Model
    1. 3.1 PositionRank
      1. 3.1.1 Graph Construction
      2. 3.1.2 Position-Based PageRank
      3. 3.1.3 Forming Candidate Phrases
  5. 4 Experiments and Results [under construction]
    1. 4.1 Datasets and Evaluation Metrics
    2. 4.2 Results and Discussion
    3. 4.3 Overall Performance
    4. 4.4 Anecdotal Evidence
  6. 5 Conclusion and Future Work
  7. Acknowledgments
  8. References
  9. 翻訳抄

1 Introduction

現在の学術 Web (Scholarly Web) には数百万の科学文献が含まれている。例えば Google Scholar には一億件以上の文書が存在すると推定される。急速に成長しているこれらの学術文献集が知識発見に利点をもたらしている一方で、有益な情報を見つけることは非常に困難になっている。通常、文献に関連するキーフレーズは文書の高水準のトピック記述を提供し、効率的な情報処理を可能にする。さらに、キーフレーズは科学論文の要約、分類、レコメンド、クラスタリングおよび検索などの多くの自然言語処理と情報検索分野において豊富な情報源であることが示されている (Abu-Jbara と Radev, 2011; Qazvinian 他, 2010; Jones と Staveley, 1999; Zha, 2002; Zhang 他, 2004; Hammouda 他, 2005)。その重要性のためキーフレーズ抽出に対する多くのアプローチが教師あり、教師なしの 2 つの研究に沿って提案されている (Hasan と Ng, 2014, 2010)。

教師ありの研究ラインでは、キーフレーズ抽出は候補のフレーズが正 (すなはちキーフレーズ) または負 (すなはち非キーフレーズ) のいずれかに分類されるバイナリ分類問題として定式化される (Frank 他, 1999; Hulth, 2003)。様々な特徴集合と分類アルゴリズムが異なる抽出システムを生み出している。例えば Frank 他 (1999) は各フレーズの 2 つの特徴、つまりフレーズの TF-IDF と対象文書の先頭からの距離を抽出し、それらをナイーブベイズ分類器への入力として使用するシステムを開発した。教師ありのアプローチは教師なしよりも優れているが (Kim 他, 2013)、各研究分野で人の手による大きな注釈付きコーパスを必要とするため教師なしアプローチの設計に注目が集まっている。

教師なしの研究ラインでは、キーフレーズ抽出はランキング問題として提案されており、グラフベースのランキング技法が最先端技術と見られている (Hasan and Ng, 2014)。これらのグラフベースの技術はノードが単語に対応し、エッジが単語の関連付けパターンに対応し、各対象文書から単語グラフを構築する。ノードは PageRank (Mihalcea and Tarau, 2004; Liu 他, 2010) や HITS (Litvak and Last, 2008) などのグラフ中心性指標を用いてランク付けされ、上位のフレーズがキーフレーズとして返される。これらの導入以来、情報のモデリングを目的とした様々なタイプのグラフベースの拡張が多数提案されている。例えば Wan and Xiao (2008) は文書の IT-IDF ベクトル間のコサイン類似度を用いて計算されたテキスト類似文書に対応する対象文書のローカル近傍を組み込むモデルを提案した。Liu 他 (2010) は文書上に複数のトピックが存在していると仮定し、トピックのモデルを用いてこれらをトピック分類し、すべての主要トピックからキーフレーズを選択することを提案した。またキーフレーズはいくつかのトピックバイアス PageRank から得られたトピック固有スコアを集計することによってキーフレーズがランク付けされた。我々は教師なしのキーフレーズ抽出を改善するポテンシャルを持つ他の情報を活用できると考えている。

Factorizing Personalized Markov Chains for Next- Basket Recommendation by Steffen Rendle, Christoph Freudenthaler and Lars Schmidt-Thieme Recommender systems are an important component of many websites. Two of the most popular approaches are based on matrix factorization (MF) and Markov chains (MC). MF methods learn the general taste of a user by factorizing the matrix over observed user-item preferences. [...] we present a method bringing both approaches together. Our method is based on personalized transition graphs over underlying Markov chains . [...] our factorized personalized MC (FPMC) model subsumes both a common Markov chain and the normal matrix factorization model. [...] we introduce an adaption of the Bayesian Personalized Ranking (BPR) framework for sequential basket data. [...]

自動入力キーフレーズ: Basket Recommendation, Markov Chain, Matrix Factorization

Figure 1: Rendle 他 (2010) による WWW 論文のタイトルと概要、そして著者が入力した論文のキーフレーズ。赤いボールドは文書に対する代表的なキーフレーズを表す。

例えば、一般に学術領域では、キーフレーズは文書の先頭に近い部分で出現し、頻繁に出現する。Figure 1 は World Wide Web 会議で 2010 年度の最優秀論文賞を受けた論文を使ったこの行動を示す実例である。著者が入力したキーフレーズは図中に赤い太字で示している。この例では文書の非常に早い段階で (またそのタイトルにも) キーフレーズ "Markov chain" が出現しその頻度も高いことに注意。これより、単語の位置情報とその頻度を同時に利用することで、キーフレーズ抽出に対する効果的な教師なしアプローチを設計できないだろうか? 我々は研究論文をケーススタディとして具体的にこの問題に取り組んでいる。この抽出県級の結果は、デジタルライブラリでの文書インデクシングを助け、そして科学文書の編成、検索、収集、レコメンドの改善につながるだろう。研究論文からのキーフレーズ抽出の重要性は 2017 と 2010 のトピックに関する SemEval Shared Task によっても強調されている (Kim 他, 2010)。我々のコントリビューションは以下の通り:

  • 我々は PositionRank と呼ばれる教師なしグラフベースのモデルを提案する。このモデルは単語の全ての出現位置からの情報をバイアス PageRank に組み込み、後に研究論文でのスコアリングとランク付けに使用する。
  • 単語の全ての出現位置から情報を集める PositionRank が、単語の最初の出現位置のみを使用するモデルより優れていることを示す。
  • 我々は実験的に研究論文の 3 つのセットで PositionRank を評価し、キーワードの位置を考慮しない PageRank ベースのモデルに対して、キーフレーズ抽出に対する強力なベースラインと共に統計的に有意な改善を示す。

論文の残りは以下のように構成されている。関連する研究は次のセクションで要約する。PositionRank については 3 章で詳述する。次に、研究論文のデータセットと実験結果を 4 章に示す。最後に 5 章で結論を述べる。

キーフレーズ抽出のための様々な教師あり/教師なしアプローチが文献として提案されている (Hasan and Ng, 2014)。

教師ありアプローチでは「正しい」キーフレーズを持つ注釈付き文書を使用して、文書のキーフレーズとキーフレーズを区別するための分類器を訓練する。KEA (Frank 他, 1999) と GenEx (Turney, 2000) は最も重要な特徴であるフレーズの対象文書においての出現頻度と位置を使用する代表的な教師ありアプローチである。Hulth (2003) はフレーズの収集頻度と品詞タグのような語彙的および構文的特徴を bagging 手法とともに使用した。Nguyen and Ken (2007) は KEA を拡張して研究論文の別々の章に候補フレーズを配置し、フレーズの略語ステータスなどの機能を追加した。別の研究では、Medelyan ら (2009) が KEA を拡張して Wikipedia の情報を統合した。Lopez and Romary (2010) は構造的特徴 (文書の特定の章でのフレーズの存在など) と語彙の特徴 (WordNet や Wikipedia での候補フレーズの存在など) を含んでいる特徴の組み合わせで訓練した bagged decision tree を使用した。Chuang ら (2012) はテキスト内の記述用語を識別するために統計的および語彙的な特徴 (例えば TF-IDF や BM25, 品詞フィルタなど) のセットを組み込んだモデルを提案した。Caragea ら (2014a) は文書ネットワーク (引用ネットワークなど) で利用可能な情報に基づいて特徴を設計し教師ありフレームワークで従来の特徴を用いた。

教師なしアプローチでは TF-IDF やトピックの割合などの様々な指標を使用して単語をスコア付けし、それらを集約してフレーズのスコアを取得する (Barker and Cornacchia, 2000, Zhang 他, 2007, Liu 他, 2009)。TF-IDF に基づくランキングはその簡単さにもかかわらず実際にうまくゆくことが示されている (Hasan and Ng, 2014, 2010)。グラフによる順位付け方法および中心性の算出は教師なしのフレーズ抽出で最先端技術と考えられている。Mihalcea and Tarau (2004) は文書内の隣接単語から構築した単語グラフに PageRank を適用することでキーフレーズをスコアリングするための TextRank を提案した。Wan and Xiao (2008) は \(w \geq 2) の可変サイズウィンドウで共起する単語間に重み付きエッジを追加することで TextRank を SingleRank に拡張した。より正確な単語共起情報を算出するために、ExpandRank (Wan and Xiao, 2008) はテキスト的に類似した近隣文書を含む。Gollapalli and Caragea (2014) は ExpandRank を拡張して論文が他の論文を引用する引用ネットワークからの情報を統合した。

Lahiri ら (2014) はノードの次数やクラスタリング係数、近さなどの様々な中心性指標を使用して文書からキーフレーズを抽出した。Martinez-Roma ら (2016) は WordNet からの情報を使用してグラフ内の単語間の意味関係を充実させた。

教師なしのいくつかのアプローチでは、最初に候補単語をトピックにグループ化し、次に各トピックから 1 つの代表的なキーフレーズを抽出するなどの単語クラスタリング手法を活用する (Liu 他, 2009; Bougouin 他 2013)。Lui 他 (2010) はトピックでバイアスされた PageRank (Haveliwala, 2003) をキーフレーズ抽出に拡張した。特に、トピックモデルを使用して文書を複数のトピックに分解し、トピックごとに別々のトピックの PageRank を適用した。各トピックの PageRank スコアは文書のトピックによって返されたトピックの割合を重みとして使用して 1 つのスコアに結合される。

SemEval 2010 (El-Beltagy and Rafea, 2019) で最も優れたキーフレーズ抽出システムはキーフレーズらしくないフレーズを除外するために単語頻出度のような統計的観測値を使用した。より正確には、データから推定されたしきい値を使用してフレーズの出現頻度に対する閾値処理を適用する。次に候補フレーズは、単一単語に向かうバイアスを低減することを目的とした Boosting 係数と共に TF-IDF モデルを使用してランク付けされる。Danesh ら (2015) は TF-IDF スコアのような統計的ヒューリスティクスと文書中のフレーズの先頭の出現位置との組み合わせを用いて各フレーズの初期重みを算出した。フレーズとその初期重みは、キーフレーズ候補の最終的な順序を生成するグラフベースのアルゴリズムに組み込まれる。Le ら (2016) は、文書からキーフレーズを抽出するために名詞や形容詞以外の品詞タグで候補フレーズを考慮することが効果的であることを示した。Adar and Datta (2015) は科学文献から略語を採集してキーフレーズを抽出し、意味的な階層フレーズデータベースをを構築した。この計測にはグラフベースのモデルにおける単語間の関連性を測定するために単語埋め込みベクトルも用いられた (Wang ら, 2014)。教師ありと教師なしの両方で、上記の手法の多くが Hasan and Ng (2014) によってキーフレーズ抽出に関する ACL 調査で比較され分析された。

上記のアプローチとは対照的に、我々は単語またはフレーズの頻出度とそれらの文書内での位置の両方を取り込むことを目的とした PositionRank を提案する。文書中の単語の相対位置は教師ありフレーズ抽出 (Hulth, 2013; Zhang ら 2007) において非常に有効な特徴であることが示されているにもかかわらず、我々の観測範囲内では教師なしの方法で位置情報が使われたことはない。この論文の強力な contirbution は、単語が最初に出現する位置のみを使用する教師ありモデルとは異なり、単語が出現するすべての位置をうまく組み込んだ、位置でバイアスが付けられた PageRank モデルをデザインすることである。我々のモデルは全ての単語に一様分布を用いるのではなく、文書の前方で出現した単語に高い確率を割り当てる。

3 Proposal Model

この章ではグラフに基づいた完全な教師なしモデルである PositionRank について説明する。これは、単語のドキュメント内での位置とその出現頻度を同時に取り込んで、候補単語ごとにバイアスされた PageRank スコアを計算する。PageRank (Page 他, 1998) のようなグラフベースのランク付けアルゴリズムはグラフ全体から再帰的に計算されるグローバル情報を考慮しグラフ内の頂点の重要度を計測する。それぞれの単語に対しては、単語の出現するすべての位置からの情報を集約することによって重みを計算する。この重みは、各単語に異なる "preference" を割り当てるためにバイアス PageRank アルゴリズムに組み込まれる。

3.1 PositionRank

PositionRank アルゴリズムは 3 つの重要なステップを含んでいる: (1) 単語レベルでのグラフの構築、(2) Position バイアス PageRank の計算、そして (3) 候補フレーズの形成。これらの手順を以下で詳しく説明する。

3.1.1 Graph Construction

\(d\) をキーフレーズを抽出する対象文書とする。まず NLP Stanford Toolkit を使用して品詞フィルタを適用し、以前の研究 (Mihalcea and Tarau, 2004; Wan and Xiao, 2008) と同様に名詞と形容詞のみを候補単語として選択する。我々は品詞フィルタを通過する各ユニーク単語が \(G\) 内のノードに対応するように \(d\) に対する単語グラフ \(G = (V,E)\) を構築する。エッジ \((v_i,v_j) \in E \) の重みは \(d\) の \(w\) 個の連続したトークンウィンドウ内での 2 つの単語の共起数に基づいて計算される。グラフは有向グラフと無向グラフの両方で構成できることに注意。ただし Mihalcea と Tarau (2004) はテキストを表現するために使用されるグラフのタイプがキーフレーズ抽出のパフォーマンスに大きな影響を与えないことを示した。従ってこの論文では無向グラフを作成する。

3.1.2 Position-Based PageRank

数式上、上記のように構成された無向グラフを \(G\) とし、その隣接行列を \(M\) とする。ノード \(v_i\) と \(v_j\) との間にエッジが存在する場合、要素 \(m_{ij} \in M\) はエッジ \((v_i,v_j)\) の重みに設定され、エッジが存在しない場合は 0 に設定される。ノード \(v_i\) の PageRank スコアは \(v_i\) にリンクされているノード \(v_j\) の正規化スコアを合計することによって再帰的に計算される (後述)。

全ての \(v_i \in V\) に対する PageRank スコアのベクトルを \(S\) とする。\(S\) の初期値は \(\frac{1}{|V|}\) に設定される。ステップ \(t+1\) における各ノードの PageRank スコアは以下を使用して再帰的に計算することができる: \[ \begin{equation} S(t+1) = \widetilde{M} \cdot S(t) \label{pagerank_score} \end{equation} \] ここで \(\widetilde{M}\) は次のように定義される \(\widetilde{m_{ij}} \in \widetilde{M}\) を要素とする行列 \(M\) の正規化された形式である: \[ \widetilde{m_{ij}} = \left\{ \begin{array}{ll} \frac{m_{ij}}{\sum_{j=1}^{|V|} m_ij} \ \ \ & {\rm if}\ \sum_{j=1}^{|V|} m_{ij} \neq 0 \\ 0 \ \ \ & {\rm otherwise} \end{array} \right. \] PageRank 計算はノードが状態を表しそれらの間のリンクが遷移であるマルコフ連鎖プロセスとみなすことができる。各ノードの我々のケースでは式 \((\ref{pagerank_score})\) を再帰的に適用することにより各状態の定常確率分布を表す表す主固有ベクトルを得る。(Manning 他, 2008)

PageRank (あるいはランダムウォーク) がグラフのサイクルでスタックしないように減衰係数 (damping factor) \(\alpha\) が追加され、グラフ内の別のノードへの「テレポート」ができるようになる。従って \(S\) の計算は: \[ \begin{equation} S = \alpha \cdot \widetilde{M} \cdot S + (1 - \alpha) \cdot \widetilde{p} \end{equation} \] ここで \(S\) は主固有ベクトルであり \(\widetilde{p}\) はすべての要素が \(\frac{1}{|V|}\) の長さ \(|V|\) のベクトルである。ノード \(v_i\) 内に存在してるとき、ベクトル \(\widetilde{p}\) はランダムウォークが等しい確率でグラフ内の別のノードにジャンプできることを示している。

\(\widetilde{p}\) を偏らせることによってランダムウォークはグラフ内でより高い確率をもつノードを選り出すだろう (Haveliwala, 2003)。

PositionRank の考え方は文書の前方に出現し頻繁に出現する単語に大きな重み (あるいは確率) を割り当てることである。具体的には同じ文書内の 50 番目に存在する単語と比較して 2 番目に出現する単語に高い確率を割り当てる必要がある。我々はあらゆるフィルタが適用される前の文書内の位置の逆数を各候補単語に重み付ける。同じ単語が対象文書に複数回現れた場合、すべての位置の重みを合計する。例えばある単語が 2 番目、5番目、10番目の位置に存在した場合、その重みは \(\frac{1}{2} + \frac{1}{5} + \frac{1}{10} = 0.8\) となる。与えられた単語の位置による重みを合計することは、頻繁に出現する単語がそれぞれの出現の位置による重みとして考慮されることによって、より信用を高めることを目的としている。次に、ベクトル \(\widetilde{p}\) は以下のように各候補単語の正規化された重みに設定される: \[ \widetilde{p} = \left[ \frac{p_1}{p_1 + p_2 + \ldots + p_{|V|}}, \frac{p_2}{p_1 + p_2 + \ldots + p_{|V|}}, \ldots, \frac{p_{|V|}}{p_1 + p_2 + \ldots + p_{|V|}} \right] \]

頂点 \(v_i\) の PageRank スコア、つまり \(S(v_i)\) は以下の式を再帰的に計算することによって代数的な方法で得ることができる: \[ S(v_i) = (1 - \alpha) \cdot \widetilde{p} + \alpha \cdot \sum_{v_j \in {\it Adj}(v_i)} \frac{w_{ji}}{O(v_j)} S(v_j) \] ここで \(O(v_j) = \sum_{v_k \in {\it Adj}(v_j)} w_{jk}\) と \(\widetilde{p}\) は頂点 \(v_i\) に対するベクトル \(\widetilde{p}\) に存在する重みである。

我々の実験では 2 つの連続イテレーションの差が 0.001 未満となるか、イテレーション回数が 100 に達するまで PageRank スコアを再帰的に計算している。

3.1.3 Forming Candidate Phrases

文書内で連続した位置に配置されている候補単語はフレーズに変換される。我々は正規表現 (形容詞)*(名詞)+ と一致する最大 3 つ名詞句 (つまり unigram, bigram, trigram) を考慮する。

最後に、フレーズを構成する個々の単語のスコアを合計してフレーズをスコアリングする (Wan and Xiao, 2008)。最高得点のフレーズは推測 (つまり文書で推測されたキーフレーズ) として出力される。

4 Experiments and Results

4.1 Datasets and Evaluation Metrics

4.2 Results and Discussion

4.3 Overall Performance

4.4 Anecdotal Evidence

5 Conclusion and Future Work

Acknowledgments

References

  • Amjad Abu-Jbara and Dragomir Radev. 2011. Coherent citation-based summarization of scientific papers. In Proc. of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. pages 500–509.
  • Eytan Adar and Srayan Datta. 2015. Building a scientific concept hierarchy database (schbase). In Proceedings of the Association for Computational Linguistics. pages 606–615.
  • Ken Barker and Nadia Cornacchia. 2000. Using noun phrase heads to extract document keyphrases. In Advances in Artificial Intelligence. pages 40–52.
  • Adrien Bougouin, Florian Boudin, and Beatrice Daille. 2013. Topicrank: Graph-based topic ranking for keyphrase extraction. In International Joint Conference on Natural Language Processing (IJCNLP). pages 543–551.
  • Cornelia Caragea, Florin Adrian Bulgarov, Andreea Godea, and Sujatha Das Gollapalli. 2014a. Citationenhanced keyphrase extraction from research papers: A supervised approach. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. pages 1435–1446.
  • Cornelia Caragea, Jian Wu, Alina Maria Ciobanu, Kyle Williams, Juan Pablo Fernandez Ramırez, HungHsuan Chen, Zhaohui Wu, and C. Lee Giles. 2014b. Citeseer x : A scholarly big dataset. In Proceedings of the 36th European Conference on Information Retrieval. pages 311–322.
  • Jason Chuang, Christopher D Manning, and Jeffrey Heer. 2012. Without the clutter of unimportant words: Descriptive keyphrases for text visualization. ACM Transactions on Computer-Human Interaction 19(3):19.
  • Soheil Danesh, Tamara Sumner, and James H Martin. 2015. Sgrank: Combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction. Lexical and Computational Semantics page 117.
  • Samhaa R El-Beltagy and Ahmed Rafea. 2010. Kpminer: Participation in semeval-2. In Proceedings of the 5th international workshop on semantic evaluation. Association for Computational Linguistics, pages 190–193.
  • Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill-Manning. 1999. Domain-specific keyphrase extraction. In Proceedings of the 16th International Joint Conference on Artificial Intelligence. pages 668–673.
  • Weizheng Gao, Hyun Chul Lee, and Yingbo Miao. 2006. Geographically focused collaborative crawling. In Proceedings of the 15th international conference on World Wide Web. ACM, pages 287–296.
  • C Lee Giles, Kurt D Bollacker, and Steve Lawrence. 1998. Citeseer: An automatic citation indexing system. In Proceedings of the third ACM conference on Digital libraries. pages 89–98.
  • Sujatha Das Gollapalli and Cornelia Caragea. 2014. Extracting keyphrases from research papers using citation networks. In Proceedings of the 28th American Association for Artificial Intelligence. pages 1629–1635.
  • Khaled M Hammouda, Diego N Matute, and Mohamed S Kamel. 2005. Corephrase: Keyphrase extraction for document clustering. In Machine Learning and Data Mining in Pattern Recognition, Springer, pages 265–274.
  • Kazi Saidul Hasan and Vincent Ng. 2010. Conundrums in unsupervised keyphrase extraction: making sense of the state-of-the-art. In Proceedings of the 23rd International Conference on Computational Linguistics. pages 365–373.
  • Kazi Saidul Hasan and Vincent Ng. 2014. Automatic keyphrase extraction: A survey of the state of the art. In Proceedings of the 27th International Conference on Computational Linguistics. pages 1262–1273.
  • Taher H Haveliwala. 2003. Topic-sensitive pagerank: A context-sensitive ranking algorithm for web search. IEEE transactions on knowledge and data engineering pages 784–796.
  • Anette Hulth. 2003. Improved automatic keyword extraction given more linguistic knowledge. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. pages 216–223.
  • Steve Jones and Mark S. Staveley. 1999. Phrasier: A system for interactive document retrieval using keyphrases. In Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. pages 160–167.
  • Su Nam Kim, Olena Medelyan, Min-Yen Kan, and Timothy Baldwin. 2010. SemEval-2010 Task 5: Automatic Keyphrase Extraction from Scientific Articles. In Proceedings of the 5th International Workshop on Semantic Evaluation. pages 21–26.
  • Su Nam Kim, Olena Medelyan, Min-Yen Kan, and Timothy Baldwin. 2013. Automatic keyphrase extraction from scientific articles. Language Resources and Evaluation, Springer 47(3):723–742.
  • Shibamouli Lahiri, Sagnik Ray Choudhury, and Cornelia Caragea. 2014. Keyword and keyphrase extraction using centrality measures on collocation networks. CoRR abs/1401.6571.
  • Tho Thi Ngoc Le, Minh Le Nguyen, and Akira Shimazu. 2016. Unsupervised keyphrase extraction: Introducing new kinds of words to keyphrases. In Australasian Joint Conference on Artificial Intelligence. Springer, pages 665–671.
  • Marina Litvak and Mark Last. 2008. Graph-based keyword extraction for single-document summarization. In Proceedings of the workshop on Multi-source Multilingual Information Extraction and Summarization. pages 17–24.
  • Zhiyuan Liu, Wenyi Huang, Yabin Zheng, and Maosong Sun. 2010. Automatic keyphrase extraction via topic decomposition. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. pages 366–376.
  • Zhiyuan Liu, Peng Li, Yabin Zheng, and Maosong Sun. 2009. Clustering to find exemplar terms for keyphrase extraction. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. pages 257–266.
  • Patrice Lopez and Laurent Romary. 2010. Humb: Automatic key term extraction from scientific articles in grobid. In Proceedings of the 5th International Workshop on Semantic Evaluation. Association for Computational Linguistics, pages 248–251.
  • Christopher D Manning, Prabhakar Raghavan, Hinrich Schutze, et al. 2008. ¨ Introduction to information retrieval, volume 1. Cambridge university press Cambridge.
  • Juan Martinez-Romo, Lourdes Araujo, and Andres Duque Fernandez. 2016. Semgraph: Extracting keyphrases following a novel semantic graph-based approach. Journal of the Association for Information Science and Technology 67(1):71–82.
  • Olena Medelyan, Eibe Frank, and Ian H Witten. 2009. Human-competitive tagging using automatic keyphrase extraction. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. ACL, pages 1318–1327.
  • Rada Mihalcea and Paul Tarau. 2004. Textrank: Bringing order into text. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. pages 404–411.
  • Thuy Dung Nguyen and Min-Yen Kan. 2007. Keyphrase extraction in scientific publications. In Asian Digital Libraries. Springer, pages 317–326.
  • Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. 1998. The pagerank citation ranking: bringing order to the web. Technical report, Standford Digital Library Technologies Project.
  • Vahed Qazvinian, Dragomir R. Radev, and Arzucan Ozg ¨ ur. 2010. Citation summarization through ¨ keyphrase extraction. In Proceedings of the 23rd International Conference on Computational Linguistics. COLING ’10, pages 895–903.
  • Peter D Turney. 2000. Learning algorithms for keyphrase extraction. Information Retrieval 2(4):303–336.
  • Xiaojun Wan and Jianguo Xiao. 2008. Single document keyphrase extraction using neighborhood knowledge. In Proceedings of the 2008 American Association for Artificial Intelligence. pages 855– 860.
  • Rui Wang, Wei Liu, and Chris McDonald. 2014. Corpus-independent generic keyphrase extraction using word embedding vectors. In Software Engineering Research Conference. page 39.
  • Hongyuan Zha. 2002. Generic summarization and keyphrase extraction using mutual reinforcement principle and sentence clustering. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. pages 113–120.
  • Yongzheng Zhang, Evangelos Milios, and Nur ZincirHeywood. 2007. A comparative study on key phrase extraction methods in automatic web site summarization. Journal of Digital Information Management 5(5):323.
  • Yongzheng Zhang, Nur Zincir-Heywood, and Evangelos Milios. 2004. World wide web site summarization. Web Intelligence and Agent Systems 2(1):39–53.

翻訳抄

学術論文からキーフレーズを抽出するためのアルゴリズム PositionRank (2017) に関する論文。