Machine Learning

  • このエントリーをはてなブックマークに追加

...

Natural Language Processing

形態素解析

自然言語処理ではよく単語を文章を構成する「意味を持つ情報」の最小単位として扱っている。ラテン語圏の言語は単語の区切りに空白を使用しているためプログラムでの抽出は比較的容易だが、日本語の場合は文の中から単語を識別し適切に分割する実装が必要となる。…

2017年10月12日 Kuromoji

TF-IDF

TF-IDF (term frequency - inverse document frequency) はある単語がコーパス内の文書に対してどれほど重要であるかを示す統計的数値。TF-IDF 値は文書内に単語が出現する回数に比例して増加するが、コーパス内での単語の出現頻度によって相殺されることが多く、一般に頻繁に出現する単語を調整する利点をもつ。…

2017年10月12日

コサイン類似度

ベクトル空間モデル (vector space model) または単語ベクトルモデル (term vector model) はテキスト文書 (あるいはより一般化した任意のオブジェクト) を識別子のベクトルとして表現するための代数空間モデル。…

2018年2月8日

Latent Dirichlet Allocation

2017年10月30日 作業中

word2vec

word2vec は与えられた系列における節の位置関係に基づいて、節の特徴ベクトル (分散表現; word embedding) を作成するアルゴリズム。2 層のニューラルネットワークで構成され、自然言語処理において単語の特徴ベクトルを作成するために利用される。…

2017年12月2日 作業中

タグ抽出

タグ抽出 (tag extraction) またはキーワード抽出の目的は文書の内容を代表していると思われる単語を選択する処理。他に自然文の構文構造を素性として重み付けする方法などいくつか過去の研究ある。…

2018年2月15日 JUNG 2.1

自動要約

自動要約 (auto summalization) または文書要約は文書の要約を作成することを目的としたテキスト短縮の処理。対象とする文書が一つの場合を単一文書要約、特定の文書セットを要約する場合を複数文書要約と呼ぶ。…

2018年2月1日 JUNG 2.1

最大エントロピー法

最大エントロピー法 (maximum entropy model) は前提条件だけで明確な確率分布を導き出せない事象に対して、全体のエントロピーが最大化する方向に確率分布を割り当てる方法。条件が設定されていないのであれば、条件外の余計な偏りを含まない最も不確かなモデルが採用されるべきという考え方に基づく。…

2018年5月10日

自然言語処理の論文

論文翻訳: TextRank: Bringing Order into Texts

この論文ではテキスト処理において graph-based ランキングモデルである TextRank を導入し、このモデルが自然言語アプリケーションにおいて有効に機能するかを示す。特に、キーワード抽出と文抽出の 2 つの革新的な教師なし学習の方法を提案し、得られた結果が既存のベンチマークで過去に公表された結果と適合することを示す。…

2018年2月1日 2004年の論文

論文翻訳: LexRank: Graph-based Lexical Centrality as Salience in Text Summarization

我々は推計学的な graph-based のグラフに基づいて自然言語処理におけるテキスト単位の相対的重要度を算出する方法を導入し、テキスト要約 (TS; text summarization) 問題でこの手法をテストする。…

2018年2月1日 2004年の論文 作業中

論文翻訳: The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries

本稿はテキスト検索と要約の文脈において情報関連性とクエリー関連性を統合する方法を提示する。Maximal Marginal Relevance (MMR) の判定基準は、検索された文書の順位を変更したり、テキスト要約のための適切な一節を選択する際に、クエリーの関連性を維持しながら冗長性を減らすことを目的としている。…

2018年2月12日 1998年の論文

論文翻訳: PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents

膨大で増加しつつあるオンライン学術データ量は知識の発見を強化する挑戦と機会の両方を表している。そのような挑戦の一つは、文書の内容を正確に記述でき、迅速な情報処理を容易にすることができるキーフレーズの小さな集合を文書から自動的に抽出することである。…

2018年3月28日 2017年の論文 作業中

論文翻訳: From Word Embeddings To Document Distances

我々はテキスト文書間の新しい距離関数である Word Mover's Distance (WMD) を提示する。我々の研究は文中の局所的な共起から単語の意味的に重要な表現を学習する単語埋め込み (word embedding) の最近の研究結果に基づいている。…

2018年3月29日 2015年の論文 作業中

論文翻訳: A Simple Introduction to Maximum Entropy Models for Natural Language Processing

自然言語処理における多くの問題は、言語学的文脈を用いて言語学的クラスを予測する言語学的分類問題と考えることができる。最大エントロピーモデルは特定の言語学的コンテキストで発生する特定の言語学的クラスの確率を推定するために、様々な文脈的根拠を組み合わせるクリーンな方法を提供する。…

2018年5月8日 1997年の論文

Computer Vision

画像分類

Keras: CNN画像分類 (Keras-provided CNN)

Keras は過去のコンテストで優秀な成績を収めた CNN がすぐに利用可能な形で含まれている。ここではこれらの CNN を独自のデータセットで学習して画像分類を行う。

2018年7月11日 Python 3.5 Keras 2.2 TensorFlow 1.8

Keras: CNN画像分類 (Pre-trained CNN Model)

CNN モデルを使用した画像分類スクリプトを作成する。Keras は自分でニューラルネットワークを組み立てデータセットを用意してモデルを構築することもできるが、過去のコンペで優秀な成績を収めたいくつかの CNN がすぐに利用可能な形で含まれていて、推測部分にフォーカスして試すのであればそれらを利用するのが早い。…

2018年6月28日 Python 3.5 Keras 2.2 TensorFlow 1.8

Keras: CNN画像分類 (転移学習/Fine Tuning)

転移学習 (transfer learning) はネットワークをゼロから学習させる代わりに、別のタスクで学習したネットワークを元に目的のタスクに最学習させることで、学習のための計算コストや学習に必要なデータセットの数を削減する手法。…

2018年7月1日 Python 3.5 Keras 2.2 TensorFlow 1.8

Keras: ImageNet分類ラベル一覧

ImageNet データセットに基づく Keras 2.2.0 で利用可能な CNN 学習済みモデルの分類ラベルとその意味 (./keras/models/imagenet_class_index.json に保存されている)。…

2018年6月28日 Keras 2.2 TensorFlow 1.8

Keras: ImageDataGenerator

Keras 2.2 に付属するデータ拡張と正規化のための多機能前処理ユーティリティ ImageDataGenerator のパラメータごとの効果を整理する。明文化されていない部分については Github のソースを参照する必要がある。…

2018年7月4日 Keras 2.2 TensorFlow 1.8

Keras: CNN中間層出力の可視化

Keras 2.2 を使用して CNN の中間層がどのような出力を行っているかを可視化する。ここでは学習済みモデルに VGG16 + ImageNet を使用しカワセミの写真のどの部分を特徴としてとらえているかを示すためのヒートマップを作成する。…

2018年7月9日 Python 3.6 Keras 2.2 TensorFlow 1.8

画像クラスタリング

画像生成

Deep Neural Network

Deep Learning Framework

Datasets