Machine Learning

#機械学習 #自然言語処理 #NLP

...

Natural Language Processing

形態素解析

自然言語処理ではよく単語を文章を構成する「意味を持つ情報」の最小単位として扱っている。ラテン語圏の言語は単語の区切りに空白を使用しているためプログラムでの抽出は比較的容易だが、日本語の場合は文の中から単語を識別し適切に分割する実装が必要となる。…

2017年10月12日(Thu) Kuromoji #kuromoji #形態素解析

TF-IDF

TF-IDF (term frequency - inverse document frequency) はある単語がコーパス内の文書に対してどれほど重要であるかを示す統計的数値。TF-IDF 値は文書内に単語が出現する回数に比例して増加するが、コーパス内での単語の出現頻度によって相殺されることが多く、一般に頻繁に出現する単語を調整する利点をもつ。…

2017年10月12日(Thu) #TF-IDF

Okapi BM25

Okapi BM25 は情報検索における文書のランク付けアルゴリズムの一つである。クエリーに対する文書の関連性を評価するために使用される。BM25 は TF-IDF の発展系として、特に文書の長さや単語の頻度に基づいて関連性スコアを調整するために設計されている。…

2024年7月24日(Wed) #OkapiBM25 #BM25

コサイン類似度

ベクトル空間モデル (vector space model)、または単語ベクトルモデル (term vector model) はテキスト文書やそれに類似する任意のオブジェクトを識別子のベクトルとして表現するための代数空間モデルである。…

2018年2月8日(Thu)

Latent Dirichlet Allocation

2017年10月30日(Mon) #LDA 作業中

word2vec

分散表現 (distributed representation) とは単語の意味を数値化してベクトル空間に表すことである。単語をベクトル空間に埋め込むことから単語埋め込み (word embedding) とも呼ばれる。…

2023年8月26日(Sat) gensim 4.3.0 #word2vec

タグ抽出

タグ抽出 (tag extraction) またはキーワード抽出の目的は文書の内容を代表していると思われる単語を選択する処理。他に自然文の構文構造を素性として重み付けする方法などいくつか過去の研究ある。…

2018年2月15日(Thu) JUNG 2.1 #NLP

自動要約

自動要約 (auto summarization) または文書要約は文書の要約を作成することを目的としたテキスト短縮の処理。対象とする文書が一つの場合を単一文書要約、特定の文書セットを要約する場合を複数文書要約と呼ぶ。…

2018年2月1日(Thu) JUNG 2.1 #NLP

最大エントロピー法

最大エントロピー法 (maximum entropy model) は前提条件だけで明確な確率分布を導き出せない事象に対して、全体のエントロピーが最大化する方向に確率分布を割り当てる方法。条件が設定されていないのであれば、条件外の余計な偏りを含まない最も不確かなモデルが採用されるべきという考え方に基づく。…

2018年5月10日(Thu) #NLP #MaximumEntropy

論文翻訳: Efficient Estimation of Word Representations in Vector Space

3 層のニューラルネットワークを使用して単語の分散表現 (単語埋め込み) を生成するアルゴリズム Word2vec に関する 2013 年の論文。

2023年8月22日(Tue) #word2vec

Computer Vision

画像収集

機械学習を行う目的で対象物の画像を収集する方法について現時点での手順をまとめておく。処理は大まかに以下のステップを想定しているが:

2018年5月24日(Thu) Node.js 8 ES2015 #Azure #GCP #Flickr #AWS

CIFAR-10

CIFAR-10 は 10 種に分類された 32×32 の 60,000 画像からなるデータセット。80 Million Tiny Images から画像認識のために抽出/分類したサブセットである。…

2018年7月6日(Fri) Python 3.5 Keras 2.2 #CIFAR10 #CNN

OpenCV 3

2018年5月28日(Mon) OpenCV 3 #OpenCV

OpenCV: 目的別機能

2018年5月30日(Wed) OpenCV 3 #OpenCV

画像分類

Keras: CNN画像分類 (Keras-provided CNN)

Keras は過去のコンテストで優秀な成績を収めた CNN がすぐに利用可能な形で含まれている。ここではこれらの CNN を独自のデータセットで学習して画像分類を行う。

2018年7月11日(Wed) Python 3.5 Keras 2.2 TensorFlow 1.8 #Keras #TensorFlow #Xception

Keras: CNN画像分類 (Pre-trained CNN Model)

CNN モデルを使用した画像分類スクリプトを作成する。Keras は自分でニューラルネットワークを組み立てデータセットを用意してモデルを構築することもできるが、過去のコンペで優秀な成績を収めたいくつかの CNN がすぐに利用可能な形で含まれていて、推測部分にフォーカスして試すのであればそれらを利用するのが早い。…

2018年6月28日(Thu) Python 3.5 Keras 2.2 TensorFlow 1.8 #Keras #TensorFlow #VGG16

Keras: CNN画像分類 (転移学習/Fine Tuning)

転移学習 (transfer learning) はネットワークをゼロから学習させる代わりに、別のタスクで学習したネットワークを元に目的のタスクに最学習させることで、学習のための計算コストや学習に必要なデータセットの数を削減する手法。…

2018年7月1日(Sun) Python 3.5 Keras 2.2 TensorFlow 1.8 #Keras #TensorFlow #VGG16

Keras: ImageNet分類ラベル一覧

ImageNet データセットに基づく Keras 2.2.0 で利用可能な CNN 学習済みモデルの分類ラベルとその意味 (./keras/models/imagenet_class_index.json に保存されている)。…

2018年6月28日(Thu) Keras 2.2 TensorFlow 1.8 #Keras #TensorFlow #VGG16

Keras: ImageDataGenerator

Keras 2.2 に付属するデータ拡張と正規化のための多機能前処理ユーティリティ ImageDataGenerator のパラメータごとの効果を整理する。明文化されていない部分については Github のソースを参照する必要がある。…

2018年7月4日(Wed) Keras 2.2 TensorFlow 1.8 #Keras #TensorFlow

Keras: CNN中間層出力の可視化

Keras 2.2 を使用して CNN の中間層がどのような出力を行っているかを可視化する。ここでは学習済みモデルに VGG16 + ImageNet を使用しカワセミの写真のどの部分を特徴としてとらえているかを示すためのヒートマップを作成する (このヒートマップで示される特徴に対する反応の強さをこのページでは暫定的に特徴強度と呼ぶ)。…

2018年7月9日(Mon) Python 3.6 Keras 2.2 TensorFlow 1.8 #Keras #TensorFlow #Conv

画像クラスタリング

OpenCV: 画像クラスタリング (PCA/DBSCAN)

2018年7月25日(Wed) OpenCV 3 #OpenCV 作業中

画像生成

Keras: 超解像

超解像 (super resolution) は解像度の低い画像や動画、音声などの信号からより高解像度なバージョンを生成する技術。

2018年8月13日(Mon) Python 3.5 Keras 2.2 TensorFlow 1.8 #Keras #TensorFlow #RSCNN

Keras: 画像生成 (変分オートエンコーダー)

オートエンコーダー (autoencoder, 自動符号化器) はニューラルネットワークを使用した次元削減手法。次元の小さい中間層を設置した多層ニューラルネットワークを、入力と同じデータを出力するように学習することで、中間層部分の出力からより特徴的な表現を少ない次元で得ることができる。…

2018年7月14日(Sat) Python 3.5 Keras 2.2 TensorFlow 1.8 #Keras #TensorFlow #VAE

Deep Neural Network

多層パーセプトロン

多層パーセプトロン (MLP; multilayer perceptron) または Feedforward Neural Network, Deep Feedforward Network は典型的な深層機械学習のためのネットワークモデル。…

2017年12月1日(Fri) #MLP #DNN #deeplearning 作業中

畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (convnet, CNN; convolutional neural network) はフィードフォーワード型の深層ニューラルネットワーク (DNN; deep neural network) の一種。…

2018年8月13日(Mon) #ConvNet

Recurrent Neural Network

Recurrent Neural Network (RNN; 再帰型ニューラルネットワーク) は時系列の情報パターンを認識するように設計されたニューラルネットワーク。自然言語処理、遺伝子、センサーデータ、株式など、データのシーケンスを節に分解して時系列として扱うことができるデータを対象としている。…

2017年12月1日(Fri) #RNN 作業中