- TF-IDFとは
- tf-idfとは、情報探索やテキストマイニングなどの分野で利用される、文書中に出現した特定の単語がどのくらい特徴的であるかを識別するための指標のことである。
- >> MEOでは「頻出単語の測定のこと」を指します
タップできる見出し
略歴/流れ
TF-IDFは1972年にカレン・スパーク・ジョーンズによって提唱され、この時彼女は「自分がやることの背景や動機、正当性について考える必要がある」と話しています。
またカレン・スパーク・ジョーンズの研究では 自然言語処理 、 情報検索そしてOkapi BM25にまで及び、現在のインターネット界に貢献しているといえるでしょう。
TF-IDFとは?
文書の中に含まれている単語の重要度を明らかにする機能であるTF-IDFは、トピック分析や情報などの検索に用いられる手法です。
例えば文書が複数あった時に、それらに含まれる単語と使用頻度を分析し、ある文書にとって何が重要な単語なのかを数値化したものをTF-IDFと言います。
TF-IDFは、Term Frequency(TF値)と、Inverse Document Frequency(IDF値)を組み合わせた概念であり、TFは「文書内において単語が出現する頻度」を、IDFは「ある単語が出現する文書頻度の逆数」を意味します。
TF値の定義
TF値は、文書内における「ある単語の出現頻度」を指します。
要は、文書内にある全ての単語の出現回数に対し、その単語の出現回数がどれほどを占めるかという割合を表すものと理解すればよいでしょう。
その単語の出現回数が多ければTF値は大きくなり、逆に出現回数が低ければ、TF値が下がるしくみです。
TFの計算式
「より多く出てくる単語は、より重要な単語である」という理論に基づき、「n回出現した語は一回しか 出現しない語よりも log10(n)+1 倍重要」とみなし、Wij=tfij×log ( N/ dfi )という計算式が用いられます。
IDF値の定義
IDF値は、「文書集合体の中にある単語が含まれる文書の割合の逆数」を表します。
その単語が他の文書中でも多く出現していればIDF値は小さく、他の文書にあまり出現していないほどIDF値は大きいということです。
IDFの計算式
「ある語に対し、その語が出現する回数が少なければ少ないほど、その語はより大きな重みとなる」という理論に基づき、「ある語に対して登場する語の文書の数」をdf、「文書が集合した全体の文書の数」をNとし、log10(N/df)という計算式が用いられます。
TF-IDF値の定義
TF-IDFの計算は、TF値とIDF値をかけあわせて行います。
例えば文書Aでの出現回数は多くて他の文書には出現していない単語のTF-IDF値は大きくなり、それ以外の単語は相対的にTF-IDF値が小さくなるということです。
このように、算出したTF値とIDF値同士をかけ合わせると、単語ごとに重要度を算出できます。そして文書ごと、単語ごとにTF-IDF値があるのです。
TF-IDF値の計算式
TF値の計算式で出したした値とIDF値の計算式で出した値をかけ合わせると、TF-IDF値の計算式となります。
ftidf(t1,dj)=tf(ti,df)・idf(ti)
TF-IDF値の欠点
文書内に出現する単語数が多いほどTF値は小さくなり、逆に単語数が少ないほどTF値は大きくなります。その理由は、「TF値の計算式で用いる分母が、「全ての単語が出現する回数の和」をとっていることが要因です。
すなわち、複数ある文書の中から重要度が高い単語を抽出し、TF-IDF値を絶対評価で比較するとなると、文書ごとに含まれる単語数の差が大きく影響してしまいます。
そこを解決すべく、Stephen E.Robertson、Karen Spärck Jonesらによって提案されたのが「Okapi BM25」というわけです。
関連する単語の紹介
自然言語処理
自然言語処理(NPL)とは、言葉や文字といったコミュニケーションで使われる話し言葉から書き言葉までの自然な言語を対象に、それぞれが持つ良いや内容を抽出・解析する処理技術のことです。
潜在意味解析
潜在意味解析(LSA)とは、ある文章群に含まれる様語群に対し、関連した概念の集合を生成して、両者の関係を分析するものです。ベクトル空間モデルによる自然言語処理の方法の1つとなります。
Okapi BM25
Okapi BM25は、情報検索の中での順位付けの手法であり、検索エンジンがクエリとの関係に適した文書を順次つける時に用いられます。
1970年代から1980年代の時期に、カレン・スパーク・ジョーンズやスティーブン・ロバートソンらが開発したもので、英語版では確率適合モデルに基づいています。
なお、BM25のBMはBest Matchingを略したものです。
一般的な活用方法、様々な目線から紹介
Webページ上で大切なことは、ユーザーから受け取ったクエリ(問いかけ)にどのページが関連しており、関連していないページがどれなのかを判定することです。
そこで、コンテンツ作成者の活用方法として、最も古いドキュメント処理方法にTF-IDFを使い、各々のページがどの程度キーワードと一致しているかを計算します。つまり、「ページオーソリティ」と「言語モデル」を使って、適合率の高いページを作ることです。
TF-IDFを使えば、キーワードの検索結果に対して上位表示されているサイトが、ページ内にどのような単語を使っているのかを知ることができます。
MEOにおける優位点・メリット・注意点
MEOとは、Googleマップにおける「マップエンジン最適化」を指す言葉です。
多くの場合「地域 ○○屋」のように検索されることから、TF-IDFを用いて重要な単語を判定することが重要です。
TF-IDFを実装し、MEOと組み合わせることで、ユーザーはより早く自社の店舗を見つけやすくなるというメリットが生まれます。
注意点としては、クエリに含まれるであろう単語やスペルにミスが無いよう、気を付けなければならないということが挙げられます。