選挙戦に役立つテキストマイニング

選挙戦に役立つテキストマイニング

近年、ビッグデータというキーワードに代表されるように、さまざまな分野でデータ分析技術が活用されています。

データを活用するといえば一般的に人数や金額といった数値データを合計、平均といった統計的な手法で分析することを思い浮かべる人が多いでしょう。しかしながらデータ分析はそのような数字にとどまらないのです。

例えば、メールやWebページから集められた意見やアンケートの自由記入欄などのテキストデータに記載された単語やキーワードを分析して、キーワードの出現回数やキーワード間の関係性などから文章の中の有権者の意識や感情などを分析し、その内容に基づいた選挙対策や戦略を考えるようなこともできるのです。

この文章の中身を分析する技術が「テキストマイニング」です。この記事では有権者の声を分析して選挙戦に活かすことを念頭においたテキストマイニングについてご紹介します。

テキストマイニングの基本的な考え方

テキストマイニングを行うには、文章を「単語や文節で区切る」ことから始まります。例えば「私は小田原市に住んでいる女性です」という文章を分解すると「私」「は」「小田原市」「に」「住んで」「いる」「女性」「です」という8つのパーツに分けることができます。

このようにパーツに分解したそれぞれの単語を「名詞」「動詞」「形容詞」などの品詞にあてはめて、それらの位置関係から「意味」をつけていくのです。

先ほどの例の場合、「住んで」という動詞に掛かる単語が「小田原市」という名詞になることから。この2つの単語をもとに「小田原市在住」という意味に変換することができるのです。

このような分析作業を繰り返すことにより、文章からデータを抽出し分析をおこないます。これにより文章で書かれた意見から書き手の思いや感情をデータとして活用することが可能になります。

テキストマイニングを行うときの注意点

文書分析

英語などに比べて日本語はテキストマイニングに向いていない言語といわれてきました。これは、日本語が英語のように単語をスペースで、区切られていないため、単語の終わりの判断が難しいことによります。

また、日本語ならではの「ゆらぎ」や敬語、方言、漢字など、同じ意味でも様々な意味付けがあることもテキストマイニングを難しくしている理由なのです。

たとえば「居る」を表す言葉として「いらっしゃる」「おる」など様々な言い回しがあります。そのためテキストマイニングで利用する自然言語処理の分野では、英語より日本語の方が精度が悪いことが多いとされています。

しかし、さまざまな言い回しをあらかじめ「辞書」として登録しておくことで、あらかじめ決められたパターンで文章から単語の意味や品詞の判定を行うができます。例えば「居る」「いらっしゃる」「おる」などの複数のキーワードを「居る」に意味を集約させるのも「辞書」の役割なのです。

効果的なテキストマイニングを実現する

現代は日々さまざまな言葉が出現しています。そのためそれに合わせて定期的にこの辞書を更新していかないと正しく文章からキーワードを拾い出せないのが、テキストマイニングの課題であったのも事実です。この解決策として注目されているのがAI(人工知能)の活用です。

人工知能のアルゴリズム(解析ロジック)に単語やキーワードの解釈のパターンをあらかじめ登録し、分析結果を踏まえ、適宜アルゴリズムを見直すことによってテキストマイニングの精度を向上させることが可能になるのです。

テキストマイニングで公約や戦略を検討する

公約や戦略を検討

これまでテキストマイニングは、比較的高価で専門的なソフトウェアを利用しなければなりませんでした。しかしながら近年はフリーウェアやオープンソースなど無料もしくは比較的安価で利用できるソフトウェアも増え、小規模な組織や個人でも気軽にテキストマイニングを利用できるようになってきました。

これにより選挙戦での公約や戦略を考えるときに、Webページに寄せられた有権者の意見、アンケート結果や口コミなどの文章を分析することによって、数字に隠れたさまざまな声を可視化し効果的な選挙戦略・対策を実現できるようになります。

まとめ

データは収集して終わりではなく、分析し活かさなければ何の意味もありません。選挙公約の検討、そして今後の政治活動のためにもテキストマイニングをぜひご活用ください。

選挙活動とデータ分析