TreeTaggerをkoRpusパッケージでRから使う(on Windows)

多言語対応の形態素解析ツールTreeTaggerをRから使う場合のメモ。英語で使う場合。

1. TreeTaggerのインストール

  • TreeTaggerのページからzip圧縮されたWindows向けのバイナリを「for Windows64」もしくは「for Windows32」のリンクからダウンロード。執筆当時の64bit版の最新版
  • 展開してできるフォルダをC:\の直下に移動(任意のフォルダでOKだが、その場合はバッチファイルの設定変更が多分必要)
  • TreeTaggerのページからパラメータファイルを「English parameter file (PENN tagset) 」のリンクからダウンロード。執筆当時の最新版
  • gz形式で圧縮されているので、7zipやWinzipなどのツールで展開。出てきたファイルenglish.parをC:\TreeTagger\libに移動。

2. Perlのインストール

  • Active PerlもしくはStrawberry Perlをインストール(省略)
  • 環境変数PATHにPerlの実行ファイルが含まれるフォルダを追加

3. 動作確認

コマンドプロンプトを起動して

cd C:\TreeTagger\bin
.\tag-english ..\INSTALL.txt

でインストールの説明ファイルの形態素解析結果が出てくればOK

4. koRpusの導入と実行

Rを起動して

# koRpusパッケージのインストール
install.packages("koRpus")

多くのサイトでこれだけで実行できると書いているが、英語対応のためののパッケージkoRpus.lang.enを入れないとダメでした。(前にLinuxでやったときは不要だったような気がしましたが、最近変更になったのか、Windowsだけの話なのかは確認してないので不明)

install.packages("koRpus.lang.en")

これをロードすると依存パッケージのkoRpusも読み込まれる。

library(koRpus.lang.en)

TreeTaggerの実行ファイルを指定

set.kRp.env(TT.cmd = "C:\\TreeTagger\\bin\\tag-english.bat", lang = "en")

もしくは

set.kRp.env(TT.cmd = file.choose(), lang = "en")

でファイル選択でOK。

作業ディレクトリに適当なテキストファイル(ここではtest.txt)を作っといて

taggedText(treetag("test.txt"))

で実行。