TreeTaggerをkoRpusパッケージでRから使う(on Windows)
多言語対応の形態素解析ツールTreeTaggerをRから使う場合のメモ。英語で使う場合。
1. TreeTaggerのインストール
- TreeTaggerのページからzip圧縮されたWindows向けのバイナリを「for Windows64」もしくは「for Windows32」のリンクからダウンロード。執筆当時の64bit版の最新版。
- 展開してできるフォルダをC:\の直下に移動(任意のフォルダでOKだが、その場合はバッチファイルの設定変更が多分必要)
- TreeTaggerのページからパラメータファイルを「English parameter file (PENN tagset) 」のリンクからダウンロード。執筆当時の最新版。
- gz形式で圧縮されているので、7zipやWinzipなどのツールで展開。出てきたファイルenglish.parをC:\TreeTagger\libに移動。
3. 動作確認
コマンドプロンプトを起動して
cd C:\TreeTagger\bin .\tag-english ..\INSTALL.txt
でインストールの説明ファイルの形態素解析結果が出てくればOK
4. koRpusの導入と実行
Rを起動して
# koRpusパッケージのインストール install.packages("koRpus")
多くのサイトでこれだけで実行できると書いているが、英語対応のためののパッケージkoRpus.lang.enを入れないとダメでした。(前にLinuxでやったときは不要だったような気がしましたが、最近変更になったのか、Windowsだけの話なのかは確認してないので不明)
install.packages("koRpus.lang.en")
これをロードすると依存パッケージのkoRpusも読み込まれる。
library(koRpus.lang.en)
TreeTaggerの実行ファイルを指定
set.kRp.env(TT.cmd = "C:\\TreeTagger\\bin\\tag-english.bat", lang = "en")
もしくは
set.kRp.env(TT.cmd = file.choose(), lang = "en")
でファイル選択でOK。
作業ディレクトリに適当なテキストファイル(ここではtest.txt)を作っといて
taggedText(treetag("test.txt"))
で実行。