キーワードタイムラインは、トゥートした内容に特定のキーワードが含まれている投稿のみを厳選して表示することが出来るタイムラインのことである。
2018/2/6 現在の設定済みキーワード
※全般タイムラインは、その他のキーワードが見つかった場合にも同時に付与されます。
当キーワードタイムラインを実装するに伴い、正規表現によるテキスト検索と形態素解析を用いた単語検出を併用することで、キーワード検出の精度を高めています。
形態素解析については、京都大学 大学院情報学研究科 黒橋・河原研究室が開発している JUMAN++ ver1.02 を利用しています。
Juman++があまりにも重すぎたので、MeCabに移行しました。
いろいろ苦戦したのでMeCab導入メモ
$ locale
System Locale: LANG=C.UTF-8
VC Keymap: n/a
X11 Layout: en
$ localectl list-locales
C.UTF-8
en_US.utf8
※ロケール「ja_JP.UTF-8」が入っていない&設定されていない場合はパッケージを入れる
$ sudo apt install -y language-pack-ja
$ sudo localectl set-locale LANG=ja_JP.UTF-8
ソースコードをダウンロード・展開
mecab0.996とmecab-ipadicを落としてくる。コマンド省略。
※wget出来なそうなので、ローカルに落としてからアップロードしてください。
wgetはできるけどオプションつけないとファイル名が汚い
シングルクォートつけて-Oオプションを付与する
$ wget 'https://....' -O mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure --with-charset=utf8 --enable-utf8-only
$ make
$ sudo make install
/usr/local/lib
が参照されていないみたいなので、ldconfigに追加しましょう$ sudo echo '/usr/local/lib/*' >> /etc/ld.so.conf
$ ldconfig
$
$ cd ../mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf8
$ make
$ sudo make install
$ # defファイルを文字コード変更しないと行けないので。
$ sudo apt install nkf
$
$ # ユーザー辞書コンパイルに必要なipadicのデータを拾ってくる
$ cp -r /usr/local/lib/mecab/dic/ipadic userdic
$ cd userdic
$
$ # 文字コードをUTF-8に変換
$ nkf -w --overwrite *.def
$
$ # ユーザー辞書データを作成
$ vim mia.csv
$
$ # 必要に応じて改行コードを直す
$ sed -i 's/\r//' mia.csv
$
$ # ユーザー辞書データをコンパイル
$ /usr/local/libexec/mecab/mecab-dict-index -u mia.dic -c utf-8 -t utf-8 -f utf-8 mia.csv
$
$ # ユーザー辞書データを格納して設定ファイルに記述(場所はどこでもいいのだが。。。)
$ sudo mkdir -p /usr/local/lib/mecab/dic/
$ sudo vim /usr/local/etc/mecabrc
$ mecab
※コマンドを実行すると、プロンプトは帰ってきませんが入力待ち状態になっています。
(追記)一応メモとして残しておきますが、MeCabを利用する場合は導入する必要はありません。
以下、Juman++導入とユーザー辞書登録をするまでの手順メモ。(マニュアルと手順が若干異なったので)
$ wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz
$ tar xvf jumanpp-1.02.tar.xz
$ cd jumanpp-1.02
$ sudo apt install -y zsh libboost-dev
$ ./configure
$ make
$ sudo make install
$ cd dict-build
$
$ # →ユーザー辞書の作成
$ # →./userdic/*.dicならファイル複数作っても大丈夫そう
$ vim ./userdic/yourdicname.dic
$
$ # →既存の邪魔な単語を削除
$ # →ユーザー辞書の登録(下記ファイル参照)
$ vim ./userdic/yourdicname.dic
$
$ # →Wikipedia辞書の「メイドインアビス」項から検出している単語を削除する。
$ vim ./wikipediadic/wikipedia.dic.orig
$
$ # →助動詞「んだ」を削除する(これをしないとんなぁーが引っかからない)
$ vim ./dic/AuxV.dic
$
$ # →すべての辞書ファイルをコンパイルするのでむっちゃ時間かかる
$ make
$
$ # →すべての辞書データをライブラリ格納ディレクトリ(/usr/lib/share/jumanpp)にコピーする
$ sudo ./install.sh
$ # とりあえず試してみたい場合
$ jumanpp
$
$ # 解析データの詳細を見たい場合
$ jumanpp -B 5
※コマンドを実行すると、プロンプトは帰ってきませんが入力待ち状態になっています。
当機能を実装したリビジョンは以下の通りです。