キーワードタイムラインは、トゥートした内容に特定のキーワードが含まれている投稿のみを厳選して表示することが出来るタイムラインのことである。
2018/2/6 現在の設定済みキーワード
|TL名|ハッシュタグ|キーワード(正規表現)|キーワード(形態素解析)| |:--:|:-----------|:-------------------|:---------------------| |スタッフ| #mia_staff | つくし\s(あきひと|卿|先生)|小島\s正幸|垪\s和等|飯野\s慎也|吉成\s鋼|黄瀬\s和哉|高倉\s武史|kevin\s+penkin|キネマシトラス|竹書房| |声優| #mia_cast | 富田\s美憂|伊瀬\s茉莉也|井澤\s詩織|坂本\s真綾|大原\sさやか|豊崎\s愛生|喜多村\s英梨|森川\s智之|日高\s里菜|沼倉\s愛美|田村\s睦心|塙\s愛美|村田\s太志|稲田\s徹|生天目\s仁美 | 'しーたむ' | |オース| #mia_orth | 殲滅卿 | 'きゆい', 'しぇるみ', 'しぎー', 'じるお', 'なっと', 'はぼるぐ', 'べるちぇろ', 'みお', 'めなえ', 'らいざ', 'らふぃー' | |監視基地| #mia_seekercamp | 監視基地|シーカーキャンプ|地臥せり|不動卿 | 'いぇるめ', 'おーぜん', 'ざぽ', 'しむれど', 'まるるく' | |前線基地| #mia_idofront | 祈手|アンブラハンズ|前線基地|黎明卿|カートリッジ | 'いどふろんと', 'いりむ', 'ぐえいら', 'さおはぶ', 'ぼんどるど', 'めいなすといりむ', 'ぷるしゅか' | |リコさん隊| #mia_rikos_party | | 'ななち', 'みーてぃ', 'めいにゃ', 'りこ', 'れぐ', 'ぷるしゅか' | |遺物| #mia_artifacts | 暁に至る天蓋|命を響く石|遺物|おっぱい石|火葬砲|枢機に還す光|精神隷属機|千人楔|太陽玉|月に触れる|呪い針|呪い避けの籠|姫乳房|星の羅針盤|明星へ登る|無尽槌 | 'いんしねれーた', 'ぎゃんぐうぇい', 'しぇいかー', 'すぱらぐもす', 'ぞあほりっく', 'ふぁーかれす', 'ぶれいずりーぶ', 'ゆあわーす' | |イルブル| #mia_ilblu | 干渉器|先触れの獣|三賢 | 'いるぶる', 'しょうろう', 'どぶーぐ', 'はでぃ', 'はにーすく', 'ふぁぷた', 'ぶえこ', 'ぶえろえるこ', 'べらふ', 'まああ', 'まじかじゃ', 'わずきゃん' | |原生生物| #mia_creature | [慣成な]れ[は果|て | 'くおんがたり', 'たけぐま', 'たまうがち', 'ねりたんたん', 'べにくちなわ', 'りゅうさざい' | |場所| #mia_place | ベルチェロ孤児院|シーカーキャンプ|監視基地|前線基地|[な成慣]れ[果は]て村|目の奥|[一二三四五六七1-71-7\層|アビスの淵|誘いの森|大断層|巨人の盃|なきがらの海|還らずの都|最果ての渦|奈落の底|船団キャラバン | 'おーす', 'いどふろんと', 'どぐーぶ', 'しょうろう' | |奈落文字| #mia_nether_gryph | 奈落文字|悠遠の文字|:nrk0-9a-f{4}: | 'ねざーぐりふ', 'びよんどぐりふ' | |全般| #メイドインアビス | 竹書房|キネマシトラス|上昇負荷|呪い|[電伝]報船|力場|[な成慣]れ[果は]て|不屈の花|お祈り骸骨|鈴付き|[赤青蒼月黒白\笛|探窟家|度し難|奈落シチュー|ラストダイブ|絶界行 | 'アビス', 'とこしえこう', 'んなぁ', 'めいあび' |
※全般タイムラインは、その他のキーワードが見つかった場合にも同時に付与されます。
当キーワードタイムラインを実装するに伴い、正規表現によるテキスト検索と形態素解析を用いた単語検出を併用することで、キーワード検出の精度を高めています。
形態素解析については、京都大学 大学院情報学研究科 黒橋・河原研究室が開発している JUMAN++ ver1.02 を利用しています。
Juman++があまりにも重すぎたので、MeCabに移行しました。
いろいろ苦戦したのでMeCab導入メモ
$ cd mecab-0.996
$ ./configure --with-charset=utf8 --enable-utf8-only
$ make
$ sudo make install
$
$ # このときlibmecabも入るはずなのだが、なぜかライブラリが見つからないと怒られるので、aptから入れてしまう。
$ sudo apt install libmecab-dev libmecab2
$
$ cd ../mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf8
$ make
$ sudo make install
$ # defファイルを文字コード変更しないと行けないので。
$ sudo apt install nkf
$
$ # ユーザー辞書コンパイルに必要なipadicのデータを拾ってくる
$ cp -r /usr/local/lib/mecab/dic/ipadic userdic
$ cd userdic
$
$ # 文字コードをUTF-8に変換
$ nkf -w --overwrite *.def
$
$ # ユーザー辞書データを作成
$ vim mia.csv
$
$ # 必要に応じて改行コードを直す
$ sed -i 's/\r//' mia.csv
$
$ # ユーザー辞書データをコンパイル
$ /usr/local/libexec/mecab/mecab-dict-index -u mia.dic -c utf-8 -t utf-8 -f utf-8 mia.csv
$
$ # ユーザー辞書データを格納して設定ファイルに記述(場所はどこでもいいのだが。。。)
$ sudo mkdir -p /usr/local/lib/mecab/dic/
$ sudo vim /usr/local/etc/mecabrc
$ mecab
※コマンドを実行すると、プロンプトは帰ってきませんが入力待ち状態になっています。
(追記)一応メモとして残しておきますが、MeCabを利用する場合は導入する必要はありません。
以下、Juman++導入とユーザー辞書登録をするまでの手順メモ。(マニュアルと手順が若干異なったので)
$ wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz
$ tar xvf jumanpp-1.02.tar.xz
$ cd jumanpp-1.02
$ sudo apt install -y zsh libboost-dev
$ ./configure
$ make
$ sudo make install
$ cd dict-build
$
$ # →ユーザー辞書の作成
$ # →./userdic/*.dicならファイル複数作っても大丈夫そう
$ vim ./userdic/yourdicname.dic
$
$ # →既存の邪魔な単語を削除
$ # →ユーザー辞書の登録(下記ファイル参照)
$ vim ./userdic/yourdicname.dic
$
$ # →Wikipedia辞書の「メイドインアビス」項から検出している単語を削除する。
$ vim ./wikipediadic/wikipedia.dic.orig
$
$ # →助動詞「んだ」を削除する(これをしないとんなぁーが引っかからない)
$ vim ./dic/AuxV.dic
$
$ # →すべての辞書ファイルをコンパイルするのでむっちゃ時間かかる
$ make
$
$ # →すべての辞書データをライブラリ格納ディレクトリ(/usr/lib/share/jumanpp)にコピーする
$ sudo ./install.sh
$ # とりあえず試してみたい場合
$ jumanpp
$
$ # 解析データの詳細を見たい場合
$ jumanpp -B 5
※コマンドを実行すると、プロンプトは帰ってきませんが入力待ち状態になっています。
アビス丼で利用しているユーザー辞書サンプルは こちら からダウンロードが出来ます。
当機能を実装したリビジョンは以下の通りです。