cloud9上でのPython による日本語自然言語処理その3

言語処理を少しでも理解しようとPython による日本語自然言語処理のコードを写経する行為を継続中。

「12.1.4　コーパスを用いたテキスト処理」の以下のコードをどうしても実行できない。

genpaku_t.generate()

1. Language Processing and Pythonを読んでみるとこんな記述が！

The generate() method is not available in NLTK 3.0 but will be reinstated in a subsequent version.

nltk 3ではもう使えないのね、、、。
次のバージョンで復活するっていってるけどいつになるのかなぁ。
お手軽にお遊びが出来るメソッドなので早く実装してほしいっ

Mecabインストール方法メモ

$ sudo apt-get install mecab libmecab-dev mecab-ipadic
$ sudo aptitude install mecab-ipadic-utf8
$ sudo apt-get install python-mecab

cloud9上でのPython による日本語自然言語処理その２

日本語自然言語処理学習の続き。

以下のコードで結果が表示されない。

print ' '.join( set(w for w,t in genpaku.tagged_words()
if t[0] == u"コウショウ") )

そもそも「tagged_words() メソッドで返される各要素の第 2 要素は、品詞の情報とともに読みの情報を含んでいるので、この情報を使ってみよう。」
と記述しているのに第2要素 == u"コウショウ"では取得できないような気がする。。。

とりあえず、以下のコードで同じような結果が出た。

wd = set()
for w,t in genpaku.tagged_words():
    itemList=t.split('\t')
    if u"コウショウ" in itemList[0]:
        wd.add(w)
print (' '.join(set(wd)))

でももっとスマートな書き方があるかも。

cloud9 python

Python による日本語自然言語処理のコードをcloud9上で実行してみるときにいくつかつまずいたのでメモ。

　以下のインポート文でエディタ左側にエラー表示される。

from nltk.corpus.reader import *
from nltk.corpus.reader.util import *

　×印にマウスをあてると「No name 'reader' in module 'LazyModule'」と表示されるが
　結局そのまま実行しても特に問題無かった。
　pathの設定が必要なのかな？

　以下のインポートを実行すると表示される画面からJEITA コーパスをDLしようとすると、
　JEITA以外の様々なファイルも一緒に落とさないと行けないので総容量が4GBを超えてしまう。

import nltk
nltk.download()

　目的のコーパスだけ落とすのが不可能だったので結局ローカルのwin端末に
　python実行環境を作成し、上記でDL後にJEITA コーパスのみcloud9にUPした。

　このサイトで指定されているリンクが切れているのでどうしたものかと思ったが、
　そもそも現在のnltkはchasenライブラリーを含んでいるようなので、

from nltk.corpus.reader.chasen import *

　でインポートする。

　以下のprint文でシンタックスエラーとなった。

print '/'.join( jeita.words()[22100:22140] )

　python3からprintは()で囲うのが正式になったらしいので以下で解決。

print ('/'.join( jeita.words()[22100:22140] ))

cloud9

あくる日cloud9でテストコードを書こうと新しいワークスペースを作成しようとすると、メモリ：512MB　ディスク容量：2GBのワークスペースしか作成されない。

以前に作ったものは、メモリ：1GB　ディスク容量：5GBのワークスペースがデフォルトで作成されていたのでオカシイぞとググッてみた。

ここで中の人が言っているのは「今までみたいなスペックのクラウド環境使える様にしてると、みんなそれで満足しちゃって誰も有料ユーザにならないから公式コメント無しで変えちゃったわ。ごめんね～」ってところかな？

ん～、確かにちょっと物足りない感じではあるけど、タダだししょうがないのかな～。

cloud9 mysql

phpmyadmin等で「SHOW VARIABLES LIKE "chara%"」でDBのデフォルト値を確認する。
「sudo vi /etc/mysql/my.cnf」で設定ファイルを以下の要領で編集する。
[mysqld]セクション末尾に「character-set-server=utf8」を追加。
[client]セクション末尾に「default-character-set=utf8」を追加。
「ESC」キー後に「:wq」でmy.cnfの編集内容を保存する。
「mysql-ctl restart」でmysqlを再起動する。
再度phpmyadmin等で「SHOW VARIABLES LIKE "chara%"」を実行し”～latin～”の設定がなくなっていればOK。