mod_rewriteでアクセス拒否?

会社で管理している、とあるお客さんのホームページ(サイト)の偽物らしきページが某国のトップドメインを持つサイトに上がってるらしいからそこからのアクセスを拒否したい、という依頼があったらしい。

よくよく聞いたら、どうやら、その某国の問題サイトにアクセスがある度に、お客さんのサイトへアクセスしてきて内容を取得して携帯電話で見られるように形にして表示させているらしい。

まぁ、どうやらグーグルにもあるサービスを模した感じかな?普通ならそんなの無視しておけばいいんだが、お客さんのサイトは信用第一で万が一間違いがあってはなならないような固い業態なので放っておけないらしい。

まぁ、サイトのドキュメントルートに 下記ような感じの .htaccess ファイルを置けば、問題無い。

Order Allow,Deny
Allow from all
Deny from  拒否するリモートIPアドレスもしくはリモートホストのドメイン

が!、しかし! 話はここで終わらなかった!
なんと、そのお客さんのサイトのサーバー(正確には共用サーバー)は、limit を上書きできないんだ!
要するに上記の設定を .htaccess に記述してしまうと、500 Internal Server Error を吐いてしまうんだ!

ああ、なんという、クソさ加減。

そして、その時点で、僕にヘルプを求めてきたw

はじめは、そんなクソサーバーを使っている時点で、手の打ちようがねーよ的に返したわけだが・・・
・・・が、しかし、少しでもウェブに関わる仕事をしている者として、プロフェッショナルとして、それではダメだ。
(少々大袈裟です(^_^;;;)

何か代替案を・・・・というわけで、サーバーの仕様書を調べてみると、mod_rewrite の設定は可能のようだ。
っちゅーわけで、Rewriteモジュールを使用して、「特定のリモートIPアドレスにマッチしたらURLを書き換えてしまえ作戦」を発動することを提案。

まぁ、以下代替案。

RewriteEngine On
RewriteCond %{REMOTE_ADDR} ^000\.111.\222\.333$
RewriteRule ^(.*)$  /forbidden/ [R=403,L]
# ちなみに、/forbidden/ は実在しないディレクトリを指定した。

R=403 のところは本来は ステータスコード、301とか302とかにしなければならないんだけど・・・試しに403(アクセス禁止)にしてみたら、アクセス禁止ページを表示してくれた。これってHTTP的にイケないこと?違反なのかな??? まぁ・・・いいや。どうせオイラに責任はないんだしー。

Apacheに精通している人なら、もっとスマートな解決方法をお持ちだと思うんですが、それにしても大手のレンタルサーバーが提供する機能があまりにも貧弱すぎて、まぁ、もろもろ理由があると思うので、しょうが無いんですが・・・。

っていうか、会社にはWebサーバー管理・構築(主にApacheね)に精通する人が一人もいないので、素人に毛の生えたような僕でも適当にやっていけるんだなー(^^;;;

【追記 2013/4/15】
リダイレクトさせるのではなく、アクセスを制限するには、下記のようにするべきでした。
【追記 2015/09/07】
間違い修正

RewriteEngine On
RewriteCond %{REMOTE_ADDR} ^000\.111.\222\.333$
RewriteRule ^(.*)$ - [F,L]
#すべてのアクセスを403(アクセス禁止)に。

PHPで形態素解析とMySQLで全文検索

備忘録メモです。長ったらしいタイトルっす。

ブログの簡易版みたいなスクリプト(管理者だけが書き込める掲示板みたいなやつ)の改造をちょっと前に依頼されたんですが、その中で検索機能(全文検索)を付けるというのがありました。全文検索っていっても、入力された単語にマッチしたレコードを全部表示する、要はSQLクエリーのselect文でlike演算子でマッチさせるだけでいい、ということだったんですが、ただでさえ、面白くないPHPの仕事だし(^^;;;、それだけでは僕にとっても得るものが少ないので(^^;、もうちょっと勉強になるものを作ってみよう、ということで調べました。

仕事しながら勉強って・・・ま、いいか。

日本語の文章をMySQLで全文検索させるには(FULLTEXTインデックスってことね。)、まず日本語の文章を形態素解析にかけて、名詞・動詞・助詞・・・といった風に分解することから始めなければいけません。英文などでは単語間は必ずスペースもしくはカンマで区切られますから、特に意識しなくても済むのですが、日本語の文章や主にアジア圏の言語では、そう簡単にはいきません。

幸いにもフリーで使用できる形態素解析エンジンは結構豊富にあります。有名なものとして、KAKASIやMeCab、Igoなどがあります。が、一般人が実際に使用するには、結構ハードルが高いものです。

まず、何よりレンタルサーバーなどの一般的なサーバーではほぼこのようなライブラリはインストールされていませんし、新たに追加できることは不可能でしょう。でも、最近では非常に低コストのVPSサーバーがあるので、それなりに知識がある人は導入できるでしょうけど、サーバー管理の知識がない方にとっては難しいでしょう。

ただ、PHP、しかも、レンタルサーバーでも利用できる・・・という条件だと、選択肢は非常に限られると思います。その中でも小規模なサイトに必要十分なものとして、Igo-PHPが手軽に利用できて、サイトへの組み込みも少ない工数で行えると思います。

Igo-PHPは、Javaの形態素解析エンジンIgoのPHP移植版で、Igo同様、MITライセンスで自由に利用できるというありがたいライブラリです。作者に感謝です。

流れとしては・・・

  1. Igo-PHPのダウンロード
  2. Igo本体のダウンロード(辞書生成に必要。別途Java実行環境が必要)
  3. 辞書の元となるファイルをダウンロード(MeCabサイト→ダウンロード→Mecab用の辞書(IPA辞書)
    (2017-10-22 リンク先修正)
  4. 2)でダウンロードしたIgo(Javaプログラム)を使用して辞書を生成。
    3)でダウンロードしたファイルを展開し、以下のコマンドをうつ。Windowsだと java.exeがあるディレクトリが%WINDIR%や%PROGRAMFILES%にあったりと環境によって違うと思います。

    >> java -cp igo-0.4.3.jar net.reduls.igo.bin.BuildDic ipadic mecab-ipadic-2.7.0-20070801 EUC-JP

といった感じになります。これらは全部Windows上で行えます。あとは・・・PHPスクリプトからIgo-PHP、生成した辞書を使って形態素解析ができます。

生成されたipadicディレクトリに辞書がビルドされていますので、以後、このipadicディレクトリとIgo-PHPだけを使用します。

WindowsにPHPをインストールされている方は、下記のようなスクリプトを作成して実行してみてください。

<?php
// test.php

// Igo-PHPとipadicディレクトリを 'lib'というディレクトリにまとめて置いとく。
require_once 'lib/Igo.php';
 
$igo = new Igo("./lib/ipadic");
$text = "私には夢がある。";

// 詳細な結果が欲しい場合は、parseメソッド
//$result = $igo->parse($text);

//単に区切ればいいだけなら、wakatiメソッド
$result = $igo->wakati($text);

//それぞれ、単語の配列が返ります。

echo mb_convert_encoding(implode('/',$result),'SJIS');

実行すると、こんな結果がでました。ちゃんと分解されてますね。

>>php test.php
私/に/は/夢/が/ある/。

さて、検索される文章・記事は、MySQLのデータベースに入れることが多いのでMySQL + PHPでの組み込みを中心に。

MySQLでテーブルを作成する際に、記事などを格納させるカラムとは別に、検索用のカラムを一個追加して、そのカラムにFULLTEXTインデックスを張ります。以下のような感じですかね?

CREATE TABLE  posts (id INT,title TEXT,content TEXT,content_s TEXT,FULLTEXT(content_s));

というようなテーブルを用意しておいて、INSERT,UPDATEする際に、contentの内容を形態素解析にかけ、名詞のみ抜き出し、content_sに抜き出した単語を半角スペース区切りでつなげた文字列を格納しておく。要は検索インデックスをcontent_sに貯めておくという方法です。

英語ならば、語と語は必ずスペースで区切られるから、こんなめんどっちーことをしなくてもいいんですが・・・。
データをINSERTするときは、こんな感じでしょうか。

<?php
$igo = new Igo("./lib/ipadic");
$pdo = new PDO('mysql:dbname=testdb;host=localhost','dbuser','password');

//テーブル作成
$pdo->exec('CREATE TABLE posts (id INT,title TEXT,content TEXT,content_s TEXT,FULLTEXT(content_s))');

//テストデータを用意
$id = 1;
$title = '私には夢がある。';
$content = '私には夢がある。私の四人の幼い子ども達が、いつの日か肌の色ではなく人格そのものによって評価される国に住めるようになるという夢です。';

//形態素解析
$result = $igo->wakati($content);
$content_s = implode(' ',$result);

//INSERT文組み立て
$sql = sprintf("INSERT INTO posts(id,title,content,content_s) VALUES(%d,'%s','%s','%s')",
               $id,
               $pdo->quote($title),
               $pdo->quote($content),
               $pdo->quote($content_s));

//クエリー実行
$pdo->exec($sql);

$pdo = null;
$igo = null;

こんな感じでデータをどんどん追加して、

で、全文検索させたいときは、contentカラムを検索するのではなく、content_sカラムを全文検索させるように、

SELECT * FROM posts WHERE MATCH(content_s) AGAINST('検索単語',IN BOOLEAN MODE);

と、するだけ。

ただ、これだけだと、ちょっと不便なことがあります。形態素解析にかけると、辞書にある単語を元に解析するので、二つ以上の名詞がくっついて一つの名詞になるような語がバラバラになってしまいます。

たとえば、「神戸市」の結果は、「神戸」と「市」に分かれてしまいます。「神戸市」と一つの単語で登録したい場合などは、ひと手間かける必要があります。

全文検索以外の他の用途でも使えそう。漢字混じりの文章をすべて平仮名や片仮名に変換したりも可能なので、使い道は結構あると思います。

またデスクトップアプリの機能として形態素解析エンジンを使いたい場合は、.NETアプリで使用できるNMeCabというMeCabの.NET移植版がありますし、形態素解析というと、ものすごく難しい、というイメージですが結構簡単に自分のアプリにも組み込めたりできますので、もっと活用の場があってもいいと思います。

ソース管理されていないコードほど嫌なモノはない

外注先で作って設置してもらった、PHPのスクリプトを改造して、とある機能を付け足して欲しい、という依頼があってやってるんだけど、それがもう誰が作ったかの署名もないスクリプトで、明らかにPHP4時代のもの。

しかも、僕の手元に来たソースファイルはすでに誰か?が改造してあって、明らかに不要な関数やら定数やらがコメントもなく散らばって、グローバル変数とローカル変数の区別が付かないような書き方している。たぶんデザイナーさんが勉強して作ったコードなんだろうな、というのが一見して分かるスクリプト群。

外注先のコードを勝手に改変して使い回して、それで金を客から取っていいのか?という微妙な問題はさておき、大元のソースファイル一式から手を付けた方が良さそうな感じだけど、手元にあるのは改造しまくった後のファイルしかない。

なんで、ソースコード管理しないのか? 一手間かけるのが、嫌なんだろう。ソースコード管理をするには、関わっている人全員にある程度トレーニングを強いることになる。「この忙しい時に、そんな暇(時間)はない」と一蹴されるとは思うんだけど、「時間がない」事を言い訳にしている人(部門)は、時間があっても絶対やらない。

まぁ、SEで専門業務しかやらない人達に営業成績(売上)を求める、訳分からない経営だから、社員さんも作業効率化なんて考えることはないんだろうな。効率化をして時間を作ったら(暇になったら)、自分で自分の首を絞めるようなもんだから、非効率な状態を温存しつつ、自分は忙しくて時間が無い、という状態にしておくことが楽なんだろうね。だからいつまで経ってもスキルアップしない。スキルアップしようとも思わない、というのが正解か。要するにプロフェッショナルじゃないんだよなー。

プログラムを組める人が他の部署にいるのに、外注するよりその人に頼めば?と進言しても、「いや、あの部署の人は・・・」とか結局訳のわかならい理由でダメ。めっちゃ小さい会社なのに、大企業みたいな理由(笑) 小さな会社はフットワークで勝負できるのに、それをやらない。

何かものを頼んだら、「あれはダメ、これもダメ、それは絶対ダメ」、「できない理由」をくどくど説明するような体質。「できない理由」より、「やるために何が必要か」を考える体質に変えないと、いつまで経っても三流中小企業でバカにされるんだよな。

ま、グチを書いたところで、甘い理想論、きれいごとだよな。目の前の作業が大事だよな。あーあ。

Plextor M5 Pro 512GB with SATA2

家で使っているデスクトップPCは、2007年に買ったCore2Quad Q6600マシン。いいかげん買い替えたいけど、どうせ買い替えるならハイスペックマシンを・・・と思うのは当然でしょう。しかしながら先立つものがないので未だ買い替えは実現できず(^_^;;;

せめて、プライマリHDDだけでも、SSDにして延命しよう! というわけで、いろいろ調べたら以下の二つのモデルが性能面で人気があるらしい。

後出しの840PROは、ランダムリード・ライトが僅かながら性能が高い。ランダム転送で100000IOPSを達成とのこと。一方、M5 Proは信頼性が高い東芝製のメモリチップで、SSD840PROよりMTBFが90万時間ほど長い、240万時間の5年保証。

性能はほぼ拮抗しているし、どうせSATA2に接続するので転送速度がボトルネックになるから速度は度外視していい・・・というわけで、M5 Proをチョイス。最近はどのショップで買っても価格はほとんど一緒。

現在使っているプライマリHDDは、Seagate製の500GB。そのままクローンすればラクなので、街に出かけたついでに512GB版を買った。貼ってあるシールを見たら2012 OctoberだったのでBGAタイプのもの。

2013-02-23T17-05-50

Plextor M5 Pro 512GB

移行ツールがダウンロードできるシリアル番号が添付されているのですが、EaseUS Todo Backupが既にインストールしてあったので、EaseUSのブートディスクをCD-Rに焼いて使うことにした。

で、まず最初にしたのは、ファームウェアのアップデート。買ったM5 ProのシールにはFW1.01の文字。Plextorのサイトを見たら、バージョン 1.03がリリースされていたので、ファームウェアのアップデータのISOファイルをダウンロードしてCD-Rに焼いて1.03を適用。

無事ファームウェアの更新が成功したので、EaseUS Todo BackupをCD-Rから起動。ディスクのクローンを選択し、Optimize for SSD(たぶんアライメントの調整を自動的に行ってくれるオプション???)にチェックを入れコピー開始。

40分ほどかかってコピー完了。

で、SATAケーブルを差し替え、HDDを取り外して、再起動!

・・・なんか起動に失敗しました・・・。かなり焦る・・・焦る・・・どうしよう・・・バックアップ取ってね-・・・もしかしてOS再インストール??? 冗談じゃね-ぞ!バカ野郎!!!金返せ!!!

と、パニック状態になりつつ(^_^;、iPadで検索、検索したらFAQのよう・・・システム修復ディスクで「スタートアップを修正」しろ、とのこと。取り乱してお恥ずかし。。。

よく分からないが、スタートアップを修復して、無事Windows7が正常に起動。

SATA2接続なので、READは250~270MB/sぐらい。SATA3の500MB超えは無理だけど、何よりゴリゴリ、ガリガリのHDDアクセス音が無くなったことと、HDDと比べると体感できるほど、初回アプリケーション起動速度が速くなった。全体的にPCの動作・レスポンスが改善した。

それと、でかいアプリケーションのビルド時間が早くなった。なんつーか、小さいファイルの処理が爆速になった気がする。ランダムアクセス性能がやっぱHDDと比較すると段違いだわ。

参考にはならないけど、データ用のHDDとともにベンチマークとってみた。

BENCHMARK

BENCHMARK

もっと早くSSDにするべきだったなー。

packer(.NET版)を勝手に改造

これ、すごい。こんなスマートなビルの壊し方があるんすね。。。ビル爆破より地味だけど、なんかお金かかりそう。
http://www.bbc.co.uk/news/world-asia-21406927

それはともかく。

javascriptコードを圧縮するのに packer (http://dean.edwards.name/download/#packer) の.NET版をよく使っています。
が、.NET版は(たぶん)メンテされておらず?ソースコードも .NET Framework 1.0時代のものなので、見栄えがかなり悪いし、テキストボックスの入力が32KBに制限されていたり、とちょいと不満がくすぶっていました。
最近Javascriptコードを書くことが多くなって、頻繁に使い出すと、どうもこのUI自体が(僕にとっては)使いにくい。

で、あまり見た目を触らずボタン類の配置、ビジュアルスタイルの適用などを含めて改造。
自分用の書庫の意味もかねているので、ここにアップロード。

左がオリジナル。右がUI改造版
jspacker myjspacker

改造点は、

  • ボタン配置・レイアウトを変更した。
  • ビジュアルスタイルを適用するようにした。
  • ラベルを日本語化した。.configファイルでラベル編集可能。
  • テキストボックスの32KB制限を外した。
  • ファイルからの読込(Loadボタン)時に文字コードを判別するようにした。
    (文字判定にInternet Explorerのモジュールを使っているのでIEを削除している方(いないと思うけど)の環境では文字判定できません

ユーザーインターフェイスの部分(Visual C#のIDE上で編集できる部分)のみ修正したのでpacker本体のアルゴリズムには一切タッチせず。packer自体のバージョンは上がっていると思うので、たぶん古いアルゴリズムのままのはず。分からんけど。

プロジェクトのプラットフォームを.NET Framework 3.5にして、フォームを定義しているソースファイルでIDE機能のデザイナーで編集される部分のコードを分離( partial class化)してます。

<< Download from here if you need.>> もし必要ならダウンロードはこちら
(改造後のVisual C# 2008のプロジェクトソースも同梱してます。)
(なんか、chromeだと、危険だ!とか出てダウンロードできませんが、別になんも仕込んではいないです。)

使い方は・・・説明しなくても・・・(^^;;;
ラベルを英語にしたい場合は、Javascript packer.exe.config ファイルを開いて、

&lt;setting name=&quot;Lang&quot; serializeAs=&quot;String&quot;&gt;
&lt;value&gt;ja&lt;/value&gt;
&lt;/setting&gt;

の中の、ja の部分を ja以外、たとえば、en とかにしてください。
ラベルを修正したい場合は、configファイルの該当箇所を修正してください。ただ、ボタン幅は固定なので長さによってははみ出るかも?

でわでわ。