PHPでのExcel吐き出しCSVファイルの処理

何度となくハマったPHPでのCSV処理・・・もういやだ。
最初は、fgetcsv で setlocaleし忘れでハマり、改行を含むセルでSplFileObjectを知り、SJIS-WIN でハマり・・・もういやだ。

もうCSVで涙目になるのは嫌なので、一個クラスを作る。

要はCP932エンコードされたCSVファイル用の SplFileObject が欲しい!ってことなんですけどね。
マルチバイト用のSplFileObject、mb_SplFileObjectみたいなもの標準で入れてくんないのかな・・・。

ってなわけで?、
SplFileObjectから派生したクラスを定義。ついでに、read / readAll / each メソッドを追加。これは自己満。
コンストラクタでCP932なCSVファイルを引き受けて、UTF-8に変換した作業用ファイルを作成して、デストラクタで消去。
はじめは file_get_contentsで一気に変換しようかと思ったが、巨大サイズのファイルを渡されるとmemory_limitに引っかかるので・・・(^^;
/usr/bin/nkf とか /usr/bin/iconv とかに丸投げしようかと思ったけど、Windows環境だとメンドーだし。

とりあえず、 jQuery のeachみたいな感じのものが欲しかったので・・・

<?php
//エクセルから排出したCSVは・・・
$csv = new Csv($csvpath); 

//CSVがUTF-8なら文字コード変換はスルーする
// というか、CSVファイルがUTF-8の場合は、SplFileObjectをそのまま使えばいいじゃん! ってことなんですけどね。
$csv = new Csv($utf8_csvpath,array('encoding' => 'UTF-8'));

//テスト出力
$csv->each(function($num,$i,$row) { printf("%03d : %03d : %s\n",$num,$i,$row[1]); });

クラス作るほどのものじゃないんだけどなー・・・・

<?php 
/*
  あんまテストしてない。動けばいいや的な。
*/
class Csv extends SplFileObject
{
  private static $DEFAULT_OPTIONS = array( 'remove' => false,
                                           'encoding' => 'SJIS-WIN',
                                           'mode'   => 'r');

  protected static function prepare(&$filepath,&$options)
  {
    $path = $filepath . '.utf8';
    $fout = new SplFileObject($path,'w');
    $fin = new SplFileObject($filepath);
    $fin->rewind();
    foreach($fin as $line)
      $fout->fwrite(mb_convert_encoding($line,'UTF-8',$options['encoding']));

    $fout->fflush();
    unset($fin,$fout);

    $filepath = $path;
    $options['remove'] = true;
  }
  
  protected $path;
  protected $options;

  // constructor & destructor
  public function __construct($csvpath,$options = array())
  {
    if(!is_array($options))
      throw new Exception("second argument is invalid type");
    $this->options = array_merge(self::$DEFAULT_OPTIONS,$options);
    $this->path = $csvpath;
    if(strlen($this->path) == 0)
      throw new Exception('CSV file path is required.');

    // change encoding...
    if(!preg_match('/utf-?8/i',$this->options['encoding']) && file_exists($this->path))
      self::prepare($this->path,$this->options);

    parent::__construct($this->path,$this->options['mode']);
    $this->setFlags(SplFileObject::READ_CSV);
  }
  public function __destruct()
  {
    if($this->options['remove'])
      unlink($this->path);
  }

  /**************************************************************************
    * read all and returns array of rows ( helper method )
  **************************************************************************/
  public function readAll($ignore_first = false)
  {
    return $this->read($ignore_first ? 1 : 0,-1);
  }

  /*********************************************************************
   * read and call $callable with CSV row.
   * $callable must be function with 3 arguments.
   * first argument is line number,
   * second argument is index number of loop,
   * third argument is array of row.
   *    placefolder:  function callable($linenumber,index,$row); 
   *  and if $callable returns -1, loop process is stop immediately.
  *********************************************************************/
  public function each($callable, $offset = 0)
  {
    return $this->read($offset,-1,$callable);
  }


  /***********************************************************************
   * read csv 
    if $length is -1, returns all. 
    if $callable is set, call $callable and return value num of calls
  ***********************************************************************/
  public function read($offset = 0,$length = 0,$callable = null)
  {
    $rv = false;
    if($length)
      {
        $is_call = $callable && is_callable($callable);
        $count = 0;
        $num = $offset;
        $ite = new LimitIterator($this, $offset, $length);
        foreach($ite as $row)
        {
          $num++;
          if(is_null($row[0]))
            continue;

          if($is_call)
            {
              if(!is_int($rv))
                $rv = 0;

              $result = call_user_func_array($callable,array($num,$count++,$row));
              $rv++;
              if(intval($result) < 0)
                break;
            }
          else
            {
              if(!is_array($rv))
                $rv = array();

              $rv[] = $row;
            }
        }
      }

    return $rv;
  }
}

Text::CSV_XS::version を確かめなさい・・・

全県の郵便番号CSV(ZIP書庫)ファイルを日本郵便のサイトからダウンロードして、解凍して、SQLiteのテーブルへぶち込む、一連の流れをperl で書いた。

そもそもの発端は、メールフォームや会員登録フォームなどで住所を入力する手間を省くため郵便番号から自動的に住所が挿入される、よくある仕組みを実装するため、変換のベースとなるCSVデータをSQLiteにインポートすれば、SELECT一発で引けるやん、という訳。

ここで、上記のCSV => SQLite にインポートするため、Text::CSV_XSモジュールを使った。まぁ、それが当然ですよね。このスクリプト自体はすぐ出来たんですが、作成・実行をWindows7上のActivePerl 5.14.1 で行った。なんら問題ない。

#CSVからレコードを読込データベーステーブルに登録する。
# $dbh   :DBIハンドル,
# $table :テーブル名
# $fin   :CSVファイルのIOハンドル
# utf8,h2z_,sjis は 文字コード変換のために定義した関数
# eval_result はエラー処理のために定義した関数
sub csv2db
{
  my ($dbh,$tablename,$fin) = @_;
  my $csv = Text::CSV_XS->new({binary => 1,eol => $/});

  eval
    {
      my $sth = $dbh->prepare(sprintf('insert into %s values(?,?,?,?,?,?,?,?,?)',$tablename));
      $dbh->begin_work;

      my $count = 1;
      while(my $row_ = $csv->getline($fin))
        {
          $row_->[1] =~ s/\s+$//g;
          if(1 != $sth->execute($row_->[0],
                               $row_->[1],
                               $row_->[2],
                               utf8(h2z_($row_->[3],'cp932')),
                               utf8(h2z_($row_->[4],'cp932')),
                               utf8(h2z_($row_->[5],'cp932')),
                               utf8($row_->[6]),
                               utf8($row_->[7]),
                               utf8($row_->[8])))
            {
              print "failed to insert...row($count)\n";
            }

          if((my $c = $count++) % 10000 == 0)
            {
              $dbh->commit;
              print sjis("${c}件登録されました。\n");
              $dbh->begin_work;
            }
        }
    };
  eval_result('insert data successfully.',sub{$dbh->commit;},sub{$dbh->rollback;});
}

で、このコードを含む一連のスクリプトを、テストサーバー(CentOS6 / perl 5.10 ) で実行すると・・・

Wide character in subroutine entry…

でました・・・。やな、メッセージ(;゚ロ゚)

半角カタカナから全角カタカナの変換がおかしいのかなー・・・なんて見当違いな事をいろいろ試してました。というのも、ちゃんと変換できてるレコードもあるので・・・。ちゃんとSQLiteへインポートできたレコードと上記エラーメッセージが出たレコードを比較しても全然分からん。

で、最終的に、分かったのが・・・CSVからレコード配列に変換するときに変なことが起こってるみたい・・・というのが判明して、Text::CSV_XSモジュールを使わず単純にsplitを使うと、あっけなくインポート終了。なぜ???

最終的に、Text::CSV_XSのバージョンが違っていたことが原因と判明。

Windows上のActivePerlにバンドルされていたバージョンは、”0.82″。 CentOS上のperlにバンドルされていたバージョンは”1.19″。どうやら新しい方のバージョンは、Text::CSV_XS->new({…, decode_utf8 => 0})というようにdecode_utf8属性?を無効にしないと、UTF8フラグが付いてしまう?らしい。この辺、まだよく分からん。

こんな、perldoc Text::CSV_XS をちゃんと読めば解決できたであろう、しょーもないことに丸2日もかかっちまったよ。トホホ。。。