iTunesで曲名の列挙

ちょっとメモ。

iTunesに登録した動画・音楽の一覧をプログラムかスクリプトから取得したくて・・・。
はじめに思いついたのは「ライブラリのエクスポート」で得られるXMLファイルから取得する方法。
これは単純にXMLをパースするだけなんで、C# (.NET Framework)で使えるようにラップするクラスを作った。
これを使って、下記のようなコードで曲名を列挙できた。・・・が、

/*
using System;
using System.Collections.Generic;
using System.Text;
using System.Xml;
using System.Linq;
using System.Xml.Linq;
*/

public static void Main(string [] args)
{
  if(args.Length <= 0)
    {
      Console.WriteLine("XMLファイルを指定してください。");
      return;
    }

  string xmlfile = args[0];

  var albums = new Dictionary<string,Album>();

  var xDict = new XDict(xmlfile,"/dict");
  var Tracks = xDict["Tracks"] as XDict;

  foreach(var key in Tracks.Keys)
    {
      var xDictTrack = Tracks[key] as XDict;
      
      //アルバム名がない場合、アーティスト名で作成する。
      if(xDictTrack["Album"] == null)
        xDictTrack["Album"] = xDictTrack["Artist"] ?? "No Album";
      
      var tune = new Tune(xDictTrack);
      
      if(albums.ContainsKey(tune.Album))
        albums[tune.Album].Tunes.Add(tune);
      else
        albums[tune.Album] = new Album(tune);
    }

  foreach(var album in albums.Values)
    {
      Console.WriteLine("---{0}-",album.Name);
      album.Sort(SortBy.Track);
      album.Tunes.ForEach((tune) => Console.WriteLine("{0:D2}:{1}",tune.Track,tune.Name));
    }
}

これを書いてたとき、たまたまGoogleで検索してたら、iTunesアプリケーション自体がCOMオートメーションサーバーを実装していてドキュメントが公開されているのを今更発見しました(笑) なんだ、スクリプトから簡単に曲名からプレイリストの編集までできるんじゃないですか!(^^;;
さっそく https://developer.apple.com/downloads/ で無料のデベロッパー登録?して “iTunes COM for Windows SDK”をダウンロードしドキュメントをゲット。

/*
 wscriptで動かすと延々メッセージボックスがポップアップするので注意。
*/
var	iTunes = WScript.CreateObject("iTunes.Application");
var	tracks = iTunes.LibraryPlaylist.Tracks;
var	num = tracks.Count;
for(var i = 1;i <= num;i++)
 WScript.Echo(tracks.Item(i).Name);

簡単!

最初のXMLから取得する方法は無駄になった・・・けど、C#でXMLを操作する勉強をしたと思えば・・・ま、いいか(^^;

Perlで並列処理

複数のファイルをダウンロードするとき、wget を使っているのですが、複数のファイルをダウンロードするときは、URLのリストをファイルにして、-i でwgetに食わせてました。でもこれだと順番に一個ずつダウンロードしていくので効率が悪いです。サイズの小さなファイルだと気にならないんですが・・・。

で、Perl の system関数で、複数のwgetプロセスを作れば・・・と考えました。けど、ダウンロードするファイル数と同じ数のプロセスを作ると効率が悪いし、ダウンロード先のサーバーに迷惑をかけてしまいます。ので、同時に起動するwgetの数を制限するようにしたらいいんじゃないかと。

起動するプロセス数を制限するには、Parallel::ForkManagerモジュールが簡単で便利でいいんですが・・・Windows環境では不自然・・・ということで、threadsthreads::shared モジュールを選択。

下記のような感じのPerlスクリプトをnohup コマンドで起動すれば、あとはターミナルを切断しても勝手にやってくれる。終わったら携帯にメールを投げるようなコードを付け足せば・・・より便利かなと。

#!/usr/bin/perl

####################################################
# parallel-wget.pl urllist1.txt urllist2.txt ...
#  '-'(ハイフン) を指定すると標準入力から読み込む
#
# Perl 5.8.8 で確認
####################################################
use strict;
use warnings;
use threads;
use threads::shared;
use IO::File;
use File::Basename;

#何個のWGETを起動するか = スレッドの個数
my $NUM = 4;

#wgetコマンド。パスが通ってない場合はフルパスを。
my $WGET_COMMAND = 'wget';

#WGETオプション引数の指定
my @WGET_OPTION = qw(-nd -a Thread%02d.log --content-disposition);
# sprintf関数に渡されます。 %02d には スレッド番号が入ります。

#スレッド間で共有する配列。
my @WGETS : shared;

#Startup code
&{sub
{
  @WGETS = get_wget_commandline(@_);

  my @threads;
  $NUM = scalar(@WGETS) if(@WGETS < $NUM);
  
  #わざわざ $i_ なんて使わず、$_を使えばいいところだけど、
  # $_ を使うと "Scalars leaked: 1" なんてエラーが出るので・・・。
  # ガーベージコレクタのせい? 出たり、出なかったりする。なんで?
  foreach my $i_(1..$NUM)
    {
      push @threads,threads->create(\&ThreadStart,$i_);
    }
  
  $_->join foreach(@threads);
  
}}(@ARGV);

#ワーカースレッド関数
sub ThreadStart
{
  #引数はスレッドの番号
  my $num = shift;
  
  local $| = 1;

  #スレッド間で共有された配列が空になるまでスレッドを回す。
  while(@WGETS)
    {
      my $wget_command_line;
      {
        lock(@WGETS);
        $wget_command_line = shift @WGETS;
      }
      system(sprintf($wget_command_line,$num)) if($wget_command_line);
    }

  print STDERR "Thread($num) terminated...\n";
}

#URLが列挙されているファイルからwgetコマンドラインを組み立て、
#それらを配列に格納して返す。
sub get_wget_commandline
{
  my @retval;

  #code here
  foreach my $ifile_(@_)
    {
      next if($ifile_ ne '-' && !(-e $ifile_));

      my $fin = ($ifile_ eq '-') ? IO::File->new_from_fd(fileno(STDIN),'<') : IO::File->new($ifile_);

      die "can not detect input stream...\n" unless($fin);

      my ($name,$dir,$suffix) = fileparse($ifile_,qr/\.[^\.]*/) if($ifile_ ne '-');

      $name = "wget_$$" unless($name);
      $name = qq("$name") if($name =~ /\s/);

      my $wget_command_line = join(' ',($WGET_COMMAND,@WGET_OPTION,"-P $name",''));
  
      while(my $line = $fin->getline)
        {
          #改行文字、空行を削除
          $line =~ s/[\r\n]+//;
          next if($line =~ /^\s*$/);
          
          push @retval,$wget_command_line . $line;
        }
    }

  return @retval;
}
__END__

Perlでスレッドはなんか怪しい挙動。

Scalars leaked: 1

CentOS環境では上記エラー(警告か?)が出るけど、Windows上のActive Perl では出ない。
foreachとかforのループで、$_を渡すと出たり出なかった・・・?よく分からん。

プロセスの仕組みが根本的に違うWindowsだと並列処理はスレッドベースになって複雑にならざるを得ないのが残念すね。

スレッドプールなモジュールをインストールしようと思ったんですが、単純な問題だったので、そこまでやる必要なかった感じ。

難読化なのか単なる嫌がらせなのか?

(2011/12/29 ちょこっと追記した)

javascriptの難読化についてググってたら、たまたま検索結果にAcme::EyeDropsというPerlモジュールを見かけました。

cpan Acme::EyeDrops か、ActivePerlなら ppm install Acme-EyeDrops とかでインストール。

結構はまってしまいまして・・・eyeファイル作るの楽しいす。自己満ですけど(^^;
eyeファイルは、要は「#」だけでアスキーアートを作ればいいだけ。エディターだけで作るのは手間かかるけど、テキストペイントっていうアプリが一番使いやすい。かなり古いけど。この手のアプリって、なんか有名なものってあるんですかね?

たとえば・・・下記のようなeyeファイル(拡張子はeye)と、

##    ##  #######  ##     ## ########     ######## ##    ## ########  ######    #######  ##    ## ##       ##    ##
 ##  ##  ##     ## ##     ## ##     ##    ##        ##  ##  ##       ##    ##  ##     ## ###   ## ##        ##  ##
  ####   ##     ## ##     ## ##     ##    ##         ####   ##       ##        ##     ## ####  ## ##         ####
   ##    ##     ## ##     ## ########     ######      ##    ######    ######   ##     ## ## ## ## ##          ##
   ##    ##     ## ##     ## ##   ##      ##          ##    ##             ##  ##     ## ##  #### ##          ##
   ##    ##     ## ##     ## ##    ##     ##          ##    ##       ##    ##  ##     ## ##   ### ##          ##
   ##     #######   #######  ##     ##    ########    ##    ########  ######    #######  ##    ## ########    ##
 

下記のように変換するサンプルスクリプトを用意して・・・

#!/usr/bin/perl
#
#  hello world
#
use strict;
use warnings;
use IO::File;

&amp;{sub
{
  IO::File->new_from_fd(fileno(STDERR),'>')->print('Hello,World\n');
  
}}(@ARGV);

下記変換スクリプトで上記ファイルを処理してやると・・・

#!/usr/bin/perl

use strict;
use warnings;

use Acme::EyeDrops qw/sightly/;

#Startup code
&{sub{

  my $command =
    {
      Regex => 0, 
      EyeDir => eyeファイルが置かれているディレクトリパス
      Shape =>; 変換に使用するeyeファイルのベース名
      SourceFile => 変換するPerlファイル
    };

  print sightly($command);

}}(@ARGV);

↓のような感じに変換される。。。これでちゃーーーーんとPerlスクリプトとして動くんだ!
用途は分からんけど・・・(笑) もう嫌がらせの域かと。 実際、忙しい時に、こんなファイルを見せられたら発狂するな(^^;;;
ドキュメントをよく読んでないので分かりませんが、変換後のソースを元に戻す方法あるのかな~?

遠くから見ると、文字に見えてきませんか?(^^;;;

eval eval '"'.


((    ((  '#'))))  .+     (( ('!'))).     '/'.('[' ^+    (( '.'))).(  ('[')^    "(").(  ((    (( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '['   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ))))  ^+ ((         ')')
   ))    .+     (( ((     (( '/')))))     ).('`'      |+    '"').(    ('`')|   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  ')') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   ).     (('`')|   ('.')).  ((     ((    '/')))).    +(    '['^'+')  .('`'|    "%").(  ((    (( '['))))^    ((
 
 
((    ((  ')'))))  ))     ). ('`'|','     ).("!"^ ((    (( '+')))))  .('['^    ".").(  ((    (( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '['   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ))))  ^+ ((         '(')
   ))    .(     (( ((     (( '`')))))     )|'%')      .(    ('{')^    '[').(   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '[') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   ^+     "(").(   '['^'/'  ).     +(    '['^')')    .(    '`'|')')  .('`'|    "#").(  ((    (( '['))))^    ((
 
 
((    ((  '/'))))  ))     ). ';'.('!'     ^"+").( ((    (( '['))))^  '.').(    '['^'('  ).    +( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '`'   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) |'%'  ). +(         '{'^
   ((    ((     (( ((     (( '[')))))     ))))))      .(    ('[')^    ',').(   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '`') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   |+     "!").(   '['^')'  ).     +(    '`'|'.')    .(    '`'|')')  .('`'|    ".").(  ((    (( '`'))))|    ((
 
 
((    ((  "'"))))  ))     ). ('['^'('     ).";".( ((    (( '!'))))^  '+').(    '['^'.'  ).    +( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '['   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ^'('  ). +(         '`'|
   ((    ((     (( ((     (( '%')))))     ))))))      .(    ('{')^    '[').(   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '`') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   ^+     ")").(   '`'^'/'  ).     ((    (':'))).    ((    ":")).(  ('`')^    "&").(  ((    (( '`'))))|    ((
 
 
((    ((  ')'))))  ))     ). ('`'|','     ).("`"| ((    (( '%')))))  .';'.(    '!'^'+'  ).    +( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '!'   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ^'+'  ). ((         '&')
   ).    ((     (( ((     (( '\'))))     )))).+      ((    '{')).    ("["^   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '(') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   ).     (('[')^   ".").(  ((     ((    '`'))))|    ((    '"'))).(  ('!')^    ('+')).  ((    (( '\'))))    .+
 
 
((    ((  '{'))))  .(     (( ('!')))^     ('+')).( ((    (( '{'))))^  '[').(    '{'^'['  ).    +( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '`'   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ^')'  ). +(         '`'^
   ((    ((     (( ((     (( '/')))))     ))))))      .+    (':').    ":".(   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '`') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   ^+     "&").(   '`'|')'  ).     +(    '`'|',')    .(    '`'|'%')  ."-".    ('>').(  ((    (( '`'))))|    ((
 
 
((    ((  '.'))))  ))     ). ('`'|'%'     ).("["^ ((    (( ',')))))  .'_'.(    '`'|'&'  ).    +( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '['   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ^')'  ). +(         '`'|
   ((    ((     (( ((     (( '/')))))     ))))))      .(    ('`')|    "-").   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '_') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   .(     '`'|'&'   ).('`'|  ((     ((    '$')))))    .+    '('.('`'  |'&').    (('`')|  ((    (( ')')))))    .(
 
 
((    ((  '`'))))  |+     (( ','))).(     '`'|'%') .(    (( ('`')))|  '.').(    '`'|'/'  ).    (( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '('   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) )).(  (( ((         '{')
   ))    )^     (( ((     (( '(')))))     )).''.      +(    ('{')^    '/').(   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '`') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   ^+     "$").(   '`'^'%'  ).     +(    '{'^')')    .(    '{'^')')  .")".    ','."'"  .+    (( ('>'))).    ((
 
 
((    ((  "'"))))  ))     .+ ')'.'-'.     '>'.('[' ^+    (( '+'))).(  ('[')^    ")").(  ((    (( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '`'   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ))))  |+ ((         ')')
   ))    .(     (( ((     (( '`')))))     )|'.')      .(    ('[')^    "/").   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '(') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   .+     ('\').   ('"').(  ((     ((    '`'))))^    ((    '('))).(  ('`')|    "%").(  ((    (( '`'))))|    ((
 
 
((    ((  ','))))  ))     ). ('`'|','     ).("`"| ((    (( '/')))))  .','.(    '{'^','  ).    +( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '`'   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) |'/'  ). +(         '['^
   ((    ((     (( ((     (( ')')))))     ))))))      .(    ('`')|    ',').(   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '`') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   |+     ('$')).   ('\').  ((     ((    '\'))))    .(    '`'|'.')  .'\'.    '"'.')'  .+    (( ";")).(    ((
 
 
((    ((  '!'))))  ))     ^+ ('+')).(     '{'^'[') .(    (( ('{')))^  '[').(    '!'^'+'  ).    (( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( (((   (( ((        ((  ((
  '\'   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ))))  )) ))         ))))
   ))    ))     )) ))     )) ))).'}'.     '\'.+      ((    '}')).    ('(').   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '\' ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   ).     ('@').(   '`'^'!'  ).     +(    '{'^')')    .(    '`'^"'")  .('{'^    ('-')).  ((    (( ')')))).    ((
 
 
((    ((  ';'))))  ))     .( '!'^'+')     .(('!')^ ((    (( '+')))))  .""";    $:='.'^  ((    (( ((       ((    ((
 ((  ((  ((     (( ((     (( ((     ((    ((        ((  ((  ((       ((    ((  ((     (( '~'   )) ))        ))  ))
  ))))   ))     )) ))     )) ))     ))    ))         ))))   ))       ))        ))     )) ))))  ;( $~         )=((
   ((    ((     (( ((     (( '@')))))     ))))))      )|    '(';$^    =")"^   ((     (( (( (( (( ((          ((
   ((    ((     (( ((     (( ((   ((      ((          ((    ((             ((  ((     (( ((  '[') ))          ))
   ))    ))     )) ))     )) ))    ))     ))          ))    ))       ))    ))  ))     )) ))   ))) ))          ))
   ;(     $/)='`'   |'.';$,  =(     ((    "(")))^    ((    '}'));$  ="`"|    '!';#;#  ;#    ;# ;#;#;#;#    ;#
 
 

HTML DOM access with C#

備忘録です。

System.Net.WebRequest / System.Net.WebResponse クラスを使ってWeb上のHTMLを取得するのは、非常に簡単にできます。MSDNドキュメントにもサンプルがありますし、ネット上でも豊富にサンプルがあるので問題はないです。

が!、取得したHTMLファイルを元に、DOMアクセスさせようとすると途端に.NET Frameworkプログラマーの初心者には、行き詰まってしまいます。 その原因として二つの壁にぶち当たりました。

  1. そもそもHTML の DOMパーサーが、標準でクラスライブラリにない。
  2. Web上から取得したHTMLファイル内に使われている文字コードの判別と、文字コード変換を担うクラスライブラリが標準で提供されていない。

このうち(1)のDOMパーサーについては・・・

Internet Explorer で使われている(正確には WebBrowser コントロールだけど)mshtml.dllが提供するパーサーに任せることができます。mshtml.dll のタイプライブラリが登録されているので、参照を追加することでDOMアクセスができます。具体的には・・・

//HTML内のリンクを列挙するサンプル
using Microsoft;

public static void DomAccessSample(string html)
{
  var hd = new mshtml.HTMLDocument();
  var hd2 = hd as mshtml.IHTMLDocument2;
  
  hd2.write(html);
  foreach (mshtml.IHTMLElement link in hd2.links)
    {
      Console.WriteLine((string)link.getAttribute("href", 0));
    }
}

こんな感じでしょうか。Visual StudioのIDEを使わず、コマンドラインからビルドするには、

#アセンブリの位置はあくまで僕の環境です。 
csc /r:C:\Windows\assembly\GAC\Microsoft.mshtml\7.0.3300.0__b03f5f7f11d50a3a\Microsoft.mshtml.dll ソースファイル.cs

のように、GACに登録されているアセンブリ(DLLファイル)を参照に加えてビルド。

さて、次は、(2)なんですが・・・

MSDNでのサンプルなんかでは、System.Net.WebResponse.GetResponseStream() メソッドから得られるストリーム(Webから取得したバイト列)を、適切なSystem.Text.EncodingとともにSystem.IO.StreamReaderクラスのコンストラクタに渡して、ReadLIneメソッドなどで文字列(string)などを得るようなコードが提示されています。↓のような感じ。

http://msdn.microsoft.com/ja-jp/library/system.net.webresponse.getresponsestream(v=VS.90).aspx

しかしながら・・・このMSDNのサンプルコードには不満があります。というか、このコードの実用性は全く無い。

(サンプルなんだから当然っちゃー、当然なんですけどね。)

だって、取得したストリームに使用されている文字コードをUTF8と決めうちしてるんだもんねぇ~。 Web上のテキスト・リソースは、日本に限っただけでも、主にShift_JIS/EUC-JP/ISO-2022-JP/UTF-8 があるし・・・。

Perlで言えばEncode モジュールのような文字コードを判別する処理が必須なんですけども .NET Framework の標準クラスライブラリにはそういったクラスが無い。まぁ、彼ら(.NET Framework の開発者)からしてみれば同じ言語なのに3つも4つも文字コード規格がある、なんてことにいちいち対応してられないんでしょうね。

で、ストリームから得られたバイト配列の文字コードを判別する方法は、検索してみると、下記に詳しく解説されていますね。

文字コードを判別する (DOBON.NET)

この、mlang を使用する方法がお手軽でいいんじゃないかと・・・。Internet Explorer で使われている mlang.dll を利用します。上記サイトで解説されているのように、mlang.idlファイル(WindowsSDKに同梱されています) から、タイプライブラリを生成してレジストリに登録し、Visual C#のプロジェクトに参照を加えることでmlang(MultiLanguage)を利用します。Visual StudioのIDEを使わない場合は、tlbimp.exe で タイプライブラリからプロキシ(ラッパー?)アセンブリ(DLLファイル)を生成して、コンパイルするときにそのDLLを/rオプションで読み込ませます。

//コードの大半は、上記サイトからのコピペ。
//バイト配列から文字コードを推測して、System.Text.Encoding を返す
using System.Text;
using MultiLanguage;

public static Encoding DetectEncoding(byte[] bytes)
{
  sbyte[] sb = (sbyte[])(object)bytes;
  int len = sb.Length;
  var ml = new CMultiLanguageClass() as IMultiLanguage2;
  int scores = 5; //実際には1で十分だけど
  var detects = new tagDetectEncodingInfo[scores];

  //文字コード判別
  ml.DetectInputCodepage(8|4,0,ref sb[0],ref len,out detects[0],ref scores);

  //DetectInputCodepageメソッドから返ると、scoresには実際にdetect配列に格納された候補数が入っている。
  //返された、DetectEncodingInfoとscores(候補数)を見てみる。
  //DetectEncodingInfo.nCodePageがコードページ。
  //Windows(日本語)なら932とかUTF-8なら65001とか入っているはず。
  Console.Error.WriteLine("Scores = {0}",scores);
  for(int i=0;i&lt;scores;i++)
    {
      Console.Error.Write("CodePage[{0}] = {1}; ",i,(int)detects[i].nCodePage);
      Console.Error.Write("Confidence[{0}] = {1}; ",i,(int)detects[i].nConfidence);
      Console.Error.Write("Percentage[{0}] = {1}; ",i,(int)detects[i].nDocPercent);
      Console.Error.WriteLine("");
    }

  //一番初めのtagDetectEncodingInfoのEncodingを取得
  Encoding enc = Encoding.GetEncoding((int)detects[0].nCodePage);

  //後始末らしい。
  System.Runtime.InteropServices.Marshal.ReleaseComObject(ml);

  return enc;
}

COMインターフェイスのIMultiLanguage2::DetectInputCodepage() メソッドは、複数の候補を返すことができ、DetectEncodeInfo 構造体にどのくらい正確かを示すint値が入っているようで、それらから判断するようです。ちなみに、IMultiLanguage2::DetectInputCodepage() メソッドの第一引数には、判別するバイト列がどのようなものかを予め入力できて、僕は、4(MLDETECTCP_DBCS) | 8(MLDETECTCP_HTML) = 12 を指定しました。

ただ、僕の環境~WIndows7 x64版~では、WindowsSDK v7.0 + .NET Framework 3.5 だと、ソースをビルドするとき、ターゲットプラットフォームを X86 (つまり32ビットね) にしないと、メチャクチャなコードページ値が返るか、COM参照の例外(HRESULT: E_FAIL)が発生して落ちてしまいます。
ノートパソコン(VAIO Z)の方は、WindowsSDK v7.1 + .NET Framework 4 なんですが、こちらはエラーが出ず正常。

ちょっと原因分からず。タイプライブラリはちゃんと64bit,32bitとともに登録しているんですが・・・やり方が間違ってんでしょうかねぇ・・・IE9をインストールしているので、古いWindowsSDKだとダメなのかもしれませんね(あくまで推測)

ただ、.NET Framework から COM を利用するあたりのマーシャリングとかの仕組みがいまいち分かってないので、また勉強しないといけないな~。

PHPにはもうウンザリ

自分の知識の無さが恥ずかったこと。

PHPで組んである、動かない入力フォームのメール送信スクリプトを、ちょっと見てくれないか? と言われ見てみたんですが・・・、はじめ、見たとき正直、なんでこれが動くんだ? と思ったんですね。

いきなり、初期化されていないグローバル変数で分岐してあるような、理解不能なコード。
だいたい要点は ↓↓↓↓ こんなん。

&lt;?php
include('function.php');

$NAME = stripslashes($NAME);
$PHONE = stripslashes($PHONE);

if($send == 'ok')
{
 /* ゴニョゴニョ*/
}
else
{
/* こそこそ */
}

/* だいたい上記のようなコードから始まる。*/

文字列比較に == を使っているところなど、ツッコミどころ満載なんですが・・・
$NAMEって? $PHONE って? $send って? どこから来たん???
しばしPHP配布サイトのマニュアル見ながら、考える・・・・。
WAMPで立ててる、Windowsのテストサーバーで動かしても、当然ながら動かず。

(他の仕事をしながら、数時間経過)

は!? これがもしや register_globals 問題か???? と思って、実際上がってるサーバーの仕様を教えてもらうと、
register_globals は off 。まぁ・・・当たり前ですが・・・。気付けばなんてことない。

というか、PHPのバージョン 4以前から組んでいる人からすれば、すぐに気付くんでしょうけど・・・、
僕がPHPを触りだしたのは PHP5 から。当然、入力は $_GET[]や$_POST[]で取るもんだと思ってました。
「動くはずがない!」と断言してしまってました(笑) あー、恥ずかしや・・・(T-T)

っていうか、PHPってなんちゅー仕様なんだ???
register_globals を on にするメリットが全く理解できない。というか、なんでこんな設定があるのかが分からない。

ネットにアンチ・PHPって人をよく見かけるけど・・・分かる気がする。昔の人は、よくこんなキモイ仕様で書いてたもんだ。

<?php ?> で括れば、容易にサーバーサイドのコードを埋め込めるのは、便利なように見えるんですが・・・ HTMLタグとPHPコードがスパゲッティー状にこんがらかったファイルを見ると・・・たとえ自分が書いたコードでも読む気がしない・・・というか、自分で書いたものさえ2~3日したら解読不能になる orz…