というわけで、ひとまず勉強がてら日本語処理関連のユーティリティコードを書き始めることに。
UTF-8というかUnicodeの扱いが問題なんだよなぁ。。。
※みての通りコード推定が雑なので、実用にはまだまだ使えません、念のため↓
-module(jcode).
-export([check/1]).
is_euc({codepair, C1, C2}) ->
( (C1 >= 16#a1) and (C1 =< 16#fe))
andalso( (C2 >= 16#a1) and (C2 =< 16#fe)).
is_sjis({codepair, C1, C2}) ->
(((C1 >= 16#81) and (C1 =< 16#9F))
orelse ((C1 >= 16#E0) and (C1 =< 16#FE)))
andalso( ((C2 >= 16#40) and (C2 =< 16#7e))
orelse ((C2 >= 16#80) and (C2 =< 16#fc))).
check_pair([A, B | T]) ->
CodeE = is_euc({codepair, A, B}),
CodeS = is_sjis({codepair, A, B}),
if
CodeE == true -> {ok, euc, T} ;
CodeS == true -> {ok, sjis, T} ;
true -> check_pair([B] ++ T)
end;
check_pair([A|T]) -> {ok, ascii, [] };
check_pair([]) -> { ok, ascii, [] }.
check(Source) ->
check_pair(Source).
■補足
Erlangでのコード種別変換、あやうく車輪を再発明するところでしたわ。 → http://blog.dressingroom.jp/article/16282486.html
iconvはCとの通信で動くのか → http://blog.dressingroom.jp/article/16282967.html