HOME
HELP
新規作成
新着記事
ツリー表示
スレッド表示
トピック表示
ファイル一覧
検索
過去ログ
[ スレッド内全5レス(親記事-5 表示) ] <<
0
>>
■14169
/ 親記事)
環境依存文字
▼
■
□投稿者/ とし
-(2024/02/20(Tue) 13:47:16)
始めて投稿します。
Windows10で桐10sを使用しています。
桐10sで環境依存文字を含むデータ行をみつける良い方法はないでしょうか?
後の作業で文字化けが起こったりするため防ぐ方法があればアドバイスいただけますか?
引用返信
[メール受信/OFF]
削除キー/
編集
削除
■14170
/ ResNo.1)
Re[1]: 環境依存文字
▲
▼
■
□投稿者/ ONnoji
-(2024/02/20(Tue) 14:17:38)
2024/02/20(Tue) 15:15:37 編集(投稿者)
> Windows10で桐10sを使用しています。
> 桐10sで環境依存文字を含むデータ行をみつける良い方法はないでしょうか?
> 後の作業で文字化けが起こったりするため防ぐ方法があればアドバイスいただけますか?
ひょっとして、次の過去ログが参考になるかもしれませんが・・・???
こちら
↓
過去ログ90
■13397 / inTopicNo.1) unicode が含まれるデータの抽出について
http://tayu.o0o0.jp/bbs/kiri/cbbs.cgi?mode=al2&namber=13397&no=0&KLOG=90
> ■13397 / inTopicNo.1) unicode が含まれるデータの抽出について
> □投稿者/ きりこ -(2022/07/27(Wed) 12:10:56)
> 絞り込みの事でお伺い出来たらと思います。
>
> エクセルやUTF-8のCSVを桐に読込後、項目内のunicodeの含まれるデータを
> 絞り込みしたい場合、どのような関数を使用すればよいのでしょうか。
>
> 例えば記号を含むデータを絞り込む場合は
>
> #is記号([],0)>0
>
> 等で対応できましたが、そのような関数を探してみましたがありませんでした。
> S-JISのCSVにして「?」をサーチするのも大変なのでお分かりになる方が
> いらっしゃればご教授願いたいと思います。
p.s.
ご案内した過去ログは長いので非常に分かりにくいですが、
結論を申し上げると、「シフトJISとして扱えない文字を調べる」という内容ですよ。
・・・・・・・・・・・・・・・・・・・・・
「シフトJISとして扱えない文字」イコール「環境依存文字」という図式ですね。(^^ゞ
> ■13411 / inTopicNo.13) Re[7]: unicode が含まれるデータの抽出について
> □投稿者/ ONnoji -(2022/07/28(Thu) 13:32:03)
>> 桐10では「𠮷」(吉の上が土)や「𦚰」(脇の力が刀)等の
>> 環境依存文字と言われているデータをまとめて抽出する事が出来なくて
>> 頭を悩ましております。
>
> なるほど!、環境依存文字なんね。早く言ってよぉ〜(@_@)
>
> 最初から入力しないのが一番なんですけれど、こればっかりはどうにもなりそうにないですね。
>
> 確かめたところ、やはりシフトJISで扱うと豆腐( "□" )ですね。
>
> 手間でしょうけれども、簡単な手続きを作って実行すれば、検出可能ですね。
>
> 先頭から終端まで順番に移動するループ内で、文字列の項目の先頭文字から順番に1文字ずつ調べるだけです。
>
> 文字数やレコード数が多いと時間がかかるでしょうけれど・・・
引用返信
[メール受信/OFF]
削除キー/
編集
削除
■14171
/ ResNo.2)
Re[2]: 環境依存文字
▲
▼
■
□投稿者/ とし
-(2024/02/20(Tue) 15:47:27)
■
No14170
に返信(ONnojiさんの記事)
> 2024/02/20(Tue) 15:15:37 編集(投稿者)
>
>>Windows10で桐10sを使用しています。
>>桐10sで環境依存文字を含むデータ行をみつける良い方法はないでしょうか?
>>後の作業で文字化けが起こったりするため防ぐ方法があればアドバイスいただけますか?
>
> ひょっとして、次の過去ログが参考になるかもしれませんが・・・???
>
> こちら
> ↓
> 過去ログ90
> ■13397 / inTopicNo.1) unicode が含まれるデータの抽出について
>
http://tayu.o0o0.jp/bbs/kiri/cbbs.cgi?mode=al2&namber=13397&no=0&KLOG=90
>
>>■13397 / inTopicNo.1) unicode が含まれるデータの抽出について
>>□投稿者/ きりこ -(2022/07/27(Wed) 12:10:56)
>>絞り込みの事でお伺い出来たらと思います。
>>
>>エクセルやUTF-8のCSVを桐に読込後、項目内のunicodeの含まれるデータを
>>絞り込みしたい場合、どのような関数を使用すればよいのでしょうか。
>>
>>例えば記号を含むデータを絞り込む場合は
>>
>>#is記号([],0)>0
>>
>>等で対応できましたが、そのような関数を探してみましたがありませんでした。
>>S-JISのCSVにして「?」をサーチするのも大変なのでお分かりになる方が
>>いらっしゃればご教授願いたいと思います。
>
> p.s.
>
> ご案内した過去ログは長いので非常に分かりにくいですが、
>
> 結論を申し上げると、「シフトJISとして扱えない文字を調べる」という内容ですよ。
> ・・・・・・・・・・・・・・・・・・・・・
>
> 「シフトJISとして扱えない文字」イコール「環境依存文字」という図式ですね。(^^ゞ
>
>
>>■13411 / inTopicNo.13) Re[7]: unicode が含まれるデータの抽出について
>>□投稿者/ ONnoji -(2022/07/28(Thu) 13:32:03)
> >> 桐10では「𠮷」(吉の上が土)や「𦚰」(脇の力が刀)等の
> >> 環境依存文字と言われているデータをまとめて抽出する事が出来なくて
> >> 頭を悩ましております。
>>
>>なるほど!、環境依存文字なんね。早く言ってよぉ〜(@_@)
>>
>>最初から入力しないのが一番なんですけれど、こればっかりはどうにもなりそうにないですね。
>>
>>確かめたところ、やはりシフトJISで扱うと豆腐( "□" )ですね。
>>
>>手間でしょうけれども、簡単な手続きを作って実行すれば、検出可能ですね。
>>
>>先頭から終端まで順番に移動するループ内で、文字列の項目の先頭文字から順番に1文字ずつ調べるだけです。
>>
>>文字数やレコード数が多いと時間がかかるでしょうけれど・・・
>
>
ONnojiさん」ありがとうございます。
仰る通り、シフトJISとして扱えない文字を検出したいのです。
結構、データ量が多いので何か関数の組み合わせのようなものはないかと思案しております。
現状は過去ログの投稿者さんと同様にシフトJISに書き出し再度読み込みを行なうことによって?を見つける方法を行っています。
一度、一文字ずつ調べる方法も検討してみます。
ただ、その一文字が環境依存文字であるかどうか手続きで判断する方法が思いつきません。
色々試してみます。
引用返信
[メール受信/OFF]
削除キー/
編集
削除
■14173
/ ResNo.3)
Re[1]: 環境依存文字
▲
▼
■
□投稿者/ ONnoji
-(2024/02/20(Tue) 16:24:49)
2024/02/20(Tue) 17:09:30 編集(投稿者)
> ONnojiさん」ありがとうございます。
> 仰る通り、シフトJISとして扱えない文字を検出したいのです。
> 結構、データ量が多いので何か関数の組み合わせのようなものはないかと思案しております。
> 現状は過去ログの投稿者さんと同様にシフトJISに書き出し再度読み込みを行なうことによって?を見つける方法を行っています。
項目の先頭文字が、シフトJISではない文字である行を絞り込むのは簡単です。
・・・・・・・・
絞り込み:比較式で
#hex( #シフトjis( [文字列型項目名] ) ) = "81A0"
とすれば一発です。
この "81A0" とは、豆腐("□")のことですが、
環境設定の[全般]→[高度な設定]の[シフトJIS変換処理で使う置き換え文字(再起動時に有効)]のことです。
デフォルトでは、豆腐("□")になっているハズです。※ここイジル人はまず居ませんけどね(^^ゞ
絞り込み:比較式で
#hex( #シフトjis( [文字列型項目名] ) ) = "81A0"
で絞り込んだ後、
[文字列型項目名] にカーソルを当てて、右メニューの[コード表示]で、
シフトJISで表示することです。
該当する文字が豆腐("□")になっているのですぐに見つかりますよ。
> 一度、一文字ずつ調べる方法も検討してみます。
> ただ、その一文字が環境依存文字であるかどうか手続きで判断する方法が思いつきません。
一文字づつ調べるためには、先頭文字から末尾文字まで、一文字づつ調べなければなりません。
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
そのためには、[フォーム+イベント処理]等でプログラミングする必要がありますね。
※つまり、(繰り返し処理を含むので)お手軽な計算式では解決しません。
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
プログラミング例は、過去ログの
■13415 / inTopicNo.17) Re[11]: unicode が含まれるデータの抽出について
□投稿者/ ONnoji -(2022/07/28(Thu) 18:56:23)
にありますよ。
p.s.
読み難くなるので、今後は無駄な引用は削除して投稿してください。
p.p.s.
なお、■解決しましたら最下段にチェックを入れてください
引用返信
[メール受信/OFF]
削除キー/
編集
削除
■14174
/ ResNo.4)
Re[2]: 環境依存文字
▲
▼
■
□投稿者/ とし
-(2024/02/21(Wed) 09:50:25)
■
No14173
に返信(ONnojiさんの記事)
ONnojiさん」ありがとうございます。
> p.s.
>
> 読み難くなるので、今後は無駄な引用は削除して投稿してください。
>
初めての投稿で読みづらいところはご容赦ください。
>
> 項目の先頭文字が、シフトJISではない文字である行を絞り込むのは簡単です。
> ・・・・・・・・
>
> 絞り込み:比較式で
>
> #hex( #シフトjis( [文字列型項目名] ) ) = "81A0"
>
> とすれば一発です。
>
> この "81A0" とは、豆腐("□")のことですが、
>
> 環境設定の[全般]→[高度な設定]の[シフトJIS変換処理で使う置き換え文字(再起動時に有効)]のことです。
>
> デフォルトでは、豆腐("□")になっているハズです。※ここイジル人はまず居ませんけどね(^^ゞ
>
> 絞り込み:比較式で
>
> #hex( #シフトjis( [文字列型項目名] ) ) = "81A0"
>
> で絞り込んだ後、
>
> [文字列型項目名] にカーソルを当てて、右メニューの[コード表示]で、
>
> シフトJISで表示することです。
>
> 該当する文字が豆腐("□")になっているのですぐに見つかりますよ。
>
非常に大きなヒントありがとうございました。
ご教示いただいたことを参考に全文字チェックを試してみます。
一度解決済みにしますが、また何かありましたらよろしくお願いします。
解決済み!
引用返信
[メール受信/OFF]
削除キー/
編集
削除
■14176
/ ResNo.5)
Re[3]: 環境依存文字
▲
▼
■
□投稿者/ ONnoji
-(2024/02/21(Wed) 11:09:26)
2024/02/21(Wed) 11:37:26 編集(投稿者)
> 非常に大きなヒントありがとうございました。
>
> ご教示いただいたことを参考に全文字チェックを試してみます。
>
> 一度解決済みにしますが、また何かありましたらよろしくお願いします。
老婆心ながら(^^ゞ
もう一度、繰り返し処理が必要な内容は、お手軽な計算式では解決しません。
なので、アルゴリズムが必要になります。
以下はなるべく桐言語を使わないで記述した疑似コードのアルゴリズムです。
先頭行へ移動
┌繰り返し ( .not #eof )
│
│ 探索位置 = 1
│ 文字数 = #文字数( 項目名 )
│┌繰り返し ( 探索位置 <= 文字数 )
││
││ 探索位置の1文字が豆腐("□")か否か判定する
││
││ 探索位置 = 探索位置 + 1
│└繰り返し終了
│
│ 次行へ移動
└繰り返し終了
ご参考になれば幸いです。
p.s.
なお、検出結果をどのような形でフィードバックするのかは悩ましいですね。
直感的には、
・検出結果(行番号,文字位置:文字)をテキストファイルに出力する
または
・該当文字の前後を " ? "で囲む
が考えられますが・・・(^^ゞ
引用返信
[メール受信/OFF]
削除キー/
編集
削除
このスレッドをツリーで一括表示
スレッド内ページ移動 / <<
0
>>
このスレッドに書きこむ
入力内容にタグは利用できません。
他人を中傷する記事は管理者の判断で予告無く削除されます。
半角カナは使用しないでください。文字化けの原因になります。
名前、コメントは必須記入項目です。記入漏れはエラーになります。
入力内容の一部は、次回投稿時の手間を省くためブラウザに記録されます。
削除キーを覚えておくと、自分の記事の編集・削除ができます。
URLは自動的にリンクされます。
記事中に No*** のように書くとその記事にリンクされます(No は半角英字/*** は半角数字)。
使用例:
No123 → 記事No123の記事リンクになります(指定表示)。
No123,130,134 → 記事No123/130/134 の記事リンクになります(複数表示)。
No123-130 → 記事No123〜130 の記事リンクになります(連続表示)。
■お願い−−−−−−−
質問には、できるだけ「OS・桐 Ver」等ご記入願います
将来ここに掲載されました内容を、桐のファイルへ変換予定です。
できましたら、3,500文字以内位での投稿お願い致します
■ご注意(Comment)−−−−−
通常モード・・・通常文章等
図表モード・・・等幅表示(イベントや数字等を記入したとき:
初期設定
)
■
解決しましたら最下段にチェックを入れてください
■
引用文は、最小限に、お願いいたします
Name
/
E-Mail
/
└> 関連するレス記事をメールで受信しますか?
NO
YES
/ アドレス
非公開
公開
Title
/
メッセージ中には下記URLと同じURLを書き込まないで下さい
URL
/
Comment/ 通常モード->
図表モード->
(適当に改行して下さい/半角10000文字以内)
File
/
アップ可能拡張子=> /
.gif
/
.jpg
/
.jpeg
/
.png
/.txt/.lzh/.zip/.mid
圧縮ファイル[lzh,zip]は、事前に解凍してご利用下さい。
1) 太字の拡張子は画像として認識されます。
2) 画像は初期状態で縮小サイズ250×250ピクセル以下で表示されます。
3) 同名ファイルがある、またはファイル名が不適切な場合、
ファイル名が自動変更されます。
4) アップ可能ファイルサイズは1回
100KB
(1KB=1024Bytes)までです。
5) ファイルアップ時はプレビューは利用できません。
6) スレッド内の合計ファイルサイズ:[0/500KB]
残り:[500KB]
パスワード
/
半角小文字で「ケイ・アイ・アール・アイ」を入力
削除キー
/
(半角8文字以内)
解決済み!
BOX/
解決したらチェックしてください!
プレビュー/
Mode/
通常管理
表示許可
Pass/
HOME
HELP
新規作成
新着記事
ツリー表示
スレッド表示
トピック表示
ファイル一覧
検索
過去ログ
-
Child Tree
-
-
Antispam Version
-