(現在 過去ログ29 を表示中)

HOME HELP 新規作成 新着記事 トピック表示 ファイル一覧 検索 過去ログ

[ 親記事をトピックトップへ ]

このトピックに書きこむ

過去ログには書き込み不可

■4620 / inTopicNo.1)  完了しました
  
□投稿者/ まえだ -(2009/04/10(Fri) 08:31:11)
    解決済みにチェックを忘れました。

    ご指摘のとおり エクセル処理からスタートしたのが遠回りだったかもわかりません。
    でも何回と無く同じ作業を行った結果、連結、連続性の問題など うっかり見逃す処理も修正をかけ完成することが出来ました。

    次回も早速一括処理のエラーぶつかっておりますのでよろしくお願いいたします。
解決済み!
引用返信 [メール受信/OFF] 削除キー/
■4619 / inTopicNo.2)  Re[5]: レコードの連結
□投稿者/ 通りすがり -(2009/04/10(Fri) 08:26:36)
    > 皆さん、なんで英語で記述するのでしょうか
    > 普通はその方が記述しやすい・見やすいのでしょうか

    オイラは英語の方が書きやすいし・見やすいなぁ
    単なる個性ってことで
引用返信 [メール受信/OFF] 削除キー/
■4618 / inTopicNo.3)  Re[4]: フォームを考えよう
□投稿者/ まえだ -(2009/04/10(Fri) 08:22:18)
    みなさんおはようございます。

    いろいろとお世話になりました。やっと完成しました。
    最終的には「フォーム」と簡単な一括処理の連続で希望通りの処理が出来ました。
    <一括処理>
    変数宣言 整数,固有{&I,&おわり}
    *----------------------------NEXT
    変数宣言 整数,固有{&I,&おわり}
    結合 組成
    使用フォーム sagyo
    フォーム形式編集
    グループ指定 先頭
    印字開始 "組成.txt",追加
     繰り返し ( .Not #終端行 )
      印字 [C],","[B],",",
           繰り返し &I=1,#総件数
            印字 [A],
            ジャンプ 行番号 = 次行
           繰り返し終了
      印字 [計算]
      グループ指定 次,終了状態=&おわり
      条件 (&おわり=0) 繰り返し中止
     繰り返し終了
    終了 表 編集対象表
    *----------------------------NEXT
    この作業の前に項目を”分類名”で選択し項目名別のファイルで保存する手間がありましたが、その後はスムーズに内容チェックも完了しました。
    テキスト変換した元ファイルは添付しました。

    数々のアドバイスありがとうございました、次回もよろしくお願いいたします。


kiri.txt
/1KB
引用返信 [メール受信/OFF] 削除キー/
■4617 / inTopicNo.4)  Re[4]: レコードの連結
□投稿者/ 尾形 -(2009/04/10(Fri) 07:59:31)
    どうも、こんにちは

    >今風になってて私には読みにくかったので日本語コマンドだけで
    すごく同感w
    変数もはっきり用途の分かる日本語が好き

    皆さん、なんで英語で記述するのでしょうか
    普通はその方が記述しやすい・見やすいのでしょうか

    桐使い以外が見る事を想定してなのかな

引用返信 [メール受信/OFF] 削除キー/
■4616 / inTopicNo.5)  Re[4]: レコードの連結
□投稿者/ eo -(2009/04/09(Thu) 13:41:20)
    うわぁ!これ凄い!まえださんに見てほしいわ!
引用返信 [メール受信/OFF] 削除キー/
■4615 / inTopicNo.6)  Re[3]: レコードの連結
□投稿者/ うにん -(2009/04/09(Thu) 12:04:02)

    >  用は規則性の問題です。

    本人は解決しちゃったので、ここのとこにもはや言及がないですが、
    「アイテム」の開始判別ができればファイル入力で読み込んで順次処理するだけ
    ですよね。

    今村さんのは今風になってて私には読みにくかったので日本語コマンドだけで
    自己流に書きなおしてみた。(処理内容も多分違いますが)
    *最初は[品名]だけの表を使用
    *【】があったら項目を追加
    *空行の後から項目名までが品名(強制改行文字で連結したほうがいい?)
    *間違えて「区切り=行」なんてやってたら、EOFを検出できずに
    *最後の項目にゴミを追加し続けてレコード長エラーになった。

    変数 {&項目名},整数{&位置}
    表 "区切り文字のテスト", 終了状態=&実行リターン
    ファイル入力開始 "区切り文字のテスト.txt", 終了状態=&実行リターン
    繰り返し (&実行リターン=1)
      ファイル入力 &STR, 行, 終了状態=&実行リターン
      ケース開始
       ケース (&STR="")
        &項目名=""
       ケース (#部分列(&STR,1,1)="【")
        &項目名=#部分列(&STR,2,#代入(&位置,#文字位置(&STR,"】"))-2)
        &STR=#部分列(&STR,&位置+1)
      ケース終了
      ケース開始
       ケース (&STR="")
       ケース (&項目名="")
        &項目名="品名"
        行追加 [品名]=&STR
       ケース その他
        条件 (#項目番号(&項目名)<1) 項目属性変更 追加,{&項目名,"文字列",10,"左寄せ"}
        ジャンプ 行番号=最終
        コマンド "行訂正 ["+&項目名+"]=#項目属性(#項目番号(&項目名),0)+&STR"
      ケース終了
    繰り返し終了
    条件 (&実行リターン<>-1) 確認 "EOFの前にエラーになりました"
    ファイル入力終了

引用返信 [メール受信/OFF] 削除キー/
■4609 / inTopicNo.7)  Re[4]: レコードの連結
□投稿者/ eo -(2009/04/08(Wed) 13:52:47)
    名称の行に★
    名称の次行の区分に☆
    ●の付いてる行はそのままで、付いていないのは●を付加
    txt.cmd実行で、new1238676966.txtを作成して完了です。
    あぁ〜スッキリした♪

txt3.zip
/6KB
引用返信 [メール受信/OFF] 削除キー/
■4595 / inTopicNo.8)  Re[3]: レコードの連結
□投稿者/ eo -(2009/04/06(Mon) 23:26:57)
    2009/04/07(Tue) 00:06:41 編集(投稿者)
    2009/04/06(Mon) 23:40:54 編集(投稿者)

    > ■webブラウザで整形.htmlを開く。
    > ■すべて選択してコピー。
    > ■エディタで新規テキスト(整形.txt)を作成し貼り付けで改行がとれます。

    桐質問掲示板に、これは反則ですよね^^;
    桐だけで挑戦してみました。
    アイテムごとに1行以上の空行があり、アイテムの中に空行がないが前提です。
    しっかし、もっとスマートに出来んかね〜^^;
    作業表が出来るので、やる気があれば、名称、区分、メーカー名は取得できるはず?


txt2.zip
/4KB
引用返信 [メール受信/OFF] 削除キー/
■4567 / inTopicNo.9)  感想
□投稿者/ Kanasy.Ge -(2009/04/04(Sat) 11:56:01)
     処理方法の細部についてではなく、全体的な感想という形でコメントさせていただきます。

     まえださんが、どのpdfデータを利用しているのかは判りませんし、ま、判る必要もないのですが(^^;)、いずれにせよ、データの中味がこのような「医薬品情報」なのであるのならば、
    (1)まずpdfデータをスキャンして「読んdeここ」でテキスト変換したものを(エクセル経由で?)処理しようという、前段の過程がどうにも腑に落ちません。

    その上で、eoさんのhtml経由という発想も踏まえて、
    (2)この種の情報の元と言うべき詳細データが公開されています(文字どおり「公」です)。
    http://www.info.pmda.go.jp/psearch/html/menu_tenpu_base.html
    ので、このデータをコピペすれば(スキャン→変換の過程を経ずとも)各アイテムのテキストを取得することが出来ます。あるいはDTMやSGMファイルとしてダウンロードすることもできるようになっていますし、もちろんhtmlのまま保存することもできます。

     テキストの不要な部分は、手動で削除することになろうと思いますが、少なくともスキャン→変換の過程よりは楽だし、何と言っても正確なはずです。
    (3)肝心の最終的に桐に取り込む過程については、また別途の検討に任せるとして、ひとつだけ案を記してみます。DTMやSGMは全く判らないのでhtml(テキストとしてのhtml)についてだけですが、項目名相当として<h4>〜</h4>、項目値としては<dd>〜</dd>辺りのタグを判定にうまいこと利用できないだろうか? いえ、まったく試してませんが。

    (4)ついでに、ONnojiさんのNo.4562に、私の勝手な想像でコメントしますと(^^;)、この種のデータの場合、項目構成はかなり「不定に近い」と考えたほうがいいような気がします。いえ、最終的には不定ではないのだが、何が出てくるかはかなり試行錯誤しないと判らない。それと、1アイテムを1レコードにするには、桐の仕様である4000文字/レコードの壁に早晩ぶつかるような気がします。
     って、勝手にこんなことコメントしちゃってすいません。間違ってるかもしれませんよね。

引用返信 [メール受信/OFF] 削除キー/
■4566 / inTopicNo.10)  Re[3]: レコードの連結
□投稿者/ eo -(2009/04/04(Sat) 09:50:33)
    おもいきって1品目1レコードの構造ではなく、ヘッダと明細の構造にする手はダメかな^^;
    これなら簡単にできるし汎用性もあるような…


1238806233.zip
/5KB
引用返信 [メール受信/OFF] 削除キー/
■4565 / inTopicNo.11)  一応、でけたよ
□投稿者/ 通りすがり -(2009/04/03(Fri) 19:20:29)
    もともとIDも処理番号も入ってないテキストだね
    テキスト整形は普通に正規表現使えるエディタとかが良いんでないの?

    MS Word でも以下で出来たけど、、かなりカッコ悪い…、よりスマートに出来そう

    先頭に改行4つ入れる
    <*> → [ナシ]
    ^p^p^p^p^p → ^pZZ
    <(ZZ?*)> → \1ZZ
    ^P → [ナシ]
    ZZ → ^p
    【 → ^p【

    --以上での変換結果--
    ↓↓

    ああああああああ

    抗菌薬 ペニシリン系薬ベンジルペニシリンカリウム benzylpenicillin potassium(PCG)●注射用ペニシリンGカリウム (明治製菓)  
    【組成】[妊B]
    【剤形】注:20万単位  注:100万単位
    【用量】(1)(2)1回30万〜60万単位,1日2〜4回筋注〔生理食塩液〕〔注射用水〕  (2)通常用量より大量使用  ◆小児:1日(1)5万単位/kg,2〜4回分割静注.(2)25〜30万単位/kg,6回分割静注
    【特徴】狭域性.グラム陽性菌用.ペニシリナーゼに不安定
    【適応】(菌)ブドウ球菌属,レンサ球菌属,肺炎球菌,腸球菌属,淋菌,髄膜炎菌,ジフテリア菌,炭疽菌,放線菌,破傷風菌,ガス壊疽菌群,回帰熱ボレリア,ワイル病レプトスピラ,鼠咬症スピリルム (症)(1)表在性・深在性皮膚感染症,リンパ管・リンパ節炎,乳腺炎,咽頭・喉頭炎,扁桃炎,急性気管支炎,肺炎,肺膿瘍,膿胸,慢性呼吸器病変の二次感染,淋菌感染症,中耳炎,副鼻腔炎,猩紅熱,炭疽,ジフテリア(抗毒素併用),鼠咬症,破傷風(抗毒素併用),ガス壊疽(抗毒素併用),放線菌症,回帰熱,ワイル病.(2)敗血症,感染性心内膜炎,化膿性髄膜炎
    【薬物動態】尿中排泄49%(3時間) (最高)40万単位筋注15分
    【副作用】[重大]ショック.溶血性貧血.無顆粒球症.出血性膀胱炎.急性腎不全.(腎不全患者に大量投与)痙攣.偽膜性大腸炎.皮膚粘膜眼症候群,中毒性表皮壊死症[その他]発熱,発疹,蕁麻疹.好酸球増多症,顆粒球減少,Plt減少,貧血.AST上昇など

    いいいいいいいい

    漢方薬 その他黄耆建中湯(オウギケンチュウトウ)ツムラ顆粒(98) (ツムラ)  
    【組成】シャクヤク 6.0オウギ 4.0ケイヒ 4.0タイソウ 4.0カンゾウ 2.0ショウキョウ 1.0
    【用量】18g
    【適応】虚弱体質,病後の衰弱,寝汗〔身体虚弱で,疲労しやすいものの諸症〕
    【相互作用】安中散参照
    【副作用】安中散参照
    【隋証】陰,虚[参照先]
    【相互作用】カンゾウ・グリチルリチン酸製剤(偽アルドステロン症,ミオパシー)
    【副作用】[重大]偽アルドステロン症,ミオパシー[その他]発疹,発赤,そう痒など

引用返信 [メール受信/OFF] 削除キー/
■4564 / inTopicNo.12)  Re[3]: 用語の説明
□投稿者/ 今村 誠 -(2009/04/03(Fri) 18:44:52)
    まえださんこんにちは解決済みですがアドバイスが必要なければ
    もう一度誰の所でも良いので返信して解決済みとして下さい。

    > 今のデータだと前の商品と次の商品名の間を判別するのは
    > 3行の改行が連続していたらとしか受け取れません。

    区分というか項目名はサンプルのように同じ行には存在しない
    と判断できるのでしょうか。
    それとも、下記のように

    ああああああああ
    【組成】[妊B]【剤形】注:20万単位  注:100万単位【用量】18g
    【特徴】狭域性.グラム陽性菌用.ペニシリナーゼに不安定

    同じ行に2つも3つも存在するのでしょうか。

    商品の区切りと項目の区切りは一番重要な要素です。
    ここが曖昧なままプログラムは作れません。
引用返信 [メール受信/OFF] 削除キー/
■4563 / inTopicNo.13)  Re[2]: レコードの連結
□投稿者/ eo -(2009/04/03(Fri) 16:54:28)
    2009/04/03(Fri) 16:57:49 編集(投稿者)

    > このファイルから「適応」の文章を”ああああああ”商品名、適応項目は・・・・・・のように1レコードとして処理したいのですが、その前段階である複数行にまたがった文章を1つの連続した文章に再構成したいと考えたのですが、方法が間違っていますでしょうか。

    手作業が多いのですが…以下で改行はとれます。
    ■サンプルのテキストをtxt.tblの[テキスト]項目に読み込む。
    ■[整形]項目で<BR>タグを付加する。
    ■[整形]項目をテキスト書き出しで整形.htmlとして書き出す。
    ■webブラウザで整形.htmlを開く。
    ■すべて選択してコピー。
    ■エディタで新規テキスト(整形.txt)を作成し貼り付けで改行がとれます。
    さ〜て、これからどうしましょ^^;


txt.zip
/6KB
引用返信 [メール受信/OFF] 削除キー/
■4562 / inTopicNo.14)  Re[1]: レコードの連結
□投稿者/ ONnoji -(2009/04/03(Fri) 16:44:46)
    2009/04/03(Fri) 16:59:25 編集(投稿者)
    2009/04/03(Fri) 16:54:24 編集(投稿者)

    テキストの薬剤Aと薬剤Bの境界に、1つ以上の空行がありますか??

    空行があれば、なんとかなりそうですが…。

    それから、

    名称,●,【組成】,【剤形】,【用量】,【特徴】,【適応】,【薬物動態】,【副作用】,【隋証】,【相互作用】

    の要素以外のデータが現れますか??

    最終的に表( .tbl )の

    [名称],[●],[組成],[剤形],[用量],[特徴],[適応],[薬物動態],[副作用],[隋証],[相互作用]

    の各項目にデータが入れば良いのですよね。


引用返信 [メール受信/OFF] 削除キー/
■4559 / inTopicNo.15)  用語の説明
□投稿者/ 今村 誠 -(2009/04/03(Fri) 00:48:13)
    > 15ファイル×100ページ×4〜10アイテム
    アイテムとは項目名で
    ページとは1商品のことで
    15ファイルとは1500品あるということですか。
    また、読んでココで作成したページですか
    今から作成する元pdfのページ数のことですか
    読んでココはページをテキストファイルに変換するときに
    どのようなページ概念で変換するのですか。
    たとえば1行目の商品名をファイル名としてテキストファイルに
    書き出してくれるなら作業は格段にはかどりますね。
    今のデータだと前の商品と次の商品名の間を判別するのは
    3行の改行が連続していたらとしか受け取れません。
引用返信 [メール受信/OFF] 削除キー/
■4558 / inTopicNo.16)  整形フォームが味噌なのでは
□投稿者/ 今村 誠 -(2009/04/02(Thu) 23:40:31)
    PDFが1商品ごとの読み込みなら、桐でフォームを作成し貼り付けて
    整形ボタンを作成し蓄積テーブルにイベントで追加保存していくというのが
    一番簡単な気がします。

    まず蓄積テーブルの作成と 薬の効能や用量は項目名として公開しても
    著作権には触れないのではないでしょうか。
     後は貼り付けたデータからキーワードの整形をいかに簡単に作りイベント
    で印字コマンドを使い蓄積データに整形するかじゃないでしょうか。

    PDFが一品一葉なら単票フォームの作成が早道だと思います。
引用返信 [メール受信/OFF] 削除キー/
■4557 / inTopicNo.17)  フォームを考えよう
□投稿者/ 今村 誠 -(2009/04/02(Thu) 23:17:57)
    どういう商品があって
    特徴1
    特徴2
    特徴3
    用途
    副作用

    見たいに単票のカード形式に表示させデータが空白の場合はタイトルオンリー
    たくさんの文字がある場合は行数を自動で増やす、というようにしたら
    見やすいですね。
     私のページの簡易メニューと4択問題集はそのような画面です。
    取り出したい項目を【】ごとに無作為に取り出したらよいのではないでしょうか。
    【】が無いファイルというかデータはエディターで整形するか、整形専用の
    桐のフォームに貼り付け検索キーワードを多遊さんの桐hpbの太字や斜体の
    ような一発変換のコマンドボタンを明細文字ごとに作成する。
    もちろん保存ボタンも同時に作成する。分類ごとに保存するのか商品名ごとに
    保存するのかわかりませんが、アイデアが次々思いつきます。

    エクセルでボツボツ手直しよりはるかに効率の上がる方法だと思います。

    まず項目名(分類)と閲覧フォームを作成して整理したらよいと思います。
引用返信 [メール受信/OFF] 削除キー/
■4556 / inTopicNo.18)  Re[2]: レコードの連結
□投稿者/ 今村 まこと -(2009/04/02(Thu) 22:51:56)
    まえださんこんにちは
    > サンプルAの適応に連続性はなく、任意の位置で改行されています。
    > サンプルBは”A”のように●の記号もありません。
    > このファイルから「適応」の文章を”ああああああ”商品名、適応項目は・・・・・・のように1レコードとして処理したいのですが、
    その前段階である複数行にまたがった文章を1つの連続した文章に
    再構成したいと考えたのですが、方法が間違っていますでしょうか。

    商品名は1行目にあり必要な部分は適応以下の文書であるということですか。
    【相互作用】や【薬物動態】の文字が次の区分に私には見えます。
    サンプルAとサンプルBは別ファイルである。
    【】を区切り文字にすることは可能です。
    必要な文字が【適応】であれば行の文字中にあれば其処は必要な行で
    次の【が来るまでを取り出す

    何が必要かの部分が 「商品名」【組成】と【用量】「適応」なら
    取り出し可能ですね。
    後の部分はばらばらですよね。

    取り出すのは私ではないので、ファイルの形式もわかりませんし、
    どれくらいばらばらで、どれとどれがいるという表現でないと

    最初のサンプルと今回のサンプルでは改行の考え方も変わりますね。

    基本的には区切り文字が出現したら変数に代入し次の区切り文字が
    来るまで連結する
    商品名は必ず先頭1行に来るようにする、あるいはテキスト保存する
    ときに、ファイル名にしてしまう
    読み込んだテキストファイルはひとつのフォルダーにまとめる
    というように桐で一度にできる工夫が必要です。
    対応可能な部分や補足する部分があればコメントされるとエクセルを
    途中で使うよりもっと良い方法が掲示されるでしょう。
引用返信 [メール受信/OFF] 削除キー/
■4555 / inTopicNo.19)  Re[1]: レコードの連結
□投稿者/ まえだ -(2009/04/02(Thu) 21:56:06)
    お世話になります。

    参考までに一部を添付しました。
    件数は大まかですが 15ファイル×100ページ×4〜10アイテム=最小6000件〜最大15000件(多分17000件程度)

    サンプルAの適応に連続性はなく、任意の位置で改行されています。
    サンプルBは”A”のように●の記号もありません。
    このファイルから「適応」の文章を”ああああああ”商品名、適応項目は・・・・・・のように1レコードとして処理したいのですが、その前段階である複数行にまたがった文章を1つの連続した文章に再構成したいと考えたのですが、方法が間違っていますでしょうか。

1238676966.txt
/1KB
引用返信 [メール受信/OFF] 削除キー/
■4553 / inTopicNo.20)  Re[4]: レコードの連結
□投稿者/ 今村 誠 -(2009/04/02(Thu) 08:43:56)
    まえださんこんにちは
    >>商品名と組成と備考だけじゃないのですか?
    > そのとおりです、スキャンデータには項目と内容だけです。
    >
    > PDFを直接桐から読めるのでしょうか?

    それは無理で、アドビのアクロバットのリーダーで直接
    マウスで範囲指定してテキストを読み込むと思っていました。

    >1) 今回の作業には、PDFを「読んdeここ」でテキスト変換し、
    >2) 桐で作業する目的で「ID」と連番をエクセルで追加しました。

    1)を実行したデータを都合の悪い部分だけを違う文字に変更して
     貼り付けてもらって質問されていると、エクセルを起動することなく
     IDや処理番号は桐で付加するべきデータだと申し上げています。

    加工済みをもう一度桐で処理するのは大変だと思います。
    読んでココがどのようなデータをはき出すのかは解りませんが
    私の述べた規則に殆ど近いのであれば、エクセルで加工する必要は
    ないと思います。

    商品名があるデータを省かれて一括を組むことは、2度手間3度手間で
    だれも例示したくなくなるわけです。

    元が悪いのに完成まで書いても報われないわけです。

    私の推測はあながち間違っていないのじゃないでしょうか。
引用返信 [メール受信/OFF] 削除キー/

次の20件>

トピック内ページ移動 / << 0 | 1 >>
Mode/  Pass/

HOME HELP 新規作成 新着記事 トピック表示 ファイル一覧 検索 過去ログ

- Child Tree -
- Antispam Version -