自動収集設定プラグイン作成方法
動作の流れ
通勤PSP、通勤テキストコレクターの自動収集時の動作の流れを説明します。|
ウェブページを全部読み込む ↓ テキストのみを抽出 ※ウェブブラウザの「名前をつけて保存ーテキストのみ」と同じ動作 ↓ サイトのフォーマットに応じて、余分なテキストを削る ↓ この動作を登録されたサイトに対して繰り返す |
新聞社・ブログなどのサイトは、定型フォーマット化された構成になています。 その中から、特徴的な単語、文章(またはタグ情報)を見つけ出し、余分な情報を削除し見やすい状態にする。 この繰り返しをするのが「自動収集」の機能になります。
自動収集設定プラグインファイル(以下プラグインファイル)は、一連の動作のための設定ファイルです。
プラグインファイルの場所
・プラグインファイルは、実行ファイルと同階層の「初期設定」ファルダの中に配置します。アプリケーションからは、「メニュー>ファイル>自動収集設定の管理>設定フォルダを開く」から探すことが出来ます。
・インストールされた初期状態で、このフォルダを見ると上の画像のようになります。プラグインファイルの拡張子は「.ini」です。 ここでは、「Defult.ini」と「コラム.ini」が、プラグインファイルになります。
・このプラグインファイルは、テキストファイル形式です。 メモ帳などのテキストエディタアプリケーションで作成・変更できます。 ユーザーが作成したプラグインファイルは、以下に示す適切な書式を守っていれば、この「初期設定」フォルダに入れるだけで、通勤PSP、通勤テキストコレクターの自動収集の設定として登録されます。
最小限の設定法
例えば、|
name = 天声人語-朝日 url = http://www.asahi.com/paper/column.html |
name ⇒項目の名前です。任意ですが、他の名前と重複しないようにします。
url ⇒ サイトのアドレスです
です。、指定したサイト(url)のすべてのテキストを収集します。
次に、
name = 天声人語-朝日 url = http://www.asahi.com/paper/column.html firstword = 【天声人語】 lastword = 総合面 |
firstword ⇒必要な本文中の最初のキーワード
lastword ⇒必要な本文中の最後のキーワード
この場合、指定したサイト(url)のすべてのテキストの中から、 "【天声人語】"(firstword)と"総合面"(lastword )を探し出し、 最初のキーワード(firstword )から、最後のキーワード(lastword)までを抽出することになります。
では、実際のプラグインファイルを見ていきましょう。
プラグインファイルの例
プラグインファイルフォルダにある、コラム.iniを見てください。|
name = 天声人語-朝日 url = http://www.asahi.com/paper/column.html htmlflag = 0 link_serach = 0 firstindexof = 0 firstword = 【天声人語】 firstword_in = 1 lastword = 総合面 deleteword = 会員制サービス「クラブA&A」なら、「社説」が最大3か月分ご覧になれます。 deleteword = 詳しくはこちら deleteword = コラムはクラブA&Aで! deleteword = CrLf |
name ⇒項目の名前です。任意ですが、他の名前と重複しないようにします。
url ⇒ サイトのアドレスです。
htmlflag ⇒ サイトの情報をHTMLのままで保存するときは、1にします。通常0です。
link_serach ⇒ 派生するリンクを探す場合はその数を入れます。通常0です。
firstword ⇒ 本文の最初のキーワードです。
firstword_in ⇒最初のキーワードを、本文に含める場合は、1です。含めない場合は、0です。
lastword ⇒ 本文の最後のキーワードです。
lastword_in ⇒最後のキーワードを、本文に含める場合は、1です。含めない場合は、0です。
deleteword ⇒ 本文中で、不要で削除したいキーワードです。(複数指定可能です)
つまり、抽出したテキストから
|
テキストの先頭から、「firstword」までを削除 ↓ 「lastword」から、最後までを削除 ↓ 本文中のいらない「deleteword」を削除 |
また、この3行目にある「htmlflag」は、通勤PSPのみの設定です。HTMLのままPSPのインターネットブラウザで表示させたいときの設定です。ただし、画像ファイルは転送できませんので、天気予報など表のまま取り込みたい時に使います。
リンクを探して収集する
上の例に、「link_serach」という設定があります。「link_serach」は指定したサイトからリンクするページを探して自動的に収集する場合に使います。 プラグインファイルフォルダにある、コラム.iniを見てください。|
name = 編集手帳-読売 url = http://www.yomiuri.co.jp/editorial/ htmlflag = 0 link_serach = 1 firstindexof = 0 firstword = <!--// headline_start //--> lastword = <!--// article_end //--> subword =編集手帳 name = よみうり寸評-読売 url = http://www.yomiuri.co.jp/editorial/ htmlflag = 0 link_serach = 1 firstindexof = 0 firstword = <!--// headline_start //--> lastword = <!--// article_end //--> subword =よみうり寸評 |
この2つの設定は、両方とも「link_serach = 1」になっています。この「1」は、指定したサイト(url)から1つだけリンクされたページを収集することを示します。 両者の違いは、「subword」です。
この「subword」は、リンクの張られたタグ(例<A HREF="xxxx.html">○○○○○○○</A>)のタグにはさまれた表示部分(○○○○○○○の部分)に含まれるキーワードを指定し、リンク先を特定するために使います。
上記の「編集手帳-読売」で考えると、
『指定したurlのページの中で、「編集手帳」(subword)という文字が含まれるリンクのページを1つだけ(link_serach = 1)探して、 そのリンク先のページを収集しなさい』 という意味になります。
また、このlink_serachは、link_befor_linkwordと組み合わせて使うことができます。
|
name = 記事一覧-読売新聞 url = http://www.yomiuri.co.jp/index.htm htmlflag = 0 link_serach = 40 link_befor_linkword = 試読もできます firstword = <!--// headline_start //--> firstword_in = 0 lastword = 読売新聞) lastword_in = 0 |
上の設定は、サイト内の記事一覧から、順次リンクを探して収集するというものです。
http://www.yomiuri.co.jp/index.htmのページを参考に見てください。
「link_serach = 40」はリンクされる40個のページを収集しなさいということになります。
「link_befor_linkword = 試読もできます」は、探し出すリンクの直前のリンクのテキストを表します。
つまり、『指定したurlのページの中で、リンクされるページがたくさんある。その中で、「試読もできます」(link_befor_linkword)という リンクを探して、その次のリンクから40だけ、リンクされたページを自動収集する。』 ということになるのです。
※link_serachが1以上のときは、「firstword」「lastword」「deleteword」は、リンク先のページのキーワードになります。注意してください。
作成時の注意点・留意点
設定時の注意としては、特徴的な書式の文字又はタグを探し出すことです。 きれいに必要な部分のみを落とすためには ウェブブラウザでHTMLのソースを表示し、 ご自信でその特徴をつかむことが必要になります。チャレンジして見てください。お気づきの方も多いと思いますが、 「探す文字がなかったら?」と単純な疑問が沸きます。 ウェブサイトは、日々流動的にその形を変えます。 設定したキーワードがなくなったり、増えたり減ったりする可能性があります。 その場合、このソフトは、自動収集できなかった旨を通知します。
つまり、サイトの定型フォーマットが変化すると、自動収集できなくなります。 この辺は、フリーウェアですので、ご勘弁・ご容赦をお願いします。
また、ユーザーご自身でこのプラグインファイルを作られても、うまく動作しない場合も多数あると考えられます。 (同じキーワードかサイトの中に複数ある、本文中に偶然キーワードが存在するなど・・・・)
あらかじめ無理があることもご承知の上、プラグインファイルを作成してください。 また、うまく動作に成功したプラグインファイルは、サイト上で共有できるような方法も考えております。 準備が出来ましたら、通勤ドットコムサイト上で、ご案内いたします。
設定プラグイン作成のコツ1
運営の大きなサイトや、ブログなどは、タグのコメント例:<!--// headline_start //-->で、メニューや広告、本文などを 区切っている場合が多いようです。ソースを、表示してこのような部分を探してください。構造のはっきりしたサイトほど収集に向いています。設定プラグイン作成のコツ2
構造のはっきりしないサイトは、全体又は大まかにを落としてから、「deleteword」を使ってどんどん削除します。この時、一度手動収集で落としてから、 いらない部分を「deleteword」に追加していきます。このとき、「deleteword = CrLf」を入れておくと改行をある程度削除してくれます。



