Apple Store(Japan)  
Sony Style(ソニースタイル)
ウィルコムストア
 


自動収集設定作成テクニック(2) ブログから収集しよう!

ブログサイトは、形式が決まっているので最も集めやすいサイトのひとつです。
RSSを同時に提供しているサイトも多いので、そこからリンク先を取得して集めます。

1)楽天ブログ

事例(1) 海外PSPソフト情報で「知る人ぞ知る」PSP GadgetZさんのサイト
name = PSP GadgetZ 
url = http://api.plaza.rakuten.ne.jp/pspcell/rss/
urltype=1
link_serach= 3 ←記事の取得数は任意で変えてください
firstword = <DIV class="DIV">
lastword = <br clear="all">
ポイントは、url の部分です。
url = http://api.plaza.rakuten.ne.jp/pspcell/rss/
楽天ブログは、ページ内にあるXML>>から、RSSのリンク先が表示されます。
サイトのURLは、  http://plaza.rakuten.co.jp/pspcell/
RSSのURLは、   http://api.plaza.rakuten.ne.jp/pspcell/rss/
はじめの「api.」と最後の 「rss/」の部分を追加するとRSSのアドレスになるようです。

urltype=1
RSSから探し出すので、これを1に指定します。

link_serach= 3
link_serachを指定するとRSSの上位から数を限定して呼ぶ出すことができます。

内容部分の切り出しは、 <DIV class="DIV">から <br clear="all">に含まれる間の部分でほとんど問題ないようですが、 うまくいかない場合は、実際のソースをご覧になって特徴のある部分を探してください。 (PSP GadgetZさんは、写真が多いのであまり意味が無いかもしれませんが・・・)

2)アメブロ

ユーザー数ナンバー1とうたっているいるアメブロは、通勤ドットコムでもお世話になっています。
事例(2) 通勤ドットコムのブログ(※現在は移動しています。)
name = 通勤ドットコムのブログ
url = http://ameblo.jp/tuukin/rss.html
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
firstword = <div class="entry_head">
lastword = <!--//.contents-->
アメブロも楽天ブログと同様に、カラムの中にRSSのリンク先があります。
URL:http://ameblo.jp/tuukin/
RSS:http://ameblo.jp/tuukin/rss.html
切り出しのためのfirstwordは<div class="entry">(又は<div class="entry_head">)lastword は <!-- //.contents -->でOKです。

ちなみにお勧めのアメブロは「ボクシング&ロック野郎 higege91の夜明けはまだか??」
事例(3)ボクシング&ロック野郎 higege91の夜明けはまだか??
name = higege91の夜明けはまだか??
url = http://ameblo.jp/higege91/rss.html
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
firstword = <div class="entry_head">
lastword = <!--//.contents-->

3)ココログ

有名ブログの多いココログは、なぜか2つのパターンが存在します。
事例(4)きっこのブログ
name = きっこのブログ
url = http://kikko.cocolog-nifty.com/kikko/rss
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry-top">
lastword = <div class="entry-bottom">
URL:http://kikko.cocolog-nifty.com/kikko/
RSS:http://kikko.cocolog-nifty.com/kikko/rss

切り出しのためのwordは上記を参考に!(そのままでたぶん大丈夫でしょう)

事例(5)眞鍋かをりのココだけの話
name = 眞鍋かをりのココだけの話
url = http://manabekawori.cocolog-nifty.com/blog/index.rdf
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
lastword = <p class="posted">
URL:http://manabekawori.cocolog-nifty.com/blog/
RSS:http://manabekawori.cocolog-nifty.com/blog/index.rdf

切り出しのためのwordは上記を参考にしてください。

4)はてな

そして最後は、はてなの提供するはてなダイアリー。
事例(6) 木走日記
name = 木走日記
url = http://d.hatena.ne.jp/kibashiri/rss
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <span class="date">
lastword = <div class="comment">
URL:http://d.hatena.ne.jp/kibashiri/
RSS:http://d.hatena.ne.jp/kibashiri/rss

切り出しのためのwordは上記を参考に!(そのままでたぶん大丈夫でしょう)

はてなでは、下記のようにサイト内で横断的に探し出すことも可能です。
name = はてなダイアリーの人気エントリー
url = http://b.hatena.ne.jp/hotentry/diary/rss
urltype=1
link_serach= 10
firstword = <span class="date">
lastword = <div class="comment">

はてなは、もっと活用法がありそうです。
他にも多くのブログサイトがあります。HTMLのソースをじっくり見てみて研究してください。チョット慣れればそんなに難しくないですよ。

※(2007/11/14 改定・修正しました)



通勤セミナー
通勤セミナー公開中

自動収集設定プラグイン
ライブラリー



Oisix(おいしっくす)/Okasix(おかしっくす)