自動収集設定作成テクニック(2) ブログから収集しよう!
ブログサイトは、形式が決まっているので最も集めやすいサイトのひとつです。RSSを同時に提供しているサイトも多いので、そこからリンク先を取得して集めます。
1)楽天ブログ
事例(1) 海外PSPソフト情報で「知る人ぞ知る」PSP GadgetZさんのサイト
name = PSP GadgetZ
url = http://api.plaza.rakuten.ne.jp/pspcell/rss/
urltype=1
link_serach= 3 ←記事の取得数は任意で変えてください
firstword = <DIV class="DIV">
lastword = <br clear="all">
url = http://api.plaza.rakuten.ne.jp/pspcell/rss/
urltype=1
link_serach= 3 ←記事の取得数は任意で変えてください
firstword = <DIV class="DIV">
lastword = <br clear="all">
url = http://api.plaza.rakuten.ne.jp/pspcell/rss/
楽天ブログは、ページ内にあるXML>>から、RSSのリンク先が表示されます。
サイトのURLは、 http://plaza.rakuten.co.jp/pspcell/
RSSのURLは、 http://api.plaza.rakuten.ne.jp/pspcell/rss/
はじめの「api.」と最後の 「rss/」の部分を追加するとRSSのアドレスになるようです。
urltype=1
RSSから探し出すので、これを1に指定します。
link_serach= 3
link_serachを指定するとRSSの上位から数を限定して呼ぶ出すことができます。
内容部分の切り出しは、 <DIV class="DIV">から <br clear="all">に含まれる間の部分でほとんど問題ないようですが、 うまくいかない場合は、実際のソースをご覧になって特徴のある部分を探してください。 (PSP GadgetZさんは、写真が多いのであまり意味が無いかもしれませんが・・・)
2)アメブロ
ユーザー数ナンバー1とうたっているいるアメブロは、通勤ドットコムでもお世話になっています。事例(2) 通勤ドットコムのブログ(※現在は移動しています。)
name = 通勤ドットコムのブログ
url = http://ameblo.jp/tuukin/rss.html
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
firstword = <div class="entry_head">
lastword = <!--//.contents-->
url = http://ameblo.jp/tuukin/rss.html
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
firstword = <div class="entry_head">
lastword = <!--//.contents-->
URL:http://ameblo.jp/tuukin/
RSS:http://ameblo.jp/tuukin/rss.html
切り出しのためのfirstwordは<div class="entry">(又は<div class="entry_head">)、 lastword は <!-- //.contents -->でOKです。
ちなみにお勧めのアメブロは「ボクシング&ロック野郎 higege91の夜明けはまだか??」
事例(3)ボクシング&ロック野郎 higege91の夜明けはまだか??
name = higege91の夜明けはまだか??
url = http://ameblo.jp/higege91/rss.html
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
firstword = <div class="entry_head">
lastword = <!--//.contents-->
url = http://ameblo.jp/higege91/rss.html
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
firstword = <div class="entry_head">
lastword = <!--//.contents-->
3)ココログ
有名ブログの多いココログは、なぜか2つのパターンが存在します。事例(4)きっこのブログ
name = きっこのブログ
url = http://kikko.cocolog-nifty.com/kikko/rss
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry-top">
lastword = <div class="entry-bottom">
url = http://kikko.cocolog-nifty.com/kikko/rss
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry-top">
lastword = <div class="entry-bottom">
RSS:http://kikko.cocolog-nifty.com/kikko/rss
切り出しのためのwordは上記を参考に!(そのままでたぶん大丈夫でしょう)
事例(5)眞鍋かをりのココだけの話
name = 眞鍋かをりのココだけの話
url = http://manabekawori.cocolog-nifty.com/blog/index.rdf
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
lastword = <p class="posted">
url = http://manabekawori.cocolog-nifty.com/blog/index.rdf
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <div class="entry">
lastword = <p class="posted">
RSS:http://manabekawori.cocolog-nifty.com/blog/index.rdf
切り出しのためのwordは上記を参考にしてください。
4)はてな
そして最後は、はてなの提供するはてなダイアリー。事例(6) 木走日記
name = 木走日記
url = http://d.hatena.ne.jp/kibashiri/rss
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <span class="date">
lastword = <div class="comment">
url = http://d.hatena.ne.jp/kibashiri/rss
urltype=1
link_serach= 2 ←記事の取得数は任意で変えてください
firstword = <span class="date">
lastword = <div class="comment">
RSS:http://d.hatena.ne.jp/kibashiri/rss
切り出しのためのwordは上記を参考に!(そのままでたぶん大丈夫でしょう)
はてなでは、下記のようにサイト内で横断的に探し出すことも可能です。
name = はてなダイアリーの人気エントリー
url = http://b.hatena.ne.jp/hotentry/diary/rss
urltype=1
link_serach= 10
firstword = <span class="date">
lastword = <div class="comment">
url = http://b.hatena.ne.jp/hotentry/diary/rss
urltype=1
link_serach= 10
firstword = <span class="date">
lastword = <div class="comment">
はてなは、もっと活用法がありそうです。
他にも多くのブログサイトがあります。HTMLのソースをじっくり見てみて研究してください。チョット慣れればそんなに難しくないですよ。
※(2007/11/14 改定・修正しました)



