サイト登録作業の状況

公開日 2018-08-16

beトクシマの運用グループでは、徳島県内の公共性が高いサイトの登録作業を進めています。
登録作業では、それぞれのサイトの構造により個別に細かい設定を行っています。
登録作業のあと、正常に巡回し新しいデータを取得できることを確認して登録完了としています。

残念ながら、次のような構造のサイトは、現在のシステムでは処理が難しいため登録ができません。

  1. 記事タイトルの一覧がタイル状に配置されており、それぞれの記事の識別が難しいサイト。
    (それぞれの記事を分離できないため、記事ページの取得が困難。)
  2. 記事ページがそれぞれの記事で分かれておらず、同じページの中をアンカーで飛ぶ形式のサイト。
  3. 記事ページのコンテンツをJavaScriptの処理で表示しているサイト。
    (ページのソースにテキストや画像が存在しないので、データを取得できない。)
  4. 記事ページのコンテンツが外部のサイトに存在するサイト。
    (データの取得はサイト内に限定しているため、データを取得できない。)

このような制約は、クローラーと呼ぶ、サイトを巡回してデータを取得するシステムの機能が足りないためです。
現在のクローラーは、昨年3ヶ月くらいかけて開発したものですが、自治体サイトを想定したものなので、うまく対応できないサイトがあるようです。
可能な範囲で現在のクローラーへの機能追加を行い改善を試みていますが、そろそろ次のバージョンを開発しようかと考えています。

まずは現在のクローラーで処理できるサイトを順次登録していきます。