Quantcast
Channel: ニコニコ大百科タグが付けられた新着記事 - Qiita
Viewing all articles
Browse latest Browse all 3

Pythonによるスクレイピングでニコニコ大百科掲示板を保存してみる

$
0
0

背景

  • ニコニコ大百科の掲示板は一度に30件しか表示できず、ログをまとめて保存する機能もない(よね?)
  • 割と頻繁に削除も入るため、過去の情報をトレースしにくい。

目的

  • 指定した記事の掲示板をスクレイピングし、1レス目から最新レスまでをまとめて取得・保存する。

詳細

  • 記事トップのURLを指定して叩くと全掲示板ログをtxt形式で保存する。ファイル名は「(記事タイトル).log
  • 新規の場合は全取得するが、既に一度保存したものの場合、未取得ID以降のみをターゲットとする。
  • ファイルの結合や一行抜き出しがpythonだけだとめんどいので、一部Bashに任せている。

ソースはこちらから。
https://github.com/we-yu/sb.webscraping

半自動化

  • 都度都度取得しておきたい記事は、以下のようなテキストファイルを用意しておき、usageのコマンドを打つと自動で取得・更新してくれる。
AutoLoadArticleList.txt
# usage
# $ cat AutoLoadArticleList.txt  | grep -vF '#' | xargs -I{} python3 nicopedy_saver.py {}
# Python
https://dic.nicovideo.jp/a/python
# Linux
https://dic.nicovideo.jp/a/linux
# PHP
https://dic.nicovideo.jp/a/php
# メルトリリス
https://dic.nicovideo.jp/a/%E3%83%A1%E3%83%AB%E3%83%88%E3%83%AA%E3%83%AA%E3%82%B9

Viewing all articles
Browse latest Browse all 3

Trending Articles