5ちゃんねる(旧2ちゃんねる)のスレッドHTMLファイルを解析し、JSONL形式で構造化データとして出力するPythonツールです。
- 5chのHTMLファイル(Shift-JIS)を読み込み
- スレッドタイトルと各投稿(レス)を抽出
- JSONL形式で構造化データとして出力
- 複数のHTMLファイルを一括処理
- Python 3.x
- beautifulsoup4
- lxml
または
- Docker
pip install -r requirements.txtdocker build -t 5chparser .- 解析したい5chのHTMLファイルを
target*.html(例: target1.html, target2.html)という名前で配置します。 - スクリプトを実行します:
python main.pyall_threads_data.jsonlに結果が出力されます。
docker run -v $(pwd):/workspaces/5chparser 5chparser各レス(投稿)は以下のJSON形式で出力されます:
{
"source_file": "target1.html",
"thread": "スレッドタイトル",
"id": "投稿番号",
"name": "投稿者名",
"date": "投稿日時",
"uid": "ユーザーID",
"text": "投稿本文"
}main.py- メインの解析スクリプトrequirements.txt- Python依存パッケージDockerfile- Docker設定ファイルall_threads_data.jsonl- 出力ファイル(実行後に生成)
- 入力ファイルはShift-JIS(cp932)エンコーディングを想定しています
- HTMLファイルは
target*.htmlというパターンで命名してください - 5chのHTML構造に依存するため、サイトの仕様変更により動作しなくなる可能性があります
このプロジェクトは個人利用目的で作成されています。