5chparser

5ちゃんねる（旧2ちゃんねる）のスレッドHTMLファイルを解析し、JSONL形式で構造化データとして出力するPythonツールです。

機能

5chのHTMLファイル（Shift-JIS）を読み込み
スレッドタイトルと各投稿（レス）を抽出
JSONL形式で構造化データとして出力
複数のHTMLファイルを一括処理

必要要件

Python 3.x
beautifulsoup4
lxml

または

Docker

インストール

Python環境での実行

pip install -r requirements.txt

Dockerでの実行

docker build -t 5chparser .

使用方法

Python環境での実行

解析したい5chのHTMLファイルを target*.html（例: target1.html, target2.html）という名前で配置します。
スクリプトを実行します：

python main.py

all_threads_data.jsonl に結果が出力されます。

Dockerでの実行

docker run -v $(pwd):/workspaces/5chparser 5chparser

出力フォーマット

各レス（投稿）は以下のJSON形式で出力されます：

{
  "source_file": "target1.html",
  "thread": "スレッドタイトル",
  "id": "投稿番号",
  "name": "投稿者名",
  "date": "投稿日時",
  "uid": "ユーザーID",
  "text": "投稿本文"
}

ファイル構成

main.py - メインの解析スクリプト
requirements.txt - Python依存パッケージ
Dockerfile - Docker設定ファイル
all_threads_data.jsonl - 出力ファイル（実行後に生成）

注意事項

入力ファイルはShift-JIS（cp932）エンコーディングを想定しています
HTMLファイルは target*.html というパターンで命名してください
5chのHTML構造に依存するため、サイトの仕様変更により動作しなくなる可能性があります

ライセンス

このプロジェクトは個人利用目的で作成されています。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.devcontainer		.devcontainer
.dockerignore		.dockerignore
Dockerfile		Dockerfile
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

5chparser

機能

必要要件

インストール

Python環境での実行

Dockerでの実行

使用方法

Python環境での実行

Dockerでの実行

出力フォーマット

ファイル構成

注意事項

ライセンス

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

5chparser

機能

必要要件

インストール

Python環境での実行

Dockerでの実行

使用方法

Python環境での実行

Dockerでの実行

出力フォーマット

ファイル構成

注意事項

ライセンス

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages