rproc

command module

v1.0.0 Latest Latest Go to latest Published: Nov 20, 2024 License: MIT Imports: 7 Imported by: 0

Details

Valid go.mod file
Redistributable license
Tagged version
Stable version
Learn more about best practices

Repository

github.com/acquisitionist/rproc

Links

Open Source Insights

README ¶

RProc - Reddit Data File Processor

RProc is a command-line tool for processing Reddit data dumps in zstd-compressed NDJSON format. It provides capabilities for filtering specific subreddit content and converting data to CSV format.

Features

Filter Reddit submissions and comments by field values
Convert Reddit data to CSV format
Process large zstd-compressed files efficiently
Support for parallel processing
Progress tracking and detailed logging
Filter using exact match, partial match, or regex patterns

Installation

Requires Go 1.21 or higher.

go install github.com/Caycedo/rproc@latest

Or clone and build from source:

git clone https://github.com/Caycedo/rproc.git
cd rproc
go build

Quick Start

Filter Submissions from a Subreddit

# Get all posts from r/wallstreetbets
rproc filter ./reddit_data ./output --field subreddit --value wallstreetbets

# Use regex matching
rproc filter ./reddit_data ./output --field subreddit --value "bitcoin.*" --regex

# Use partial matching
rproc filter ./reddit_data ./output --field subreddit --value "crypto" --partial

Convert to CSV

# Convert submissions to CSV
rproc csv ./reddit_data ./output.csv

Common Use Cases

Filter Submissions by Field

# Get all posts by a specific author
rproc filter ./input ./output --field author --value "spez"

# Get posts with specific words in title
rproc filter ./input ./output --field title --value "announcement" --partial

# Get posts from multiple subreddits (using a file)
echo "wallstreetbets\nbitcoin" > subreddits.txt
rproc filter ./input ./output --field subreddit --value-list subreddits.txt

Processing Large Datasets

# Use multiple threads for faster processing
rproc filter ./input ./output --field subreddit --value wallstreetbets --threads 4

# Only process specific date ranges
rproc filter ./input ./output --field subreddit --value wallstreetbets --file-filter "RS_2023-.*"