Giter Club home page Giter Club logo

kcna-japanese-dataset's Introduction

説明

朝鮮**通信(kcna.kp)の日本語記事のデータセットと収集用のスクリプトです。Googleドライブでダウンロードできます。

The dataset of KCNA's Japanese articles. You can download this on Google Drive.

ファイルの説明

  • kcna.tar.gz: メタデータを含む記事のデータ(JSON)
  • kcna-content.tar.gz: 記事の内容のテキストファイル(1行目が半角スペース区切りでIDと日付、2行目が題名、存在すれば続けて3行目に副題、1行空けて本文)
  • kcna-content-readable.tar.gz: kcna-content.tar.gzを時系列順に100記事ずつ結合してファイル数を減らしたもの

kcna.tar.gzkcna-content.tar.gzは解凍すると約28000のファイルが格納されたディレクトリができます。ファイル名は記事のIDを表します。 kcna-content-readable.tar.gzは解凍すると281のファイルが格納されたディレクトリができます。

動かし方

まず、Bundlerを使い依存しているgemをダウンロードします。

例: bundle --path vendor/bundle

例えば、2017/07/15以前の記事を落としてくる場合は以下のようにします。

bundle exec ruby script/download_all.rb dest_dir 2017-07-15

途中でダウンロードが止まってしまった場合、最後にダウンロードした記事の日付から再開してください。既にダウンロードした記事に達し、かつ40記事以上ダウンロードした時点でダウンロードは終了します。

注意

朝鮮**通信のサーバにつながらないことが結構あります。諦めましょう。

また、公開しているデータセットはほとんど生の状態で、前処理は一切していません。

最後に

実行は自己責任でお願いします。実際に動かすよりGoogleドライブにアップロードしているものをそのまま使った方がよいと思います。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.