Giter Club home page Giter Club logo

dataset-artikel's Introduction

Dataset: Artikel

Proyek ini awalnya dilakukan untuk mempelajari infrastruktur Google Cloud Platform, sehingga masih banyak kekurangan dari segi data. Selain itu, terinspirasi juga dari proyek https://github.com/ParallelMazen/SaudiNewsNet yang mengumpulkan data serupa.

Proyek inisiatif untuk membuka akses kepada publik terhadap ribuan artikel berbahasa Indonesia dari berbagai sumber beserta metadata artikel tersebut. Artikel yang ada disini masih mentah (raw) dan tidak berlabel. Diharapkan akan mempermudah akses mendapatkan set mentah data artikel dari berbagai sumber untuk keperluan pembelajaran, penelitian, dan pengembangan kakas pemrosesan Bahasa Indonesia.

Akses data

Data dapat diakses pada Google Drive yang dapat diakses, diunduh, dan digunakan oleh publik. Dengan mengakses tautan tersebut, Anda telah setuju dengan Ketentuan Penggunaan Data.

Menuju Google Drive

Konten

Tipe Berkas

Pada Google Drive tersebut, terdapat dua folder yang bernamakan json dan html. Pada folder json, terdapat berkas-berkas yang berisikan artikel-artikel yang sudah melalui proses pembersihan sehingga hanya berisi konten. Pada folder html, terdapat berkas-berkas mentah berupa file html yang diambil langsung dari sumbernya.

Struktur Folder

Struktur folder akan mengikuti tanggal artikel tersebut dikeluarkan. Sturkturnya secara umum adalah sebagai berikut, {tipe}/{tahun}/{tanggal}/{hari}/{jam}/{timestamp}.{nama-media}.{hash-judul}.{tipe}

Contohnya json/2018/05/02/02/1525226400000.cnn-indonesia.fe5490cb31.json merujuk pada artikel CNN Indonesia yang ditayangkan pada tanggal 02 Mei 2018 pada pukul 2 pagi.

Statistik

Jumlah Artikel

Artikel diambil dari untuk rentang waktu 01 Januari 2018 hingga 20 Agustus 2018 untuk media-media berikut:

Media #
Detik 85,802
Kompas 60,902
Tempo 44,409
CNN Indonesia 24,965
Sindo 34,002
Republika 64,008
Poskota 17,747
Lainnya 2
Statistik Dataset

Dataset berisikan 109.192.608 token (dihitung menggunakan tokenizer NLTK, lowercase, angka dianggap unik, serta belum dibersihkan) dan 659.066 token unik. Peringkat 22 kata dengan kemunculan terbanyak adalah sebagai berikut, Statistik Kata

Grafik Kemunculan Kata

Kontak Pengelola

Jika Anda ingin menghubungi pengelola data ini silakan kontak menggunakan media berikut ini,

  • Email : feryandi [dot] n [at] gmail [dot] com

Ketentuan Penggunaan Data

  • Tidak ada batasan pada penggunaan, namun mohon gunakan secara bertanggungjawab.
  • Ikuti lisensi atau izin yang berlaku terhadap data ini (lihat: Izin Penggunaan)
  • Tidak ada pungutan biaya apapun dalam penggunaan, namun untuk mengelola data ini tetap diperlukan biaya. Jika Anda merasa terbantu, mohon lakukan donasi untuk proyek ini.

Izin Penggunaan

Creative Commons Attribution-ShareAlike 4.0 International License

[ Indonesia ]

Proyek ini dilisensikan dibawah lisensi Creative Commons Attribution-ShareAlike 4.0 International License. Kumpulan data yang dibagikan bertujuan untuk ilmu pengetahuan, pembelajaran, dan penelitian Bahasa Indonesia (komputasi maupun lingusitik), dan hanya dapat digunakan untuk hal tersebut. Kepemilikan data untuk setiap artikel dimiliki oleh media dan surat kabar yang bersangkutan dimana data tersebut diambil; dan pemilik repository ini tidak melakukan klaim kepemilikan atas konten tersebut. Jika Anda mendapati bahwa data ini telah melanggar suatu hak cipta; mohon kontak pengelola repository ini.

[ English ]

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. The dataset is shared for the sole purpose of aiding open scientific research in Bahasa Indonesia (computing or linguistics), and can only be used for that purpose. The ownership of each article within the dataset belongs to the respective newspaper from which it was extracted; and the maintainer of the repository does not claim ownership of any of the content within it. If you think, by any means, that this dataset breaches any established copyrights; please contact the repository maintainer.

dataset-artikel's People

Contributors

feryandi avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    ๐Ÿ–– Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. ๐Ÿ“Š๐Ÿ“ˆ๐ŸŽ‰

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google โค๏ธ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.