Giter Club home page Giter Club logo

unga's Introduction

联合国大会语料库

语料库下载链接

百度网盘 提取码:dgut

谷歌云盘

原数据

所有原数据来源于联合国官方网站

原数据是以PDF的格式存在,我们采用了abbyy finereader 15进行了PDF到txt的转换,最终处理成本语料库。

会议段落数据集

数据示例:

[["临时主席以英语发言):在讨论我们议程上其他项目之前,按照既定惯例,我谨提请大会注意文件A/56/345,该文件今天下午已经在大会堂里分发。", 1], ["文件中有一份秘书长给大会主席的信,他在信中通知大会,根据《宪章》第十九条,有15个成员国拖欠向联合国交纳的会费。", 0], ["“凡拖欠本组织财政款项之会员国,其拖欠数目如等于或超过前两年所应交纳之数目时,即丧失其在大会投票权。", 1], ["我是否可以认为,大会已适当注意到文件A/56/345所载情况?", 1]]
[["临时主席以英语发言):议事规则第28条规定,大会应在每届会议开始时,根据大会主席的提议,任命一个有9名成员组成的全权证书委员会。", 1], ["因此提议,大会第五十六届会议全权证书委员会应由下列国家组成:**、丹麦、牙买加、莱索托、俄罗斯联邦、塞内加尔、新加坡、美利坚合众国和乌拉圭。", 1], ["我是否可以认为,上述国家就此被任命为证书委员会成员;", 1]]

我们对原会议记录中每位发言人的发言内容进行了处理。上面展示的是其中两条数据示例,一条数据表示一位发言人的发言内容,每条数据以句子的形式存在,同时每个句子后面带有二分类标签,“1”表示段落开始句,“0”表示段落内句。

会议摘要数据集

数据示例:

{"label": [1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0], 
 "text": ["主席(以西班牙语发言):在着手审议之前,我谨就我打算接下来如何提及委员会的报告征求各代表团的意见。", "为节省时间,我将仅使用“委员会”一词,但有一项谅解是,委员会的正式名称,即特别政治和非殖民化委员会(第四委员会),将反映在正式记录中。", "我谨提醒各代表团,根据第34/401号决定第7段,大会商定,当一个主要委员会和全体会议审议同一份决议草案时,各代表团对其投票应尽可能只解释一次,即在委员会,或在全体会议,但该代表团在全体会议所投的票与其在委员会所投的票有所不同时,则不在此限。", "我还要提醒各代表团,同样根据大会第34/401号决定,解释投票时间以十分钟为限,各代表团应在其席位上发言。", "在我们开始就委员会各项报告所载建议采取行动之前,我谨通知各代表团,除非秘书处事先另获通知,否则我们将以与委员会同样的方式作出决定。", "这意味着,如果委员会进行了记录表决,我们也将这样做。", "我还希望,我们将不经表决通过委员会未经表决通过的那些建议。", "表决结果将被上载到PaperSmart门户网站上。", "在进一步开展工作之前,我谨提请各代表团注意秘书处题为“特别政治和非殖民化委员会(第四委员会)关于议程项目51至63、123和137的报告清单”的说明。", "该说明仅以英文分发,文号为A/C.4/73/INF/3。", "该说明已分发到大会堂内每个席位上,作为就委员会在其各项报告中建议的各项决议草案和决定草案采取行动的参考指南。", "在这方面,各代表团将在该说明的第四栏中找到委员会决议草案或决定草案的编号,同项说明的第二栏中则是供全体会议采取行动的报告的相应文号。", "关于载有多项建议的报告,决议草案或决定草案的编号载于该说明的第三栏。", "请各代表团注意,一旦委员会通过这些决议草案和决定草案,就不再接受新增提案国。", "关于提案国身份的任何澄清,均应向委员会秘书提出。", "我还要提醒各代表团,在表决结束后对投票意图的任何更正,均应直接向秘书处提出。", "我请各代表团给予配合,以避免这方面的工作进程受到任何干扰。"],
 "summary_label": [1, 0, 1], 
 "summary": ["我谨提醒各代表团,根据第34/401号决定第7段,大会商定,当一个主要委员会和全体会议审议同一份决议草案时,各代表团对其投票应尽可能只解释一次,即在委员会,或在全体会议,但该代表团在全体会议所投的票与其在委员会所投的票有所不同时,则不在此限。", "该说明已分发到大会堂内每个席位上,作为就委员会在其各项报告中建议的各项决议草案和决定草案采取行动的参考指南。", "我还要提醒各代表团,同样根据大会第34/401号决定,解释投票时间以十分钟为限,各代表团应在其席位上发言。"]}

在会议摘要数据集中以字典的形式存放数据,上面展示的是其中一条数据示例。

“label”表示每个句子对应的段落标签。

“text”为拆分成了以句子为单位构成的原文。

“summary_label”是参考摘要结果中每个句子对应的段落标签。

“summary”为对应原文的参考摘要结果。

unga's People

Contributors

yanyuansu avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.