语料的采集与整理

  • 格式:ppt
  • 大小:124.00 KB
  • 文档页数:14

下载文档原格式

  / 14
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

科学取样
随机取样
Random sampling
科学取样
系统抽样
Systematic sampling
科学取样
分层抽样
Population
18-29
30-49 65+ 50-64
Sample
Proportional allocation
Even allocation
Fra Baidu bibliotek
Sample
Stratified sampling
语料的采集与整理
中国外语教育研究中心 梁茂成
主要内容
什么是语料库? 科学取样 平衡问题 几个常见问题 语料的整理
什么是语料库
corpus (pl. corpora) 指经过科学取样和加工的电子文本库。 借助计算机分析工具,研究者可开展 相关的语言理论及应用研究。
什么是语料库
语料库是数据 数据不等于事实 事实是偶发的 数据是收集而来的 对数据而言,量很重要 数据是用来代表整体的 分析数据所得到的结论可以推及整体
几个常见问题
建设学习者语料库时,学习者所犯的语 言错误是否需要纠正? 建设学习者语料库时,男女比例失调怎 么办? 建设新闻语料库时,人民日报等报纸有 现成的电子文本,很方便收集。可否直 接全部收录?
几个常见问题
建设“迷惘的一代”作家语料库,这个 有意义吗?这样的语料库有什么用途? 语料库的容量如何测量?应该有多大? 网络语料库建设中应该注意什么?
语料的整理
整理的目的 我们喜欢CORPUS LINGUI STICS.
语料的整理
语料整理的几个主要方面:
段落相关(回车符等)问题;
空格相关问题;
字符相关问题。
谢谢
平衡问题
语料库中各类文本的所占比例与语言 的实际使用情况基本相当。
平衡问题
Text categories A B C D E F G H Press: Reportage Press: Editorial Press: Reviews Religion Skill and hobbies Popular lore Belles-lettres Miscellaneous: Government & house organs J K L M N P R Learned Fiction: General Fiction: Mystery Fiction: Science Fiction: Adventure Fiction: Romance Humor 新闻报道 社论 新闻评论 宗教 技术、商贸 通俗社会生活 传记和杂文 其他: 报告及公 文等 学术、科技 一般小说 侦探小说 科幻小说 历险小说 爱情小说 幽默 80 29 24 6 29 29 9 No. of texts 44 27 17 17 36 48 75 30