花了点时间把中文维基百科上的所有文章转换成便于自然语言处理的纯文本格式(去掉mediawiki的markup和文内链接)。维基百科的40多万个文章被分到90个xml文件里。每个文件解压后的大小在3MB左右。
下载地址
第一个文件:wiki00.xml.zip(1.4MB)
所有文件:中文维基百科语料库2012年3月版(126.4MB) 。
语料库遵从维基百科的文件共享协议,任何人可以免费自由使用。
语料库的概况
维基百科版本:2012.03.26
总字数:67046114
所用汉字个数(繁体和简体):12740
所用汉字的出现频率统计可以在这里下载。其中出现次数最多的100个汉字为(汉字后的数字为出现的次数):
-----------
的 2118330
年 857434
在 688045
一 627815
中 564739
是 563451
大 459658
有 415591
人 [...]
拉丁语系的人只要学会认读写二三十个字母,再加上一段时间的练习就可以读写了。他们学习读写所画的时间精力的投入只是学中文的零头。这后面的蝴蝶效应是这样的:他们6,7岁即可读写,我们9岁10岁才能独立读写;这就意味着在有限的社会教育资源下,他们可以实现更好的国民教育;较大比例的受过教育的人是科技文化的产生兴旺的基础,我猜这也是欧洲首先产生科技的重要原因之一。
没错,中文有它特有的魅力,而且学中文也能训练人的一些素质,例如想象力,毅力等。但是绝大多数人仅仅把语言作为信息载体,是信息传播的工具。在选择工具时我们应该把性价比放在第一位。从这个意义上讲我支持简体字,更支持中文罗马化。而且,中文罗马化有利于中文在国际上的推广,是中文成为世界语言的必要条件。
中文罗马化的一个很大障碍是中文里同音字太多。这大概是上世纪上半叶导致我们最终放弃罗马化的原因之一。这个需要探索解决,一个最容易想到的办法是把词而不是字作为单位,例如”今天”不是写作"jin tian"而是写作”jintian”. 例如:
jintian de tianqi zhenhaoa! chuntian zhongyu laidaole!
(今天的天气真好啊!春天终于来到了!)
毫无疑问,罗马化的中文一开始看起来很累。但是正如做任何事情一样,开始总是最难的。近期我会在自己的微博里做个试验,探索罗马化的可行性和方案。
(本文是”如何翻墙访问Facebook和Youtube“系列文章的步骤之一。)
胜利在望了!现在在你的电脑上安装客户端程序,它能自动负责你的电脑与你的VPN服务器之间的通信。
首先找到你在上一步下载的钥匙,解压这个文件夹。这些是你的配置文件,包括服务器地址用户名,密匙等信息,不要外传。
点击这里下载并安装openvpn官方客户端。如果打不开可以用我博客里的这个链接。(下载速度可能比较慢)
安装后启动客户端。点击Access ->Connection Profiles +
这时会出现选择profile文件窗口,找到刚才解压的钥匙文件夹,并选择其中的profile文件。选择后OpenVPN Client中会生成一个大方框按钮。
4. 点击这个按钮就可以自动连接openvpn服务器。这样你的电脑就相当于位于国外,你可以访问所有在美国被视为合法的网站了。另外在使用VPN时请关闭p2p下载和网络视频软件,例如迅雷,flashget, 电驴, bt, pplive, qq视频等,防止浪费流量。
从现在起,享受你的自由吧!
(本文是”如何翻墙访问Facebook和Youtube“系列文章的步骤之一。)
当你登入到自己的VPS后在终端中逐次输入一下三行命令(可以拷贝复制过去)来安装VPN服务器。
wget http://boke.9cheng.de/wp-content/uploads/2012/03/openvpninstall.tar.gz
tar zxvf openvpninstall.tar.gz
./openvpninstall.sh
在安装过程中你会被问一些问题:
第一个问题是问你是否安装系统升级软件,这一步是确保安全性和兼容性的所以输入:y
第二个问题问是否安装openvpn,也就是VPN的服务器,所以当然也是yes, 输入:y
下面是你会遇到的第三个问题:
################################################
Select on option:
1) Set up new OpenVPN server AND create one client
2) Create additional clients
################################################
第一次安装选择1
然后会问你客户的名字,你可以输入自己的名字(当然也可以是昵称)。
下面会询问服务器信息大概10个问题你可以一路回车越过。遇到yes还是no的问题就输入y , 例如你马上会看到这个
Sign the certificate? [y/n]:
输入y [...]
(本文是”如何翻墙访问Facebook和Youtube“系列文章的步骤之一。)
如果你已经使用Linux, 自然不用我解释。 这里是针对windows用户的。
第一步:在官方网站下载免费的Putty远程登陆客户端。
第二步:在burst.net给你发的帐户信息邮件里找到下面两行
VPS IP Address:
SSH Root Password:
这里是你的VPS的IP地址和密码。你的用户名是:root
第三步:按照这里的说明登陆你的VPS.
我的微博
- 我在国外碰到的很多来自发展中国家的女人都喜欢抱怨自己国家的男人不如自己先进文明优秀。我看都是半斤八两。当然男性社会,男人还是要为自己国家的落后付主要责任的,所以让女人鄙视一下也不太冤枉。2012/05/18 23:41
- 最近学了python后有种走遍天下都不怕的感觉。打算学一下numpy等,并逐渐取代matlab.2012/05/11 23:57
- 严重同意!“@drgan: 不过回想起来,国内大学本科教育里,那些社会主义洗脑课程,还占了不少宝贵时间的,百分之十的比重还是有的吧。考研究生都需要。结果都是浪费时间,学的这些东西无用无理无聊,还不如澳洲学生搞聚会,弄烧烤呢。”2012/05/06 13:57
- 汉字正如其他中国的传统文化风俗一样充斥着糟粕,最大的一个就是众多贬义诋毁性的词都已"女"做偏旁部首。妻管严不是女权,只是丫鬟成了小姐,还是过去的东西,用马克思的话说还是落后阶级。什么时候这类歧视性汉字取消了,什么时候中国才有女权。拼音文就是解决方式之一。2012/05/04 09:41
- 估算了一下一个人平均每年听说的汉字在1千万这个数量级。2012/05/02 17:39
- 关于中国人对自己文化的固执依恋莫过于他们宁可认为自己人种低劣也不愿承认自己文化的低劣。2012/04/26 23:06
- 我在国外碰到的很多来自发展中国家的女人都喜欢抱怨自己国家的男人不如自己先进文明优秀。我看都是半斤八两。当然男性社会,男人还是要为自己国家的落后付主要责任的,所以让女人鄙视一下也不太冤枉。
近期评论
- 匿名 发表在《中文维基百科语料库》
- 如何翻墙访问Facebook和Youtube | 九成的博客 发表在《如何翻墙访问Facebook和Youtube之一:申请国外的VPS》
- Cheng 发表在《用box.com免费同步Zotero的pdf附件》
- hyx979@163.com 发表在《用box.com免费同步Zotero的pdf附件》
- 微博三十六技 发表在《推荐一个在线将文字转为图片的网站》

