英文的压缩率比中文高?

搬瓦工机场JMS

想来想去如果一个20M的TXT小说,中文和英文都压缩他们的话,英文一定更小吧?因为无非那26个字母,中文可是几千个汉字,是不是这个道理?
安徽网友:不是按个数算的吧,是换成字节算的
上海网友:英文比中文要小的多,本身就是精简。
天津网友:有可能,c++循环写出来的4G文件压缩后好像就几K
香港网友:我擦···这简直是英文的最大优势了
澳门网友:计算机还0和1呢,应该更小吧
福建网友:这涉及到信息熵的问题,英文一句话打乱后其实你还是能够看懂的。Waht si yuor nema?   但是中文不行,这说明中文的信息熵更高。
四川网友:有这个说法吗
海南网友:中文也一样,不信你看下面这一句

研表究明,汉字序顺并不定一影阅响读!事证实明了当你看这完句话之后才发字现都乱是的

看完后你再仔细看多一遍
台湾网友:好像有点道理
河南网友:好像有点道理
湖北网友:我怎么觉得同样的一句话中文更短呢?
贵州网友:英文打乱,真看不懂
江西网友:
自己测试不就知道了,文本/二进制压缩基础算法包括游程编码、霍夫曼、LZW,可以去了解了解。

我实际测试了下:
“`
601329 11月 16 19:41 ‘Real Life In London.7z’
1987752 11月 16 19:41 ‘Real Life In London.txt’
741405 11月 16 19:41 ‘Real Life In London.zip’
803820 11月 16 20:11  遮天-part-gb2312.7z
1988577 11月 16 20:11  遮天-part-gb2312.txt
991276 11月 16 20:11  遮天-part-gb2312.zip
579693 11月 16 20:12  遮天-part-utf8.7z
1988551 11月 16 19:54  遮天-part-utf8.txt
742664 11月 16 20:12  遮天-part-utf8.zip
“`
从结果来看,ASCII编码的英文小说与UTF8编码的中文小说,无论是7z还是zip的压缩比都基本相同。
GB2312编码的中文小说压缩比差于UTF8编码的中文小说,个人猜测是相同大小的GB2312文本信息密度本来就比UTF8文本含量多,因为单个中文字符GB2312只需要两字节而UTF8通常需要3字节,压缩比自然要差一点。
澳门网友:字节阿 一个中文占用两个英文字节.

未经允许不得转载:美国VPS_搬瓦工CN2 GIA VPS » 英文的压缩率比中文高?

赞 (0) 打赏

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏