精华区文章阅读

发信人: xuxian (呵呵), 信区: C_and_CPP
标题: 编码算法大全之一
发信站: 哈工大紫丁香 (Thu Aug 28 12:43:31 2003)

发布人：156ok 发布时间：2002-1-4 9:28:56
-----------------------------------------------------------------------

相信上过网的朋友们都遇见过“乱码”，也就是在浏览网页或看Email时出现的不能辨认的
字符。以前也有许多的文章介绍过“乱码”，不过他们的文章只是讲怎样辨别和怎样用工
具解码，并没有详细介绍各种编码的算法的实现，本文将对互联网上最常用的几种编码的
编码和解码算法作以详细的阐述。希望对想了解“乱码”算法或想在自己程序中实现这些
功能朋友们有一些参考价值。本文的源程序用C语言写成，形式为函数，可直接使用。

Uuencode:

Uuencode 是将二进制文件以文本文件方式进行编码表示、以利于基于文本传输环境中进行
二进制文件的传输/交换的编码方法之一，在邮件系统/二进制新闻组中使用频率比较高，
经常用于 Attach 二进制文件。

这种编码的特征是：每一行开头用“M”标志。下面是我做的一个测试用的文件mogao.txt
，编码为Uuencode：

begin 644 mogao.txt

M"0D)("`@(*&VPM+"Z\OCMZBT\\BKH;<-"@G7]]7?.FUO9V%OHZRPU]3&N\:Z

MU]6^HZAT96QN970Z+R\R,#(N,3$R+C(P+C$S,CHR,Z.IL\G4L:&C#0H)("`@

M("`@Q*JXW\CMO/ZYI-?WRM*CNFAT='`Z+R]M;V=A;RYB96YT:75N+FYE=`T*

M"0D)16UA:6QT;SIM;V=A;T`S-S$N;F5T#0H)("`@*BHJ*BHJ*BHJ*BHJ*BHJ

M*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ("`@("`@("`@("`@("`@

M#0H)("`@*B"S_<'+O,?2Y,JRP[2VO+*[M/C7WZ.LL_W!R]?CO*/*LL.TMKRR

MN\'TS\(J#0H)("`@*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ*BHJ

,*BHJ*BHJ*BHJ*BHJ

`

end

你可以把它单独存成一个文件：mogao.uue，然后用Winzip打开，解压即得mogao.txt。

Uuencode的算法很简单，编码时它将3个字符顺序放入一个 24 位的缓冲区，缺字符的地方
补零，然后将缓冲区截断成为 4 个部分，高位在先，每个部分 6 位，用下面的64个字符
重新表示：

"`!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_"

在文件的开头有“begin xxx 被编码的文件名”，在文件的结尾有“end”，用来标志Uue
文件的开始和结束。编码时，每次读取源文件的45个字符，不足45个的用“NULL”补足为
3的整数倍（如：23补为24），然后输入目标文件一个ASCII为：“32+实际读取的字符数”
的字符作为每一行的开始。读取的字符编码后输入目标文件，再输入一个“换行符”。如
果源文件被编码完了，那么输入“`（ASCII为96）”和一个“换行符”表示编码结束。

解码时它将4个字符分别转换为4个6位字符后，截取有用的后六位放入一个 24 位的缓冲区
，即得3个二进制代码。

下面我给出Uuencode编码和解码的C语言描述：

/*Uuencode编码*/

void Uue(unsigned char chasc[3],unsigned char chuue[4])

/*

chasc：未编码的二进制代码

chuue：编码过的Uue代码

*/

{int i,k=2;

unsigned char t=NULL;

for(i=0;i<3;i++)

{*(chuue+i)=*(chasc+i)>>k;

*(chuue+i)|=t;

if(*(chuue+i)==NULL) *(chuue+i)+=96;

else *(chuue+i)+=32;

t=*(chasc+i)<<(8-k);

t>>=2;

k+=2;

}

*(chuue+3)=*(chasc+2)&63;

if(*(chuue+3)==NULL) *(chuue+3)+=96;

else *(chuue+3)+=32;

}

/*Uuencode解码*/

void unUue（unsigned char chuue[4]，unsigned char chasc[3]）

/*

chuue：未解码的Uue代码

chasc：解码过的二进制代码

*/

{int i,k=2;

unsigned char t=NULL;

if(*chuue==96) *chuue=NULL;

else *chuue-=32;

for(i=0;i<3;i++)

{*(chasc+i)=*(chuue+i)<<k;

k+=2;

if(*(chuue+i+1)==96) *(chuue+i+1)=NULL;

else *(chuue+i+1)-=32;

t=*(chuue+i+1)>>8-k;

*(chasc+i)|=t;

}

}

2. Xxencode

提到Uuencode不可能不提Xxencode， Xxencode的编码算法和 Uuencode基本相同，但是使
用的是不同的字符集。XxEncode编码使用的字符是：

“+-0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz”与 Uuencod
e 相比，它的特殊字符更少。很多支持 Uuencode 编解码的工具都同时支持 Xxencode。

这种编码的特征是：每一行开头用“h”标志。下面是Xxencode的一个例子：

begin 644 mogao.txt

h0EY760+U684qkh90uwjXhuWowwWfcPQB0UbLxxLTCapjNq3jcumkpxH4iwOu

hpxKycuVoNKliNLEu9mwmA16iAH2m9X6k9X2nAXcmAuCdgwbIgO4X1Ec760+U

h60+Ul8esrwXhjDutdBTrmh8XiaVoR5+u9mxhPqRVPmtWNKtoOLJi9atZR+o8

h0EY7FKpVOKloPndhPqRVPo+nBn2iPaJo1Ec760+U8Wce8Wce8Wce8Wce8Wce

h8Wce8Wce8Wce8Wce8Wce8Wce8Wce8Wce8Wce8Wce60+U60+U60+U60+U60+U

h1Ec760+U8W0nzQ59jATGtAemkvGqj98vhDXLruCggzr-mxTXj8D8ggCohfmm

hiw5onw6e1Ec760+U8Wce8Wce8Wce8Wce8Wce8Wce8Wce8Wce8Wce8Wce8Wce

A8Wce8Wce8Wce8Wce

+

end

你可以把它单独存成一个文件：mogao.xxe，然后用Winzip打开，解压即得mogao.txt。

Xxencode的编码算法和Uuencode基本相同，实现起来则更为简单，在此就不详述了。

下面给出Xxencode编码和解码的C语言描述：

/*Xxencode编码*/

void Xxe（unsigned char chasc[3],unsigned char chxxe[4])

/*

chasc：未编码的二进制代码

chxxe：编码过的Xxe代码

*/

{int i；

static char set[]=

"+-0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz";

chxxe[0]=chasc[0]>>2;

chxxe[1]=(chasc[0]<<4)&48|(chasc[1]>>4)&15;

chxxe[2]=(chasc[1]<<2)&60|(chasc[2]>>6)&3;

chxxe[3]=chasc[2]&63;

for(i=0;i<4;i++) chxxe[i]=set[chxxe[i]]; /*查表*/

}

/*需注意的是，Xxencode文件正文部分中每一行的第一个字母是：从源文件中实际读取的
字符数的ASCII值取后六位后用set[]查表得到的。*/

/*Xxencode解码*/

unsigned char set(unsigned char ch) /*查表函数*/

{if(ch==43) ch=0;

else if(ch==45) ch=1;

else if(ch>=48&&ch<=57) ch-=46;

else if(ch>=65&&ch<=90) ch-=53;

else if(ch>=97&&ch<=122) ch-=59;

return ch;

}

void unXxe（unsigned char chxxe[4]，unsigned char chasc[3]）

/*

chxxe：未解码的Xxe代码

chasc：解码过的二进制代码

*/

{int k=2 ,i;

unsigned char t;

t=NULL;

*chxxe=set(*chxxe);

for(i=0;i<3;i++)

{*(chxxe+i+1)=set(*(chxxe+i+1));

(chhex+i)=*(chxxe+i)<<k;

k+=2;

t=*(chxxe+i+1)>>8-k;

*(chhex+i)|=t;

}

}

Base64

Base64和下面将要介绍的Quoted-Printable都属于MIME（多部分( multi-part)、多媒体电
子邮件和 WWW 超文本的一种编码标准，用于传送诸如图形、声音和传真等非文本数据）。
MIME定义在RFC1341中。

Base64是现今在互联网上应用最多的一种编码，几乎所有的电子邮件软件头把它作为默认
的二进制编码，它已经成了现今电子邮件编码的代名词。

下面是Base64的一个例子，从例子中，您也可以看到Base64与电子邮件的的紧密联系：

Content-Type: text/plain;charset="cn-gb"

Content-Transfer-Encoding: BASE64

CQkJICAgIKG2wtLC68vjt6i088irobcNCgnX99XfOm1vZ2Fvo6yw19TGu8a619W+o6h0ZWxuZXQ6

Ly8yMDIuMTEyLjIwLjEzMjoyM6Ops8nUsaGjDQoJICAgICAgxKq438jtvP65pNf3ytKjumh0dHA6

Ly9tb2dhby5iZW50aXVuLm5ldA0KCQkJRW1haWx0bzptb2dhb0AzNzEubmV0DQoJICAgKioqKioq

KioqKioqKioqKioqKioqKioqKioqKioqKioqKioqKioqKioqKioqICAgICAgICAgICAgICAgDQoJ

ICAgKiCz/cHLvMfS5Mqyw7S2vLK7tPjX36Oss/3By9fjvKPKssO0tryyu8H0z8IqDQoJICAgKioq

KioqKioqKioqKioqKioqKioqKioqKioqKioqKioqKioqKioqKioqKioq

你可以把它单独存成一个文件，可以取名为：mogao.eml，双击可以用OutLook打开（前两
行为邮件的原始信息，从第四行开始为编码内容）。

Base64的算法同Uuencode的算法很接近，也很简单：它将字符流顺序放入一个 24 位的缓
冲区，缺字符的地方补零。然后将缓冲区截断成为 4 个部分，高位在先，每个部分 6 位
，用下面的64个字符重新表示：“ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuv
wxyz0123456789+/”。如果输入只有一个或两个字节，那么输出将用等号“=”补足。这可
以隔断附加的信息造成编码的混乱。它每行一般为76个字符。

下面我给出Base64的编码和解码的C语言描述：

/*Base64编码*/

void Base64(unsigned char chasc[3],unsigned char chuue[4])

/*

chasc：未编码的二进制代码

chuue：编码过的Base64代码

*/

{

int i,k=2;

unsinged char t=NULL;

for(i=0;i<3;i++)

{

*(chuue+i)=*(chasc+i)>>k;

*(chuue+i)|=t;

t=*(chasc+i)<<(8-k);

t>>=2;

k+=2;

}

*(chuue+3)=*(chasc+2)&63;

for(i=0;i<4;i++)

if((*(chuue+i)>=0)&&(*(chuue+i)<=25)) *(chuue+i)+=65;

else if((*(chuue+i)>=26)&&(*(chuue+i)<=51)) *(chuue+i)+=71;

else if((*(chuue+i)>=52)&&(*(chuue+i)<=61)) *(chuue+i)-=4;

else if(*(chuue+i)==62) *(chuue+i)=43;

else if(*(chuue+i)==63) *(chuue+i)=47;

}

/*Base64解码*/

void unBase64（unsigned char chuue[4]，unsigned char chasc[3]）

/*

chuue：未解码的Base64代码

chasc：解码过的二进制代码

*/

{int i,k=2;

unsigned char t=NULL;

for(i=0;i<4;i++)

if((*(chuue+i)>=65)&&(*(chuue+i)<=90)) *(chuue+i)-=65;

else if((*(chuue+i)>=97)&&(*(chuue+i)<=122)) *(chuue+i)-=71;

else if((*(chuue+i)>=48)&&(*(chuue+i)<=57)) *(chuue+i)+=4;

else if(*(chuue+i)==43) *(chuue+i)=62;

else if(*(chuue+i)==47) *(chuue+i)=63;

else if(*(chuue+i)==61) *(chuue+i)=0;

for(i=0;i<3;i++)

{*(chhex+i)=*(chuue+i)<<k;

k+=2;

t=*(chuue+i+1)>>8-k;

*(chhex+i)|=t;

}

}

--

※ 来源:．哈工大紫丁香 bbs.hit.edu.cn [FROM: 202.118.4.238]

C_and_CPP 版 (精华区)