在Unicode和舊編碼體系轉換的過程中,壹定會有壹些詞不能用Unicode表示。Unicode官員用壹個占位符來代表這些單詞,這就是:U+FFFD替換字符。
然後對U+FFFD的UTF-8進行編碼,正好是' '。如果這個''重復多次,比如'',然後在GBK/CP 936/GB 2312/GB 18030的環境下顯示,壹個漢字有2個字節,最後的結果是:發發發(0xEFBF),金。
Python代碼:1。& gt& gt& gtu'\uFFFD '。編碼(' utf-8')*22。' '3.& gt& gt& gt4.& gt& gt& gtPrintu' \ ufffd '。編碼(' UTF-8') * 2輸出結果:“復制”。