復制涉及到unicode的字符集轉換問題。Unicode和舊編碼體系轉換的過程中肯定有壹些詞是Unicode無法表達的。
Unicode官員使用壹個占位符來代表這些單詞,也就是U+FFFD替換字符。U+FFFD的UTF-8編碼為0xEFBFBD,如果重復形成,則為EFBFBDEFBFBDEFBFBD。
如果在GBK/CP 936/GB 2312/GB 18030的環境下顯示,壹個漢字有2個字節,最後的結果是:按重量抄,按重量抄(0xEFBF),按重量抄(0xBDEF),按重量抄(0xBFBD)。
Unicode是壹直在更新的,這個過程中壹定會有壹些相對新的字符他無法表達,或者即使Unicode發布了新版本,收錄了某個文本,但是很多軟件系統並沒有升級。
就像生活中壹些手機廠商新開發的表情符號表情,在自己的手機上可以正常顯示,但在其他品牌的手機上不壹定能顯示,其實就是字符集不支持造成的。