網(wǎng)頁頭部的聲明應該是用 lang="zh" 還是 lang="zh-cn"?
太長不看版:
> 描述“中文 (簡體, 中國大陸)”用“zh-CN”準沒錯,萬無一失。
> 規(guī)范是天,規(guī)范是地,必須用“cmn-Hans-CN”,簡寫成“cmn”,但是然并卵,目前好像沒有一個瀏覽器支持,都無法識別為中文。
太長慢慢看版:
“zh”是中文,代表的是宏語言(Macrolanguage),單獨使用表示“中文”整體,可以是方言、文言文、簡體、繁體等單獨一種,也可以是任意組合的混合內(nèi)容?!皕h-CN”理論上表示的是“中文 (中國大陸)”,因為中國大陸的官方語言是“普通話 (簡體)”,所以這個“zh”的局限性就體現(xiàn)出來了:比如“尋尋覓覓,冷冷清清,悽悽慘慘戚戚”,用“zh-CN”描述沒法表達出“繁體”和“文言文”,但描述成“zh-TW”則成了“中文 (繁體, 臺灣)”,雖然指明了“繁體”,但還是沒能體現(xiàn)出“文言文”,同時還丟失了“中國大陸”。針對這種情況,按照 BCP 47 規(guī)范 (詳見參考鏈接 2),應該使用獨立語種更精確地描述:
cmn 普通話(官話、國語)
wuu 吳語(江浙話、上海話)
czh 徽語(徽州話、嚴州話、吳語-徽嚴片)
hak 客家語
yue 粵語(廣東話)
nan 閩南語(福建話、臺語)
cpx 莆仙話(莆田話、興化語)
cdo 閩東語
mnp 閩北語
zco 閩中語
gan 贛語(江西話)
hsn 湘語(湖南話)
cjy 晉語(山西話、陜北話)
語言文字標簽書寫順序:
language-extlang-script-region-variant-extension-privateuse
語言文字種類-擴展語言文字種類-書寫格式-國家和地區(qū)-變體-擴展-私有
語言文字標簽示例:
language:
fr 法語
es 西班牙語
language-extlang:
zh-lzh 中文 (文言文)
sgn-csl 手語 (中國大陸)
language-script:
cmn-Hans 普通話 (簡體)
yue-Hant 粵語 (繁體)
language-region:
zh-CN 中文 (簡體, 中國大陸)
en-US 英語 (美國)
language-script-region:
cmn-Hans-CN 普通話 (簡體, 中國大陸)
cmn-Hant-TW 普通話 (繁體, 臺灣)
language-script-variant:
zh-Latn-pinyin 漢語拼音(例:nǐ,拉丁字母形式)
zh-Bopo-pinyin 注音拼音(例:ㄋ丨ˇ,羅馬字形式,中國大陸 1958 年以前使用,臺灣目前使用)
常見的一般有 language、language-script 和 language-region 三種。
附注 1:
“cmn”“wuu”“yue”等 2005 年確定的 extlang 標記已于 2009 年提升為 language 標記,維基百科中“吳語”“粵語”等頁面均已使用最新的標準寫法,以下以“zh”開頭的寫法已被廢棄并不再推薦使用 (詳見參考鏈接 3),請直接去掉“zh-”前綴并使用“cmn”“wuu”“yue”等代替即可:
zh-Hans, zh-Hans-CN, zh-cmn, zh-cmn-Hans, zh-wuu, zh-yue, zh-gan....
類似還有 zh-Hans-HK、zh-Hans-MO、zh-Hans-TW、zh-Hant
廢棄可能原因:在語言學的分類上,中國語言學者多認為“吳語”“粵語”“閩語”等是“漢語”的方言,而西方學者多認為這些語言是一門和“普通話”同級關系的單獨語種。
中國大陸常見劃分:
1.漢藏語系
1.1. 漢語族
1.1.1. 漢語
1.2. 藏緬語族
1.3. 苗瑤語族
1.4. 壯侗語族
“漢語族”僅包含“漢語”一門語言,“吳語”“客家語”“粵語”“閩語”等均歸屬于“漢語”的不同方言。
西方常見劃分:
1.漢藏語系
1.1. 漢語族
1.1.1. 普通話(官話、國語)
1.1.2. 吳語(江浙話、上海話)
1.1.3. 徽語(徽州話、嚴州話、吳語-徽嚴片)
1.1.4. 客家語
1.1.5. 粵語(廣東話)
1.1.6. 閩南語(福建話、臺語)
1.1.7. 莆仙話(莆田話、興化語)
1.1.8. 閩東語
1.1.9. 閩北語
1.1.10. 閩中語
1.1.11. 贛語(江西話)
1.1.12. 湘語(湖南話)
1.1.13. 晉語(山西話、陜北話)
1.2. 藏緬語族
1.3. 苗瑤語族
1.4. 壯侗語族
“漢語族”包含“普通話”“吳語”“徽語”“客家話”“粵語”等多種語言。
重點來了!
以下兩種寫法均正確,后者描述更精準,但大部分程序和操作系統(tǒng)都只能識別前者,使用新標準可能會造成無法匹配瀏覽器用戶定義字體、網(wǎng)頁翻譯、程序語言自動切換等功能,為了兼容性的考量,推薦使用前者:
zh-CN 中文 (簡體, 中國大陸) 對應 cmn-Hans-CN 普通話 (簡體, 中國大陸)
zh-SG 中文 (簡體, 新加坡) 對應 cmn-Hans-SG 普通話 (簡體, 新加坡)
zh-HK 中文 (繁體, 香港) 對應 yue-Hant-HK 粵語 (繁體, 香港)
zh-MO 中文 (繁體, 澳門) 對應 yue-Hant-MO 粵語 (繁體, 澳門)
zh-TW 中文 (繁體, 臺灣) 對應 cmn-Hant-TW 普通話 (繁體, 臺灣)
附注 2:
同是簡體中文頁面, 默認或書面語均標記為“cmn (普通話)”,全文使用地方方言表達時,使用相應語言文字標簽標記,例:
“你” “我們” 用 cmn-Hans 普通話 (簡體)
“儂” “啊啦” 用 wuu-Hans 吳語 (簡體)
“你” “我哋” 用 yue-Hans 粵語 (簡體)
一般情況不用 region 選項,但如果要針對特定地區(qū)特定用語的友好性,則應設置區(qū)域,例 :
“消息” “黃梨” “自行車” 用 cmn-Hans-SG 普通話 (簡體, 新加坡)
“消息” “菠蘿” “自行車” 用 cmn-Hans-CN 普通話 (簡體, 中國大陸)
“消息” “菠蘿” “自行車” 用 cmn-Hant-CN 普通話 (繁體, 中國大陸)
“訊息” “菠蘿” “單車” 用 cmn-Hant-HK 普通話 (繁體, 香港)
“訊息” “鳳梨” “腳踏車” 用 cmn-Hant-TW 普通話 (繁體, 臺灣)
“analyse” “color” “elevator” 用 en-US 英語 (美國)
“analyze” “colour” “l(fā)ift” 用 en-GB 英語 (英國)
參考鏈接:
W3C Language tags in HTML and XML
IETF BCP 47 - Tags for Identifying Languages
IANA Language Subtag Registry
作者:荒原守望者
鏈接:https://www.zhihu.com/question/20797118/answer/63480740
來源:知乎
著作權歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權,非商業(yè)轉(zhuǎn)載請注明出處。
免責申明
本平臺部分信息來源于網(wǎng)絡,觀點僅代表作者本人,轉(zhuǎn)載僅以信息傳播分享為目的,如有侵權,請?zhí)峁┌鏅嘁蓡?、身份證明、版權證明、聯(lián)系方式等發(fā)郵件至hbfef@qq.com ,我們將及時進行處理。