世界語言名稱翻譯計畫
正體中文(OCH,4871)258,434個語言名稱
世界語言總計7,600 × 7,600 = 57,760,000個語言名稱
什麼是ISO 639-3以及為何我們需要翻譯它?
ISO 639-3是一個三個英文字的代碼,用於定義所有已知的人類語言。 現有的ISO 639-3總計定義了大約7600種已經確認的人類語言,此外尚有大約五千種語言正在調查中。
關於語言名稱數量的簡單數學計算,7,600×7,600=57,760,000,意即總計有超過五千七百萬個語言名稱。眼前的事實,除了英語以外,世界所有主要語言都沒有完整的ISO 639-3語言名稱翻譯表。
世界語言名稱翻譯計畫目標是提供軟體工具用於蒐集、翻譯、組織及公布「使用所有已知語言翻譯的所有已知語言名稱」。整個計畫的目的是提供公眾各類型的檔案格式來描述所有語言名稱,並且應用到各種實際的文化、語言場合或應用軟體上。整個任務是很簡單的,我們在能力範圍內,盡其所能地組織公眾資源來完成所有五千七百萬個語言名稱翻譯。
- 一份三個英文字的ISO 639-3列表,可以在《這裡》找到。
- 一份ISO 639-3基本名稱對照列表,可以在《這裡》找到。
正體中文需要翻譯的數量
雖然五千七百萬的數量看似龐大恐怖,但是實際上,針對每一種語言本身數量都是有限的,目前的ISO 639-3已經定義的語言數量大約7602種。簡單地說,將「正體中文」翻譯成各種語言則需要7601個語言名稱,而使用正體中文翻譯各種語言名稱亦需要7601個語言名稱,因此實際上總計只需要15202個語言名稱翻譯。
- 「正體中文」→各種語言版本的 「正體中文」:7601個
- 「各種語言名稱」→正體中文版「語言名稱」:7601個
與中文有關的語言列表如下,共計十七種:
編號 |
SUID |
ISO |
源語 |
英語 |
正體中文 |
簡體中文 |
1219 |
1921471556819485894 |
CDO |
閩東語 |
Min Dong Chinese |
閩東語
|
闽东语
|
1287 |
1921471556819485962 |
CJY |
晉語 |
Jinyu Chinese |
晉語
|
晋语 |
1330 |
1921471556819486005 |
CMN |
北京話 |
Mandarin Chinese |
北京話
|
北京话 |
1383 |
1921471556819486058 |
CPX |
莆仙話 |
Pu-Xian Chinese |
莆仙話
|
兴化语
|
1421 |
1921471556819486093 |
CSL |
中文手語 |
Chinese Sign Language |
中文手語 |
中文手语 |
1479 |
1921471556819486151 |
CZH |
徽州話 |
Huizhou Chinese |
徽州話
|
徽州话 |
1482 |
1921471556819486154 |
CZO |
閩中語 |
Min Zhong Chinese |
閩中語 |
闽中语 |
1979 |
1921471556819486644 |
GAN |
贛語 |
Gan Chinese |
贛語
|
赣语 |
2295 |
1921471556819486955 |
HAK |
客家話 |
Hakka Chinese |
客家話
|
客家话 |
2427 |
1921471556819487086 |
HSN |
湖南話 |
Xiang Chinese |
湘語
|
湘语 |
3688 |
1921471556819488330 |
LTC |
中古漢語 |
Late Middle Chinese |
中古漢語 |
中古汉语 |
4074 |
1921471556819488709 |
MNP |
閩北語 |
Min Bei Chinese |
閩北語 |
闽北语 |
4403 |
1921471556819489032 |
NAN |
閩南語 |
Min Nan Chinese |
閩南語 |
闽南语 |
4871 |
1921471556819489490 |
OCH |
上古漢語 |
Traditional Chinese |
繁體中文 |
繁体中文 |
7024 |
1921471556819491612 |
WUU |
吳語 |
Wu Chinese |
吳語
|
吴语 |
7453 |
1921471556819492035 |
YUE |
粵語 |
Yue Chinese |
粵語
|
粤语
|
7523 |
1921471556819492105 |
ZHO |
简体中文 |
Simplified Chinese |
簡體中文 |
简体中文 |
每種對譯需要15202個語言名稱,因此總計為15202×17=258,434個語言名稱,而其中許多翻譯都是可以交叉相互對照的。
這個看似簡單的計畫,執行上實際有相當程度的困難度,舉「閩南語」翻譯成其他語言為例,
由於近期的「閩南語拼音化方案」的提出,把各種語言名稱翻譯成「閩南語」就有好幾種方案,
除了「閩南語拼音化方案」以外,「閩南語注音符號方案」也是其一,「漢化閩南語」也是主要解決辦法。
又例如,使用「吳語」將「简体中文」翻譯成「吳語版→简体中文」,實際上有好幾種方式。
因此,實際把這些方案都整合起來,在技術上其實還是有不少困難度要解決,
不是表面上那麼容易,原作者的語言學系統設計上,採用「語言方程」的方法,
有先天的優勢做這類解決方案。