世界語言名稱翻譯計畫

正體中文(OCH,4871)258,434個語言名稱

世界語言總計7,600 × 7,600 = 57,760,000個語言名稱


什麼是ISO 639-3以及為何我們需要翻譯它?

ISO 639-3是一個三個英文字的代碼,用於定義所有已知的人類語言。 現有的ISO 639-3總計定義了大約7600種已經確認的人類語言,此外尚有大約五千種語言正在調查中。

關於語言名稱數量的簡單數學計算,7,600×7,600=57,760,000,意即總計有超過五千七百萬個語言名稱。眼前的事實,除了英語以外,世界所有主要語言都沒有完整的ISO 639-3語言名稱翻譯表。

世界語言名稱翻譯計畫目標是提供軟體工具用於蒐集、翻譯、組織及公布「使用所有已知語言翻譯的所有已知語言名稱」。整個計畫的目的是提供公眾各類型的檔案格式來描述所有語言名稱,並且應用到各種實際的文化、語言場合或應用軟體上。整個任務是很簡單的,我們在能力範圍內,盡其所能地組織公眾資源來完成所有五千七百萬個語言名稱翻譯。


正體中文需要翻譯的數量

雖然五千七百萬的數量看似龐大恐怖,但是實際上,針對每一種語言本身數量都是有限的,目前的ISO 639-3已經定義的語言數量大約7602種。簡單地說,將「正體中文」翻譯成各種語言則需要7601個語言名稱,而使用正體中文翻譯各種語言名稱亦需要7601個語言名稱,因此實際上總計只需要15202個語言名稱翻譯。


與中文有關的語言列表如下,共計十七種:

編號 SUID ISO 源語 英語 正體中文 簡體中文
1219 1921471556819485894 CDO 閩東語 Min Dong Chinese 閩東語
闽东语
1287 1921471556819485962 CJY 晉語 Jinyu Chinese 晉語
晋语
1330 1921471556819486005 CMN 北京話 Mandarin Chinese 北京話
北京话
1383 1921471556819486058 CPX 莆仙話 Pu-Xian Chinese 莆仙話
兴化语
1421 1921471556819486093 CSL 中文手語 Chinese Sign Language 中文手語 中文手语
1479 1921471556819486151 CZH 徽州話 Huizhou Chinese 徽州話
徽州话
1482 1921471556819486154 CZO 閩中語 Min Zhong Chinese 閩中語 闽中语
1979 1921471556819486644 GAN 贛語 Gan Chinese 贛語
赣语
2295 1921471556819486955 HAK 客家話 Hakka Chinese 客家話
客家话
2427 1921471556819487086 HSN 湖南話 Xiang Chinese 湘語
湘语
3688 1921471556819488330 LTC 中古漢語 Late Middle Chinese 中古漢語 中古汉语
4074 1921471556819488709 MNP 閩北語 Min Bei Chinese 閩北語 闽北语
4403 1921471556819489032 NAN 閩南語 Min Nan Chinese 閩南語 闽南语
4871 1921471556819489490 OCH 上古漢語 Traditional Chinese 繁體中文 繁体中文
7024 1921471556819491612 WUU 吳語 Wu Chinese 吳語
吴语
7453 1921471556819492035 YUE 粵語 Yue Chinese 粵語
粤语
7523 1921471556819492105 ZHO 简体中文 Simplified Chinese 簡體中文 简体中文

每種對譯需要15202個語言名稱,因此總計為15202×17=258,434個語言名稱,而其中許多翻譯都是可以交叉相互對照的。


這個看似簡單的計畫,執行上實際有相當程度的困難度,舉「閩南語」翻譯成其他語言為例, 由於近期的「閩南語拼音化方案」的提出,把各種語言名稱翻譯成「閩南語」就有好幾種方案, 除了「閩南語拼音化方案」以外,「閩南語注音符號方案」也是其一,「漢化閩南語」也是主要解決辦法。 又例如,使用「吳語」將「简体中文」翻譯成「吳語版→简体中文」,實際上有好幾種方式。 因此,實際把這些方案都整合起來,在技術上其實還是有不少困難度要解決, 不是表面上那麼容易,原作者的語言學系統設計上,採用「語言方程」的方法, 有先天的優勢做這類解決方案。