From cfc9b193a1799baf0e60c40a56428de85c7c27f9 Mon Sep 17 00:00:00 2001
From: Robin Pepermans <robin@users.mediawiki.org>
Date: Thu, 21 Apr 2011 21:21:32 +0000
Subject: [PATCH] Conversion script between Syllabics and Latin for the
 Inuktitut language

---
 RELEASE-NOTES                           |   1 +
 languages/classes/LanguageIu.deps.php   |   8 +
 languages/classes/LanguageIu.php        | 213 ++++++++++++++++++++++++
 languages/messages/MessagesEn.php       |   5 +
 languages/messages/MessagesIke_cans.php |   5 +
 languages/messages/MessagesIke_latn.php |   5 +
 maintenance/language/messageTypes.inc   |   3 +
 maintenance/language/messages.inc       |   5 +
 8 files changed, 245 insertions(+)
 create mode 100644 languages/classes/LanguageIu.deps.php
 create mode 100644 languages/classes/LanguageIu.php

diff --git a/RELEASE-NOTES b/RELEASE-NOTES
index 02d66f41b4..d6887b20c0 100644
--- a/RELEASE-NOTES
+++ b/RELEASE-NOTES
@@ -134,6 +134,7 @@ PHP if you have not done so prior to upgrading MediaWiki.
 * (bug 13879) Special:Emailuser asks for suitable target user if called without.
 * (bug 16956) IPTC and XMP metadata now extracted from images
 * (bug 23816) A tracking category is now added for any pages with broken images.
+* Conversion script between Syllabics and Latin for the Inuktitut language
 
 === Bug fixes in 1.18 ===
 * (bug 23119) WikiError class and subclasses are now marked as deprecated
diff --git a/languages/classes/LanguageIu.deps.php b/languages/classes/LanguageIu.deps.php
new file mode 100644
index 0000000000..3b78d8750e
--- /dev/null
+++ b/languages/classes/LanguageIu.deps.php
@@ -0,0 +1,8 @@
+<?php
+// This file exists to ensure that base classes are preloaded before
+// LanguageIu.php is compiled, working around a bug in the APC opcode
+// cache on PHP 5, where cached code can break if the include order
+// changed on a subsequent page view.
+// see http://mail.wikipedia.org/pipermail/wikitech-l/2006-January/033660.html
+
+require_once( dirname(__FILE__).'/../LanguageConverter.php' );
diff --git a/languages/classes/LanguageIu.php b/languages/classes/LanguageIu.php
new file mode 100644
index 0000000000..8aec6a2792
--- /dev/null
+++ b/languages/classes/LanguageIu.php
@@ -0,0 +1,213 @@
+<?php
+/**
+  * @addtogroup Language
+  */
+
+/*
+* Conversion script between Latin and Syllabics
+* for Inuktitut
+*
+* Based on:
+*   - http://commons.wikimedia.org/wiki/Image:Inuktitut.png
+*   - LanguageSr.php
+*
+* @ingroup Language
+*/
+require_once( dirname( __FILE__ ) . '/../LanguageConverter.php' );
+
+class IuConverter extends LanguageConverter {
+	var $mToLatin = array(
+		# Lowercase
+		'á¦' => 'h',   'á' => 'i',    'á' => 'ii',    'á' => 'u',    'á' => 'uu',    'á' => 'a',    'á' => 'aa',
+		'á' => 'p',   'á±' => 'pi',   'á²' => 'pii',   'á³' => 'pu',   'á´' => 'puu',   'á¸' => 'pa',   'á¹' => 'paa',
+		'á¦' => 't',   'á' => 'ti',   'á' => 'tii',   'á' => 'tu',   'á' => 'tuu',   'á' => 'ta',   'á' => 'taa',
+		'á' => 'k',   'á­' => 'ki',   'á®' => 'kii',   'á¯' => 'ku',   'á°' => 'kuu',   'á²' => 'ka',   'á³' => 'kaa',
+		'áá' => 'qq', 'áá­' => 'qqi', 'áá®' => 'qqii', 'áá¯' => 'qqu', 'áá°' => 'áqquu', 'áá²' => 'qqa', 'áá³' => 'qqaa',
+		'á¡' => 'g',   'á' => 'gi',   'á' => 'gii',   'á' => 'gu',   'á' => 'guu',   'á' => 'ga',   'á' => 'gaa',
+		'á»' => 'm',   'á¥' => 'mi',   'á¦' => 'mii',   'á§' => 'mu',   'á¨' => 'muu',   'áª' => 'ma',   'á«' => 'maa',
+		'á' => 'n',   'á' => 'ni',  'á' => 'nii',   'á' => 'nu',   'á' => 'nuu',   'á' => 'na',   'á' => 'naa',
+		'á' => 's',   'á¯' => 'si',   'á°' => 'sii',   'á±' => 'su',   'á²' => 'suu',   'á´' => 'sa',   'áµ' => 'saa',
+		'áª' => 'l',   'á' => 'li',  'á' => 'lii',   'á' => 'lu',   'á' => 'luu',   'á' => 'la',   'á' => 'laa',
+		'á¾' => 'j',   'á¨' => 'ji',   'á©' => 'jii',   'áª' => 'ju',   'á«' => 'juu',   'á­' => 'ja',   'á®' => 'jaa',
+		'á' => 'v',   'á' => 'vi',   'á' => 'vii',   'á' => 'vu',   'á' => 'vuu',   'á' => 'va',   'á' => 'vaa',
+		'á' => 'r',   'á' => 'ri',   'á' => 'rii',   'á' => 'ru',   'á' => 'ruu',   'á' => 'ra',   'á' => 'raa',
+		'á' => 'q',   'á¿' => 'qi',   'á' => 'qii',   'á' => 'qu',   'á' => 'quu',   'á' => 'qa',   'á' => 'qaa',
+		'á' => 'ng',  'á' => 'ngi',  'á' => 'ngii',  'á' => 'ngu',  'á' => 'nguu',  'á' => 'nga',  'á' => 'ngaa',
+		'á' => 'nng', 'á±' => 'nngi', 'á²' => 'nngii', 'á³' => 'nngu', 'á´' => 'nnguu', 'áµ' => 'nnga', 'á¶' => 'nngaa',
+		'á¦' => 'É«',   'á ' => 'É«i',    'á¡' => 'É«ii',   'á¢' => 'É«u',    'á£' => 'É«uu',   'á¤' => 'É«a',    'á¥' => 'É«aa',
+
+		# There is no uppercase in Syllabics
+	);
+
+	var $mToSyllabics = array(
+		# Lowercase
+		'h' => 'á¦',   'i' => 'á',    'ii' => 'á',    'u' => 'á',    'uu' => 'á',    'a' => 'á',    'aa' => 'á',
+		'p' => 'á',   'pi' => 'á±',   'pii' => 'á²',   'pu' => 'á³',   'puu' => 'á´',   'pa' => 'á¸',   'paa' => 'á¹',
+		't' => 'á¦',   'ti' => 'á',   'tii' => 'á',   'tu' => 'á',   'tuu' => 'á',   'ta' => 'á',   'taa' => 'á',
+		'k' => 'á',   'ki' => 'á­',   'kii' => 'á®',   'ku' => 'á¯',   'kuu' => 'á°',   'ka' => 'á²',   'kaa' => 'á³',
+		'g' => 'á¡',   'gi' => 'á',   'gii' => 'á',   'gu' => 'á',   'guu' => 'á',   'ga' => 'á',   'gaa' => 'á',
+		'm' => 'á»',   'mi' => 'á¥',   'mii' => 'á¦',   'mu' => 'á§',   'muu' => 'á¨',   'ma' => 'áª',   'maa' => 'á«',
+		'n' => 'á',   'ni' => 'á',   'nii' => 'á',   'nu' => 'á',   'nuu' => 'á',   'na' => 'á',   'naa' => 'á',
+		's' => 'á',   'si' => 'á¯',   'sii' => 'á°',   'su' => 'á±',   'suu' => 'á²',   'sa' => 'á´',   'saa' => 'áµ',
+		'l' => 'áª',   'li' => 'á',   'lii' => 'á',   'lu' => 'á',   'luu' => 'á',   'la' => 'á',   'laa' => 'á',
+		'j' => 'á¾',   'ji' => 'á¨',   'jii' => 'á©',   'ju' => 'áª',   'juu' => 'á«',   'ja' => 'á­',   'jaa' => 'á®',
+		'v' => 'á',   'vi' => 'á',   'vii' => 'á',   'vu' => 'á',   'vuu' => 'á',   'va' => 'á',   'vaa' => 'á',
+		'r' => 'á',   'ri' => 'á',   'rii' => 'á',   'ru' => 'á',   'ruu' => 'á',   'ra' => 'á',   'raa' => 'á',
+		'qq' => 'áá',  'qqi' => 'áá­',  'qqii' => 'áá®',  'qqu' => 'áá¯',  'qquu' => 'áá°',  'qqa' => 'áá²',  'qqaa' => 'áá³',
+		'q' => 'á',   'qi' => 'á¿',   'qii' => 'á',   'qu' => 'á',   'quu' => 'á',   'qa' => 'á',   'qaa' => 'á',
+		'ng' => 'á',  'ngi' => 'á',  'ngii' => 'á',  'ngu' => 'á',  'nguu' => 'á',  'nga' => 'á',  'ngaa' => 'á',
+		'nng' => 'á', 'nngi' => 'á±', 'nngii' => 'á²', 'nngu' => 'á³', 'nnguu' => 'á´', 'nnga' => 'áµ', 'nngaa' => 'á¶',
+		'É«' => 'á¦',   'É«i' => 'á ',    'É«ii' => 'á¡',   'É«u' => 'á¢',    'É«uu' => 'á£',   'É«a' => 'á¤',    'É«aa' => 'á¥',
+
+		# Uppercase
+		'H' => 'á¦',   'I' => 'á',    'Ii' => 'á',    'U' => 'á',    'Uu' => 'á',    'A' => 'á',    'Aa' => 'á',
+		'P' => 'á',   'Pi' => 'á±',   'Pii' => 'á²',   'Pu' => 'á³',   'Puu' => 'á´',   'Pa' => 'á¸',   'Paa' => 'á¹',
+		'T' => 'á¦',   'Ti' => 'á',   'Tii' => 'á',   'Tu' => 'á',   'Tuu' => 'á',   'Ta' => 'á',   'Taa' => 'á',
+		'K' => 'á',   'Ki' => 'á­',   'Kii' => 'á®',   'Ku' => 'á¯',   'Kuu' => 'á°',   'Ka' => 'á²',   'Kaa' => 'á³',
+		'G' => 'á¡',   'Gi' => 'á',   'Gii' => 'á',   'Gu' => 'á',   'Guu' => 'á',   'Ga' => 'á',   'Gaa' => 'á',
+		'M' => 'á»',   'Mi' => 'á¥',   'Mii' => 'á¦',   'Mu' => 'á§',   'Muu' => 'á¨',   'Ma' => 'áª',   'Maa' => 'á«',
+		'N' => 'á',   'Ni' => 'á',   'Nii' => 'á',   'Nu' => 'á',   'Nuu' => 'á',   'Na' => 'á',   'Naa' => 'á',
+		'S' => 'á',   'Si' => 'á¯',   'Sii' => 'á°',   'Su' => 'á±',   'Suu' => 'á²',   'Sa' => 'á´',   'Saa' => 'áµ',
+		'L' => 'áª',   'Li' => 'á',   'Lii' => 'á',   'Lu' => 'á',   'Luu' => 'á',   'La' => 'á',   'Laa' => 'á',
+		'J' => 'á¾',   'Ji' => 'á¨',   'Jii' => 'á©',   'Ju' => 'áª',   'Juu' => 'á«',   'Ja' => 'á­',   'Jaa' => 'á®',
+		'V' => 'á',   'Vi' => 'á',   'Vii' => 'á',   'Vu' => 'á',   'Vuu' => 'á',   'Va' => 'á',   'Vaa' => 'á',
+		'R' => 'á',   'Ri' => 'á',   'Rii' => 'á',   'Ru' => 'á',   'Ruu' => 'á',   'Ra' => 'á',   'Raa' => 'á',
+		'Q' => 'á',   'Qi' => 'á¿',   'Qii' => 'á',   'Qu' => 'á',   'Quu' => 'á',   'Qa' => 'á',   'Qaa' => 'á',
+		'Ng' => 'á',  'Ngi' => 'á',  'Ngii' => 'á',  'Ngu' => 'á',  'Nguu' => 'á',  'Nga' => 'á',  'Ngaa' => 'á',
+		'Nng' => 'á', 'Nngi' => 'á±', 'Nngii' => 'á²', 'Nngu' => 'á³', 'Nnguu' => 'á´', 'Nnga' => 'áµ', 'Nngaa' => 'á¶',
+#		'É«' => 'á¦',   'É«i' => 'á ',    'É«ii' => 'á¡',   'É«u' => 'á¢',    'É«uu' => 'á£',   'É«a' => 'á¤',    'É«aa' => 'á¥',
+	);
+
+	function loadDefaultTables() {
+		$this->mTables = array(
+			'ike-cans' => new ReplacementArray( $this->mToSyllabics ),
+			'ike-latn' => new ReplacementArray( $this->mToLatin ),
+			'iu'    => new ReplacementArray()
+		);
+	}
+
+	/* rules should be defined as -{Syllabic | Latin-} -or-
+		-{code:text | code:text | ...}-
+		update: delete all rule parsing because it's not used
+		        currently, and just produces a couple of bugs
+	*/
+	function parseManualRule( $rule, $flags = array() ) {
+		if ( in_array( 'T', $flags ) ) {
+			return parent::parseManualRule( $rule, $flags );
+		}
+
+		$carray = array();
+		// otherwise ignore all formatting
+		foreach ( $this->mVariants as $v ) {
+			$carray[$v] = $rule;
+		}
+
+		return $carray;
+	}
+
+	// Do not convert content on talk pages
+	function parserConvert( $text, &$parser ) {
+		if ( is_object( $parser->getTitle() ) && $parser->getTitle()->isTalkPage() )
+			$this->mDoContentConvert = false;
+		else
+			$this->mDoContentConvert = true;
+
+		return parent::parserConvert( $text, $parser );
+	}
+
+	/*
+	 * A function wrapper:
+	 *   - if there is no selected variant, leave the link
+	 *     names as they were
+	 *   - do not try to find variants for usernames
+	 */
+	function findVariantLink( &$link, &$nt, $ignoreOtherCond = false ) {
+		 // check for user namespace
+		if ( is_object( $nt ) ) {
+			$ns = $nt->getNamespace();
+			if ( $ns == NS_USER || $ns == NS_USER_TALK )
+				return;
+		}
+
+		$oldlink = $link;
+		parent::findVariantLink( $link, $nt, $ignoreOtherCond );
+		if ( $this->getPreferredVariant() == $this->mMainLanguageCode )
+			$link = $oldlink;
+	}
+
+	/*
+	 * We want our external link captions to be converted in variants,
+	 * so we return the original text instead -{$text}-, except for URLs
+	 */
+	function markNoConversion( $text, $noParse = false ) {
+		if ( $noParse || preg_match( "/^https?:\/\/|ftp:\/\/|irc:\/\//", $text ) )
+			return parent::markNoConversion( $text );
+		return $text;
+	}
+
+	/*
+	 * An ugly function wrapper for parsing Image titles
+	 * (to prevent image name conversion)
+	 */
+	function autoConvert( $text, $toVariant = false ) {
+		global $wgTitle;
+		if ( is_object( $wgTitle ) && $wgTitle->getNameSpace() == NS_FILE ) {
+			$imagename = $wgTitle->getNsText();
+			if ( preg_match( "/^$imagename:/", $text ) ) return $text;
+		}
+		return parent::autoConvert( $text, $toVariant );
+	}
+
+	/**
+	 *  It translates text into variant, specials:
+	 *    - ommiting roman numbers
+	 */
+	function translate( $text, $toVariant ) {
+		$breaks = '[^\w\x80-\xff]';
+
+		// regexp for roman numbers
+		$roman = 'M{0,4}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})';
+
+		$reg = '/^' . $roman . '$|^' . $roman . $breaks . '|' . $breaks . $roman . '$|' . $breaks . $roman . $breaks . '/';
+
+		$matches = preg_split( $reg, $text, -1, PREG_SPLIT_OFFSET_CAPTURE );
+
+		$m = array_shift( $matches );
+		if ( !isset( $this->mTables[$toVariant] ) ) {
+			throw new MWException( "Broken variant table: " . implode( ',', array_keys( $this->mTables ) ) );
+		}
+		$ret = $this->mTables[$toVariant]->replace( $m[0] );
+		$mstart = $m[1] + strlen( $m[0] );
+		foreach ( $matches as $m ) {
+			$ret .= substr( $text, $mstart, $m[1] -$mstart );
+			$ret .= parent::translate( $m[0], $toVariant );
+			$mstart = $m[1] + strlen( $m[0] );
+		}
+
+		return $ret;
+	}
+}
+
+/**
+ * Inuktitut
+ *
+ * @ingroup Language
+ */
+class LanguageIu extends Language {
+	function __construct() {
+		global $wgHooks;
+
+		parent::__construct();
+
+		$variants = array( 'iu', 'ike-cans', 'ike-latn' );
+		$variantfallbacks = array(
+			'iu'    => 'ike-cans',
+			'ike-cans' => 'iu',
+			'ike-latn' => 'iu',
+		);
+
+		$flags = array();
+		$this->mConverter = new IuConverter( $this, 'iu', $variants, $variantfallbacks, $flags );
+		$wgHooks['ArticleSaveComplete'][] = $this->mConverter;
+	}
+}
diff --git a/languages/messages/MessagesEn.php b/languages/messages/MessagesEn.php
index e3a10f0b17..6705aa8894 100644
--- a/languages/messages/MessagesEn.php
+++ b/languages/messages/MessagesEn.php
@@ -3704,6 +3704,11 @@ Variants for Chinese language
 'variantname-tg-latn' => 'tg-Latn', # only translate this message to other languages if you have to change it
 'variantname-tg'      => 'tg', # only translate this message to other languages if you have to change it
 
+# Variants for Inuktitut language
+'variantname-ike-cans' => 'ike-Cans', # only translate this message to other languages if you have to change it
+'variantname-ike-latn' => 'ike-Latn', # only translate this message to other languages if you have to change it
+'variantname-iu'       => 'iu', # only translate this message to other languages if you have to change it
+
 # Metadata
 'metadata'                  => 'Metadata',
 'metadata-help'             => 'This file contains additional information, probably added from the digital camera or scanner used to create or digitize it.
diff --git a/languages/messages/MessagesIke_cans.php b/languages/messages/MessagesIke_cans.php
index ef090bf6e8..773742c843 100644
--- a/languages/messages/MessagesIke_cans.php
+++ b/languages/messages/MessagesIke_cans.php
@@ -376,6 +376,11 @@ $messages = array(
 'ilsubmit' => 'áááá³á',
 'bydate'   => 'á±ááá¦áá áááááá',
 
+# Variants for Inuktitut language
+'variantname-ike-cans' => 'ááááá¯á ááá',
+'variantname-ike-latn' => 'ilisautik',
+'variantname-iu'       => 'disable',
+
 # EXIF tags
 'exif-imagelength'         => 'áá¦á¯ááá',
 'exif-imagedescription'    => 'ááá³áá ááá',
diff --git a/languages/messages/MessagesIke_latn.php b/languages/messages/MessagesIke_latn.php
index bb05fb8781..488e0b83fd 100644
--- a/languages/messages/MessagesIke_latn.php
+++ b/languages/messages/MessagesIke_latn.php
@@ -339,6 +339,11 @@ pigivuq qatannguti uikipitia kiinaujaqutiqarvik isuillingaitjapaa. iqtuu suqusiq
 'ilsubmit' => 'ivaaqpuq',
 'bydate'   => 'pitaaruttuq inuulirvik',
 
+# Variants for Inuktitut language
+'variantname-ike-cans' => 'ááááá¯á ááá',
+'variantname-ike-latn' => 'ilisautik',
+'variantname-iu'       => 'disable',
+
 # EXIF tags
 'exif-imagelength'         => 'qutsingniq',
 'exif-imagedescription'    => 'inunnguaq atiq',
diff --git a/maintenance/language/messageTypes.inc b/maintenance/language/messageTypes.inc
index 0f714b48b5..5b3a8e1992 100644
--- a/maintenance/language/messageTypes.inc
+++ b/maintenance/language/messageTypes.inc
@@ -228,6 +228,9 @@ $wgOptionalMessages = array(
 	'variantname-tg-cyrl',
 	'variantname-tg-latn',
 	'variantname-tg',
+	'variantname-ike-cans',
+	'variantname-ike-latn',
+	'variantname-iu',
 	'rc-change-size',
 	'resetpass_text',
 	'image_sample',
diff --git a/maintenance/language/messages.inc b/maintenance/language/messages.inc
index 790264247e..5d6aae7a04 100644
--- a/maintenance/language/messages.inc
+++ b/maintenance/language/messages.inc
@@ -2641,6 +2641,11 @@ $wgMessageStructure = array(
 		'variantname-tg-latn',
 		'variantname-tg',
 	),
+	'variantname-iu' => array(
+		'variantname-ike-cans',
+		'variantname-ike-latn',
+		'variantname-iu',
+	),
 	'metadata' => array(
 		'metadata',
 		'metadata-help',
-- 
2.20.1