From: Amir E. Aharoni <amir.aharoni@mail.huji.ac.il>
Date: Sat, 26 Sep 2015 20:28:03 +0000 (+0300)
Subject: Make grammar data loadable as an RL module and usable in JS
X-Git-Tag: 1.31.0-rc.0~5052^2
X-Git-Url: https://git.cyclocoop.org/%7B%24www_url%7Dadmin/compta/exercices/journal.php?a=commitdiff_plain;h=df5a848de8fcc4a5bf4046ec83a8b0f10b6f8a2d;p=lhc%2Fweb%2Fwiklou.git

Make grammar data loadable as an RL module and usable in JS

* Load the data of this variable from a JSON file to the same
  data structure that ResourceLoader uses for digitTransformTable,
  pluralRules, etc.
* Change the JSON structure to ensure the order of the rules.
  Otherwise JavaScript processes the keys in a random order.
* Delete the grammar code from JS and replace it with
  the same logic that is used in PHP for processing the data.

For now this is done only for Russian.

The next step will be to make the PHP and JS
data processing logic reusable.

Bug: T115217
Change-Id: I6b9b29b7017f958d62611671be017f97cee73415
---

diff --git a/includes/resourceloader/ResourceLoaderLanguageDataModule.php b/includes/resourceloader/ResourceLoaderLanguageDataModule.php
index 1630269101..ef942faf20 100644
--- a/includes/resourceloader/ResourceLoaderLanguageDataModule.php
+++ b/includes/resourceloader/ResourceLoaderLanguageDataModule.php
@@ -41,6 +41,7 @@ class ResourceLoaderLanguageDataModule extends ResourceLoaderModule {
 			'digitTransformTable' => $language->digitTransformTable(),
 			'separatorTransformTable' => $language->separatorTransformTable(),
 			'grammarForms' => $language->getGrammarForms(),
+			'grammarTransformations' => $language->getGrammarTransformations(),
 			'pluralRules' => $language->getPluralRules(),
 			'digitGroupingPattern' => $language->digitGroupingPattern(),
 			'fallbackLanguages' => $language->getFallbackLanguages(),
diff --git a/languages/Language.php b/languages/Language.php
index 7ef2effb98..4628812bab 100644
--- a/languages/Language.php
+++ b/languages/Language.php
@@ -137,6 +137,12 @@ class Language {
 	 */
 	static private $fallbackLanguageCache = [];
 
+	/**
+	 * Cache for grammar rules data
+	 * @var MapCacheLRU|null
+	 */
+	static private $grammarTransformations;
+
 	/**
 	 * Cache for language names
 	 * @var HashBagOStuff|null
@@ -3730,6 +3736,7 @@ class Language {
 
 		return $word;
 	}
+
 	/**
 	 * Get the grammar forms for the content language
 	 * @return array Array of grammar forms
@@ -3745,6 +3752,45 @@ class Language {
 
 		return [];
 	}
+
+	/**
+	 * Get the grammar transformations data for the language.
+	 * Used like grammar forms, with {{GRAMMAR}} and cases,
+	 * but uses pairs of regexes and replacements instead of code.
+	 *
+	 * @return array[] Array of grammar transformations.
+	 * @since 1.28
+	 */
+	public function getGrammarTransformations() {
+		$languageCode = $this->getCode();
+
+		if ( self::$grammarTransformations === null ) {
+			self::$grammarTransformations = new MapCacheLRU( 10 );
+		}
+
+		if ( self::$grammarTransformations->has( $languageCode ) ) {
+			return self::$grammarTransformations->get( $languageCode );
+		}
+
+		$data = [];
+
+		$grammarDataFile = __DIR__ . "/data/grammarTransformations/$languageCode.json";
+		if ( is_readable( $grammarDataFile ) ) {
+			$data = FormatJson::decode(
+				file_get_contents( $grammarDataFile ),
+				true
+			);
+			if ( $data === null ) {
+				throw new MWException( "Invalid grammar data for \"$languageCode\"." );
+				$data = [];
+			}
+
+			self::$grammarTransformations->set( $languageCode, $data );
+		}
+
+		return $data;
+	}
+
 	/**
 	 * Provides an alternative text depending on specified gender.
 	 * Usage {{gender:username|masculine|feminine|unknown}}.
diff --git a/languages/classes/LanguageRu.php b/languages/classes/LanguageRu.php
index c2560a468b..62de39051d 100644
--- a/languages/classes/LanguageRu.php
+++ b/languages/classes/LanguageRu.php
@@ -31,7 +31,6 @@
  * @ingroup Language
  */
 class LanguageRu extends Language {
-
 	/**
 	 * Convert from the nominative form of a noun to some other case
 	 * Invoked with {{grammar:case|word}}
@@ -46,19 +45,22 @@ class LanguageRu extends Language {
 			return $wgGrammarForms['ru'][$case][$word];
 		}
 
-		$grammarDataFile = __DIR__ . '/data/grammar.ru.json';
-		$grammarData = FormatJson::decode( file_get_contents( $grammarDataFile ), true );
+		$grammarTransformations = $this->getGrammarTransformations();
+
+		if ( isset( $grammarTransformations[$case] ) ) {
+			foreach ( array_values( $grammarTransformations[$case] ) as $rule ) {
+				$form = $rule[0];
 
-		if ( array_key_exists( $case, $grammarData ) ) {
-			foreach ( array_keys( $grammarData[$case] ) as $form ) {
 				if ( $form === '@metadata' ) {
 					continue;
 				}
 
+				$replacement = $rule[1];
+
 				$regex = "/$form/";
 
 				if ( preg_match( $regex, $word ) ) {
-					$word = preg_replace( $regex, $grammarData[$case][$form], $word );
+					$word = preg_replace( $regex, $replacement, $word );
 
 					break;
 				}
diff --git a/languages/classes/data/grammar.ru.json b/languages/classes/data/grammar.ru.json
deleted file mode 100644
index 446163b7a6..0000000000
--- a/languages/classes/data/grammar.ru.json
+++ /dev/null
@@ -1,51 +0,0 @@
-{
-	"@metadata": {
-		"authors": [
-			"Alexander Sigachov (alexander.sigachov at Googgle Mail)",
-			"Amir E. Aharoni (amir.aharoni@mail.huji.ac.il)"
-		],
-		"comment": "These rules don't cover the whole grammar of the language, and are intended only for names of languages and Wikimedia projects."
-	},
-	"genitive": {
-		"(.+)Ñ$": "$1Ñ",
-		"(.+)Ð¸Ñ$": "$1Ð¸Ð¸",
-		"(.+)ÐºÐ°$": "$1ÐºÐ¸",
-		"(.+)ÑÐ¸$": "$1ÑÐµÐ¹",
-		"(.+)Ð´Ñ$": "$1Ð´Ð¾Ð²",
-		"(.+)Ð´$": "$1Ð´Ð°",
-		"(.+)Ð½Ð¸Ðº$": "$1Ð½Ð¸ÐºÐ°",
-		"(.+)Ð½ÑÐµ$": "$1Ð½ÑÑ"
-	},
-	"prepositional": {
-		"(.+)Ñ$": "$1Ðµ",
-		"(.+)Ð¸Ñ$": "$1Ð¸Ð¸",
-		"(.+)ÐºÐ°$": "$1ÐºÐµ",
-		"(.+)ÑÐ¸$": "$1ÑÑÑ",
-		"(.+)Ð´Ñ$": "$1Ð´Ð°Ñ",
-		"(.+)Ð´$": "$1Ð´Ðµ",
-		"(.+)Ð½Ð¸Ðº$": "$1Ð½Ð¸ÐºÐµ",
-		"(.+)Ð½ÑÐµ$": "$1Ð½ÑÑ"
-	},
-	"languagegen": {
-		"@metadata": "ÑÐ·ÑÐº Ð² ÑÐ¾Ð´Ð¸ÑÐµÐ»ÑÐ½Ð¾Ð¼ Ð¿Ð°Ð´ÐµÐ¶Ðµ: '(Ñ) ÑÑÑÑÐºÐ¾Ð³Ð¾'",
-		"(.+)ÐºÐ¸Ð¹$": "$1ÐºÐ¾Ð³Ð¾",
-		"Ð¸Ð²ÑÐ¸Ñ$": "Ð¸Ð²ÑÐ¸ÑÐ°",
-		"Ð¸Ð´Ð¸Ñ$": "Ð¸Ð´Ð¸ÑÐ°",
-		"(.+)$": "$1"
-	},
-	"languageprep": {
-		"@metadata": "ÑÐ·ÑÐº Ð² Ð¿ÑÐµÐ´Ð»Ð¾Ð¶Ð½Ð¾Ð¼ Ð¿Ð°Ð´ÐµÐ¶Ðµ: '(Ð½Ð°) ÑÑÑÑÐºÐ¾Ð¼'",
-		"(.+)ÐºÐ¸Ð¹$": "$1ÐºÐ¾Ð¼",
-		"Ð¸Ð²ÑÐ¸Ñ$": "Ð¸Ð²ÑÐ¸ÑÐµ",
-		"Ð¸Ð´Ð¸Ñ$": "Ð¸Ð´Ð¸ÑÐµ",
-		"(.+)$": "$1"
-	},
-	"languageadverb": {
-		"@metadata": "Ð½Ð°ÑÐµÑÐ¸Ðµ Ñ Ð½Ð°Ð·Ð²Ð°Ð½Ð¸ÐµÐ¼ ÑÐ·ÑÐºÐ°: 'Ð¿Ð¾-ÑÑÑÑÐºÐ¸'",
-		"(.+)ÐºÐ¸Ð¹$": "Ð¿Ð¾-$1ÐºÐ¸",
-		"Ð¸Ð²ÑÐ¸Ñ$": "Ð½Ð° Ð¸Ð²ÑÐ¸ÑÐµ",
-		"Ð¸Ð´Ð¸Ñ$": "Ð½Ð° Ð¸Ð´Ð¸ÑÐµ",
-		"(Ð¸Ð´Ð¾|ÑÑÐ´Ñ|ÑÐ¸Ð½Ð´Ð¸|ÑÑÐ¿ÐµÑÐ°Ð½ÑÐ¾)$": "Ð½Ð° $1",
-		"(.+)$": "Ð½Ð° ÑÐ·ÑÐºÐµ $1"
-	}
-}
diff --git a/languages/data/grammarTransformations/ru.json b/languages/data/grammarTransformations/ru.json
new file mode 100644
index 0000000000..deb58b7ef8
--- /dev/null
+++ b/languages/data/grammarTransformations/ru.json
@@ -0,0 +1,57 @@
+{
+	"@metadata": {
+		"authors": [
+			"Alexander Sigachov (alexander.sigachov at Googgle Mail)",
+			"Amir E. Aharoni (amir.aharoni@mail.huji.ac.il)"
+		],
+		"comment": "These rules don't cover the whole grammar of the language, and are intended only for names of languages and Wikimedia projects."
+	},
+	"genitive": [
+		[ "(.+)Ñ$", "$1Ñ" ],
+		[ "(.+)Ð¸Ñ$", "$1Ð¸Ð¸" ],
+		[ "(.+)ÐºÐ°$", "$1ÐºÐ¸" ],
+		[ "(.+)ÑÐ¸$", "$1ÑÐµÐ¹" ],
+		[ "(.+)Ð´Ñ$", "$1Ð´Ð¾Ð²" ],
+		[ "(.+)Ð´$", "$1Ð´Ð°" ],
+		[ "(.+)Ð½Ð¸Ðº$", "$1Ð½Ð¸ÐºÐ°" ],
+		[ "(.+)Ð½ÑÐµ$", "$1Ð½ÑÑ" ]
+	],
+	"prepositional": [
+		[ "(.+)Ñ$", "$1Ðµ" ],
+		[ "(.+)Ð¸Ñ$", "$1Ð¸Ð¸" ],
+		[ "(.+)ÐºÐ°$", "$1ÐºÐµ" ],
+		[ "(.+)ÑÐ¸$", "$1ÑÑÑ" ],
+		[ "(.+)Ð´Ñ$", "$1Ð´Ð°Ñ" ],
+		[ "(.+)Ð´$", "$1Ð´Ðµ" ],
+		[ "(.+)Ð½Ð¸Ðº$", "$1Ð½Ð¸ÐºÐµ" ],
+		[ "(.+)Ð½ÑÐµ$", "$1Ð½ÑÑ" ]
+	],
+	"languagegen": [
+		[ "@metadata", [
+			"comment", "ÑÐ·ÑÐº Ð² ÑÐ¾Ð´Ð¸ÑÐµÐ»ÑÐ½Ð¾Ð¼ Ð¿Ð°Ð´ÐµÐ¶Ðµ: '(Ñ) ÑÑÑÑÐºÐ¾Ð³Ð¾'"
+		] ],
+		[ "(.+)ÐºÐ¸Ð¹$", "$1ÐºÐ¾Ð³Ð¾" ],
+		[ "Ð¸Ð²ÑÐ¸Ñ$", "Ð¸Ð²ÑÐ¸ÑÐ°" ],
+		[ "Ð¸Ð´Ð¸Ñ$", "Ð¸Ð´Ð¸ÑÐ°" ],
+		[ "(.+)$", "$1" ]
+	],
+	"languageprep": [
+		[ "@metadata", [
+			"comment", "ÑÐ·ÑÐº Ð² Ð¿ÑÐµÐ´Ð»Ð¾Ð¶Ð½Ð¾Ð¼ Ð¿Ð°Ð´ÐµÐ¶Ðµ: '(Ð½Ð°) ÑÑÑÑÐºÐ¾Ð¼'"
+		] ],
+		[ "(.+)ÐºÐ¸Ð¹$", "$1ÐºÐ¾Ð¼" ],
+		[ "Ð¸Ð²ÑÐ¸Ñ$", "Ð¸Ð²ÑÐ¸ÑÐµ" ],
+		[ "Ð¸Ð´Ð¸Ñ$", "Ð¸Ð´Ð¸ÑÐµ" ],
+		[ "(.+)$", "$1" ]
+	],
+	"languageadverb": [
+		[ "@metadata", [
+			"comment", "Ð½Ð°ÑÐµÑÐ¸Ðµ Ñ Ð½Ð°Ð·Ð²Ð°Ð½Ð¸ÐµÐ¼ ÑÐ·ÑÐºÐ°: 'Ð¿Ð¾-ÑÑÑÑÐºÐ¸'"
+		] ],
+		[ "(.+)ÐºÐ¸Ð¹$", "Ð¿Ð¾-$1ÐºÐ¸" ],
+		[ "Ð¸Ð²ÑÐ¸Ñ$", "Ð½Ð° Ð¸Ð²ÑÐ¸ÑÐµ" ],
+		[ "Ð¸Ð´Ð¸Ñ$", "Ð½Ð° Ð¸Ð´Ð¸ÑÐµ" ],
+		[ "(Ð¸Ð´Ð¾|ÑÑÐ´Ñ|ÑÐ¸Ð½Ð´Ð¸|ÑÑÐ¿ÐµÑÐ°Ð½ÑÐ¾)$", "Ð½Ð° $1" ],
+		[ "(.+)$", "Ð½Ð° ÑÐ·ÑÐºÐµ $1" ]
+	]
+}
diff --git a/resources/src/mediawiki.language/languages/ru.js b/resources/src/mediawiki.language/languages/ru.js
index ccc68f1e47..09d7c0b518 100644
--- a/resources/src/mediawiki.language/languages/ru.js
+++ b/resources/src/mediawiki.language/languages/ru.js
@@ -2,82 +2,37 @@
  * Russian (Ð ÑÑÑÐºÐ¸Ð¹) language functions
  */
 
-// These tests were originally made for names of Wikimedia
-// websites, so they don't currently cover all the possible
-// cases.
-
 mediaWiki.language.convertGrammar = function ( word, form ) {
-	/*global $ */
 	'use strict';
 
-	var grammarForms = mediaWiki.language.getData( 'ru', 'grammarForms' );
-	if ( grammarForms && grammarForms[ form ] ) {
-		return grammarForms[ form ][ word ];
+	var forms, transformations, i, rule, sourcePattern, regexp, replacement;
+
+	forms = mediaWiki.language.getData( 'ru', 'grammarForms' );
+	if ( forms && forms[ form ] ) {
+		return forms[ form ][ word ];
+	}
+
+	transformations = mediaWiki.language.getData( 'ru', 'grammarTransformations' );
+
+	if ( !transformations[ form ] ) {
+		return word;
 	}
-	switch ( form ) {
-		case 'genitive': // ÑÐ¾Ð´Ð¸ÑÐµÐ»ÑÐ½ÑÐ¹ Ð¿Ð°Ð´ÐµÐ¶
-			if ( word.slice( -1 ) === 'Ñ' ) {
-				word = word.slice( 0, -1 ) + 'Ñ';
-			} else if ( word.slice( -2 ) === 'Ð¸Ñ' ) {
-				word = word.slice( 0, -2 ) + 'Ð¸Ð¸';
-			} else if ( word.slice( -2 ) === 'ÐºÐ°' ) {
-				word = word.slice( 0, -2 ) + 'ÐºÐ¸';
-			} else if ( word.slice( -2 ) === 'ÑÐ¸' ) {
-				word = word.slice( 0, -2 ) + 'ÑÐµÐ¹';
-			} else if ( word.slice( -2 ) === 'Ð´Ñ' ) {
-				word = word.slice( 0, -2 ) + 'Ð´Ð¾Ð²';
-			} else if ( word.slice( -1 ) === 'Ð´' ) {
-				word = word.slice( 0, -1 ) + 'Ð´Ð°';
-			} else if ( word.slice( -3 ) === 'Ð½ÑÐµ' ) {
-				word = word.slice( 0, -3 ) + 'Ð½ÑÑ';
-			} else if ( word.slice( -3 ) === 'Ð½Ð¸Ðº' ) {
-				word = word.slice( 0, -3 ) + 'Ð½Ð¸ÐºÐ°';
-			}
-			break;
-		case 'prepositional': // Ð¿ÑÐµÐ´Ð»Ð¾Ð¶Ð½ÑÐ¹ Ð¿Ð°Ð´ÐµÐ¶
-			if ( word.slice( -1 ) === 'Ñ' ) {
-				word = word.slice( 0, -1 ) + 'Ðµ';
-			} else if ( word.slice( -2 ) === 'Ð¸Ñ' ) {
-				word = word.slice( 0, -2 ) + 'Ð¸Ð¸';
-			} else if ( word.slice( -2 ) === 'ÐºÐ°' ) {
-				word = word.slice( 0, -2 ) + 'ÐºÐµ';
-			} else if ( word.slice( -2 ) === 'ÑÐ¸' ) {
-				word = word.slice( 0, -2 ) + 'ÑÑÑ';
-			} else if ( word.slice( -2 ) === 'Ð´Ñ' ) {
-				word = word.slice( 0, -2 ) + 'Ð´Ð°Ñ';
-			} else if ( word.slice( -1 ) === 'Ð´' ) {
-				word = word.slice( 0, -1 ) + 'Ð´Ðµ';
-			} else if ( word.slice( -3 ) === 'Ð½ÑÐµ' ) {
-				word = word.slice( 0, -3 ) + 'Ð½ÑÑ';
-			} else if ( word.slice( -3 ) === 'Ð½Ð¸Ðº' ) {
-				word = word.slice( 0, -3 ) + 'Ð½Ð¸ÐºÐµ';
-			}
-			break;
-		case 'languagegen': // ÑÐ·ÑÐº Ð² ÑÐ¾Ð´Ð¸ÑÐµÐ»ÑÐ½Ð¾Ð¼ Ð¿Ð°Ð´ÐµÐ¶Ðµ ("(Ñ) ÑÑÑÑÐºÐ¾Ð³Ð¾")
-			if ( word.slice( -3 ) === 'ÐºÐ¸Ð¹' ) {
-				word = word.slice( 0, -2 ) + 'Ð¾Ð³Ð¾';
-			} else if ( $.inArray( word, [ 'Ð¸Ð²ÑÐ¸Ñ', 'Ð¸Ð´Ð¸Ñ' ] ) > -1 ) {
-				word = word + 'Ð°';
-			}
-			break;
-		case 'languageprep': // ÑÐ·ÑÐº Ð² Ð¿ÑÐµÐ´Ð»Ð¾Ð¶Ð½Ð¾Ð¼ Ð¿Ð°Ð´ÐµÐ¶Ðµ ("(Ð½Ð°) ÑÑÑÑÐºÐ¾Ð¼")
-			if ( word.slice( -3 ) === 'ÐºÐ¸Ð¹' ) {
-				word = word.slice( 0, -2 ) + 'Ð¾Ð¼';
-			} else if ( $.inArray( word, [ 'Ð¸Ð²ÑÐ¸Ñ', 'Ð¸Ð´Ð¸Ñ' ] ) > -1 ) {
-				word = word + 'Ðµ';
-			}
-			break;
-		case 'languageadverb': // Ð½Ð°ÑÐµÑÐ¸Ðµ Ñ Ð½Ð°Ð·Ð²Ð°Ð½Ð¸ÐµÐ¼ ÑÐ·ÑÐºÐ° ("Ð¿Ð¾-ÑÑÑÑÐºÐ¸")
-			if ( word.slice( -3 ) === 'ÐºÐ¸Ð¹' ) {
-				word = 'Ð¿Ð¾-' + word.slice( 0, -1 );
-			} else if ( $.inArray( word, [ 'Ð¸Ð²ÑÐ¸Ñ', 'Ð¸Ð´Ð¸Ñ' ] ) > -1 ) {
-				word = 'Ð½Ð° ' + word + 'Ðµ';
-			} else if ( $.inArray( word, [ 'Ð¸Ð´Ð¾', 'ÑÑÐ´Ñ', 'ÑÐ¸Ð½Ð´Ð¸', 'ÑÑÐ¿ÐµÑÐ°Ð½ÑÐ¾' ] ) > -1 ) {
-				word = 'Ð½Ð° ' + word;
-			} else {
-				word = 'Ð½Ð° ÑÐ·ÑÐºÐµ ' + word;
-			}
-			break;
+
+	for ( i = 0; i < transformations[ form ].length; i++ ) {
+		rule = transformations[ form ][ i ];
+		sourcePattern = rule[ 0 ];
+
+		if ( sourcePattern === '@metadata' ) {
+			continue;
+		}
+
+		regexp = new RegExp( sourcePattern );
+		replacement = rule[ 1 ];
+
+		if ( word.match( regexp ) ) {
+			return word.replace( regexp, replacement );
+		}
 	}
+
 	return word;
 };