[en] RLI is a 100% Java implementation of the Rosette Language Identifier. It supports the detection of language, encoding, and writing script for input data in any of 364 language profiles, involving 56 languages, 48 encodings, and 18 writing scripts
[en] Release 7.23.8.c69.0
[en] March 2023
[en] This release is for compatibility with other Rosette SDKs. There are no new features or bug fixes.
[en] Third-Party Component Updates
表1 [en] Updated
[en] Package |
[en] Old Version |
[en] New Version |
[en] Google Guava |
[en] 26.0-jre |
[en] 31.1-jre |
[en] Release 7.23.7.c68.0
[en] December 2022
[en] Bug Fixes
[en] Third-party component updates
[en] This release includes the following third-party component changes:
表2 [en] Upgraded
[en] Package |
[en] Old version |
[en] New version |
[en] Apache Log4j |
2.17.1 |
2.19.0 |
[en] fastutil |
8.5.6 |
8.5.9 |
[en] Jackson |
2.11.1 |
2.14.0 |
[en] SLF4J |
1.7.33 |
1.7.36 |
[en] SnakeYAML |
1.30 |
1.33 |
[en] Release 7.23.6.c67.0
[en] June 2022
[en] New
[en] Release 7.23.5.c66.0
[en] February 2022
[en] This release is for compatibility with other Rosette SDKs. There are no new features or bug fixes.
注記
[en] Java 8 and Java 9 support is deprecated as of this release.
[en] Third-party component updates
[en] This release includes the following third-party component changes:
表3 [en] Upgraded
[en] Package |
[en] Old Version |
[en] New Version |
[en] Apache Commons IO |
2.7 |
2.11.0 |
[en] Apache Commons Lang |
2.6 |
3.12.0 |
[en] Apache Log4j |
1.2.17 |
2.17.1 |
[en] ICU4J |
59.1 |
70.1 |
[en] fastutil |
8.4.0 |
8.5.6 |
[en] SLF4J |
1.7.28 |
1.7.33 |
[en] SnakeYAML |
1.26 |
1.30 |
[en] Release 7.23.4.c65.0
[en] July 2021
[en] Bug fixes
[en] Release 7.23.3.c64.1
[en] May 2021
[en] This release is for compatibility with other Rosette SDKs. There are no new features or bug fixes.
[en] Release 7.23.2.c63.0
[en] March 2021
[en] New
[en] Bug Fixes
[en] Release 7.23.1.c63.0
[en] January 2021
[en] New
[en] We added -input-json
(-ij
) as an option to RLICmd to specify that the input is an ADM format file. (RLIJE-533)
[en] When specifying -output-json
as an option in RLICmd, the resulting ADM now has a data
field containing the input data. If the encoding of the data is not recognized by the JVM, the data field will not be populated. (RLIJE-532)
[en] Bug Fixes
[en] Third-party component updates
[en] This release includes the following third party component changes:
[en] Release 7.23.0.c62.2
[en] September 2020
[en] Bug Fixes
[en] RLI-JE now correctly identifies the primary language of short documents which contain small fragments of a language in another script. Previously, the language of the fragments might be erroneously detected as the primary language. The lengths of the document's script regions are now taken into account when identifying the primary language. (RLIJE-523)
[en] API Changes
[en] Release 7.22.2.c62.2
[en] January 2020
[en] This release is for compatibility with other Rosette SDKs. There are no new features or bug fixes.
[en] Release 7.22.1.c62.0
[en] December 2019
[en] New Features
[en] Bugs Fixed
RLI-je 7.22.0 (7.21.4からの更新:)
2019年8月
新機能
短文アルゴリズムは下記の言語に対応しました:アルバニア語、ブルガリア語、カタロニア語、クロアチア語、エストニア語、アイスランド語、クルド語(アラビア文字)、クルド語(ラテン文字)、ラトビア語、リトアニア語、マケドニア語、ポーランド語、セルビア語(キリル文字)、セルビア語(ラテン文字)、スロバキア語、スロベニア語、ソマリア語、タガログ語、ウクライナ語、ウルドゥー語(アラビア文字)、ウズベク語(キリル文字)、ウズベク語(ラテン文字)、およびベトナム語
これまでマレー語(msa)として返していた文書はマレーシア語(zsm)として返すようになりました。
shortStringThresholdが設定されている場合、LanguageRegionAnnotatorは、文書内に含まれている他言語文に短文アルゴリズムを使用します。
RLI-je 7.21.4 (7.18.0からの更新内容)
信頼度スコアアルゴリズムを再調整し、信頼度の高い得点が0.03ぐらいでなく、約0.9となるようにしました。(RLIJE-447)
日本語と中国語文書にアルファベットなどが含まれている場合、文書を別々に処理することが可能となりました。以前のまま別々に処理したくない場合は、新たに追加したオプション minNonScriptioContinuaRegionLength を10に設定してください。(RLIJE-454)
[en] To become file-system-agnostic, the use of Path
in the API is now supported. (RLIJE-331)
[en] Version of OSGi (internal use only) upgraded. (RLIJE-380)
[en] Added -dontBreakRegionOnScriptBoundary
to RLICmd
. (RLIJE-324)
言語判別の重み付けで特定言語の判別率を上げることができるようになりました。(RLIJE-111)
言語ウェイトのAPIが短文解析にも使用できるようになりました。(RLIJE-204)
RLICmdのオプションを変更しました。(RLIJE-230)
言語が判別できない時、短文解析と標準解析で同じ結果を返すようになりました。いずれもこの場合Unknownが返ります。NoMatchException, NotEnoughDataException, LanguageIdentificationExceptionは廃止予定に追加。(RLIJE-272, RLIJE-304)
内部のアルゴリズムを変更し判別精度を向上。(RLIJE-277)
一つの言語に一つの結果を返すオプションを追加。詳細は LanguageIdentifierBuilder#uniqueLanguages(boolean)をご覧ください。(RLIJE-298)
LanguageIdentifierBuilderのlanguageHintとencodingHint メソッドを廃止予定に追加。言語ウェイトAPIをお使いください。(RLIJE-320)
RLICmdで言語データが不十分な時に起きていた例外処理の不具合を修正。(RLIJE-216)
複数のドキュメントをRLICmdで同時に処理できるようマルチスレッドに対応。(RLIJE-221)
icu4j および args4j を rli-je-shaded jarファイルにシェード。(RLIJE-237)
Basisのcommon-lib jarをrli-je-shaded jarにシェード。(RLIJE-248)
RLI-JEがadm-shadedの代わりにadm-modelに依存するようになりました。それに伴いRLI-JEはApache Commons Betwixt や Javassistに依存しなくなりました。(RLIJE-252)
短文解析のアルゴリズムを改良。7.13.0よりも20%処理速度が向上。(RLIJE-254)
特殊な処理を追加し、短文解析の判別精度を向上。(RLIJE-96)
ライセンスディレクトリーをBasisの他の製品に合わせ、license から licenses に変更。(RLIJE-124)
コマンドラインユーティリティーRLICmdをtools/bin から bin ディレクトリーに移動。(RLIJE-200)
中国語の判別方法を見直し、言語と文字体系を分離しました。文字体系がHan, Simplified (Hans) およびHan, Traditional (Hant)の時に、いずれも中国語 (zho) と判別するようにしました。従来はそれぞれ別々に簡体字中国語 (zhs) と繁体字中国語 (zht)と判別していました。(RLIJE-152)
複数の言語を含むドキュメントを処理する際、各言語領域を検出できるようになりました。(RLIJE-88)
LanguageIdentifierFactory と LanguageIdentifierを廃止予定に追加。代わりに LanguageIdentifierBuilderでオプションを設定したり、Annotator オブジェクトを生成し、言語、エンコーディング、文字体系、言語領域を検出します。本実装には、他のRosette製品でも使用されている新しいデータモデル (com.basistech.rosette.dm)を使用します。(RLIJE-93)
LanguageIdentifierインスタンスを生成するファクトリークラス(LanguageIdentifierFactory) を追加。(RLIJE-15)
コマンドラインユーティリティーを LanguageIdentifier から RLICmdに変更。(RLIJE-32)
UTF-16のエンコーディングに対し、リトルエンディアン(UTF-16LE) とビッグエンディアン(UTF-16BE)の判別が可能になりました。(RLIJE-51)
ライセンスの読み込み方法を拡張。LanguageIdentifierFactoryのコンストラクターが、ファイル、入力ストリーム、xmlの文字列からライセンスの読み込みが可能になりました。
LanguageIdentifier setLanguageWeight Adjustmentメソッドで、特定言語のウェイト%を減少できるようになりました。 複数言語からなるドキュメントを解析する際有効です。
デフォルトのウェイトを調整し Pushto/Latn および Urdu/Latn の精度が向上。Serbian/Latn のデフォルトウェイトを0に変更。クロアチア語が判別できるようになりました。これらの変更はPushto/Arab, Urdu/Arab, Serbian/Cyrillic に影響しません。(RLIJE-37)
lib ディレクトリーに新しい.jarファイルを置きました。mahout-collections-1.0.jar は廃止しました。
従来のRosette Search Essentials SDKを改め、RLI Java版としての最初のリリースとなります。C++版 RLI 6.5.1の実装を移植しました。
[en] Third-Party Components
[en] For a list of third-party licenses for components that are used in Basis Technology products, see ThirdPartyLicenses.txt
.
[en] Third-party component updates in 7.21.4
[en] Third-party component updates in 7.21.4
[en] Third-party component updates in 7.21.2
[en] Third-party component updates in 7.21.0
[en] Third-party component updates in 7.20.1
[en] Third-party component updates in 7.18.0
[en] Third-party component updates in 7.16.0
[en] Third-party component updates in 7.15.0
[en] Third-party component updates in 7.14.0
RLIではUTF-16 データの判別が正しく行えないことがあります。その場合、UTF-8 のバイト配列を取り出しdetect(byte[] data)に渡します。
漢字を含むデータを処理する際 LanguageIdentifier が返す判別結果が信頼度順に並ばないことがあります。これは経験則による結果を反映したものです。