Table of Contents
Copyright © 2016 Basis Technology Corporation. All rights reserved. This document is property of and is proprietary to Basis Technology Corporation. It is not to be disclosed or reproduced in whole or in part without the express written consent of Basis Technology Corporation.
U.S. Government Rights. This software is commercial computer software owned by Basis Technology Corporation. In accordance with DFARS 48 CFR 227-7202-1 and FAR 48 CFR 227.405-3(a), its use, reproduction, and disclosure by the Government is subject to the terms of Basis Technology's standard software license agreement and as may be set forth in the applicable Government Contract. Copyright © 2016 Basis Technology Corporation. All rights reserved. Licensor/Contractor: Basis Technology Corporation, One Alewife Center, Cambridge, MA 02140, USA.
Web: | http://www.basistech.com |
サポート受付: | support@rosette.com |
リリース日: | May 10, 2016 |
Rosette 言語・文字コード判別システム Pure Java版は、Rosette 言語・文字コード判別システムを100%Javaで実装し直した製品です。364種類の言語-エンコーディング-文字体系の組み合わせに対応しています(56言語、48エンコーディング、18文字体系)。
RLI-JE プログラミングガイドはrli-je-appdev-guide.pdfになります。APIガイドはSDKパッケージのrli-je-7.15.0.c58.2/doc/apidocs/index.htmlになります。
言語判別の重み付けで特定言語の判別率を上げることができるようになりました。(RLIJE-111)
言語ウェイトのAPIが短文解析にも使用できるようになりました。(RLIJE-204)
RLICmd
のオプションを変更しました。(RLIJE-230)
言語が判別できない時、短文解析と標準解析で同じ結果を返すようになりました。いずれもこの場合Unknownが返ります。NoMatchException
, NotEnoughDataException
, LanguageIdentificationException
は廃止予定に追加。(RLIJE-272, RLIJE-304)
内部のアルゴリズムを変更し判別精度を向上。(RLIJE-277)
一つの言語に一つの結果を返すオプションを追加。詳細は LanguageIdentifierBuilder#uniqueLanguages(boolean)
をご覧ください。(RLIJE-298)
LanguageIdentifierBuilder
のlanguageHint
とencodingHint
メソッドを廃止予定に追加。言語ウェイトAPIをお使いください。(RLIJE-320)
アラビア語のアルファベット表記など、音訳言語のプロファイルをデフォルトで無効に設定。プロファイルを有効にするにはLanguageIdentifierBuilder#languageWeightAdjustment(LanguageCode, ISO15924, int)
をご覧ください。(RLIJE-225)
短文解析のモデルをJARファイルから読み込むオプションを追加。詳細はLanguageIdentifierBuilder#useModelsInJar(boolean)
をご覧ください。(RLIJE-276)
RLICmdで言語データが不十分な時に起きていた例外処理の不具合を修正。(RLIJE-216)
複数のドキュメントをRLICmdで同時に処理できるようマルチスレッドに対応。(RLIJE-221)
icu4j および args4j を rli-je-shaded jarファイルにシェード。(RLIJE-237)
Basisのcommon-lib jarをrli-je-shaded jarにシェード。(RLIJE-248)
RLI-JEがadm-shadedの代わりにadm-modelに依存するようになりました。それに伴いRLI-JEはApache Commons Betwixt や Javassistに依存しなくなりました。(RLIJE-252)
短文解析のアルゴリズムを改良。7.13.0よりも20%処理速度が向上。(RLIJE-254)
特殊な処理を追加し、短文解析の判別精度を向上。(RLIJE-96)
ライセンスディレクトリーをBasisの他の製品に合わせ、license
から licenses
に変更。(RLIJE-124)
コマンドラインユーティリティーRLICmd
をtools/bin から bin ディレクトリーに移動。(RLIJE-200)
中国語の判別方法を見直し、言語と文字体系を分離しました。文字体系がHan, Simplified (Hans
) およびHan, Traditional (Hant
)の時に、いずれも中国語 (zho
) と判別するようにしました。従来はそれぞれ別々に簡体字中国語 (zhs
) と繁体字中国語 (zht
)と判別していました。(RLIJE-152)
複数の言語を含むドキュメントを処理する際、各言語領域を検出できるようになりました。(RLIJE-88)
LanguageIdentifierFactory
と LanguageIdentifier
を廃止予定に追加。代わりに LanguageIdentifierBuilder
でオプションを設定したり、Annotator
オブジェクトを生成し、言語、エンコーディング、文字体系、言語領域を検出します。本実装には、他のRosette製品でも使用されている新しいデータモデル (com.basistech.rosette.dm
)を使用します。(RLIJE-93)
LanguageIdentifier
インスタンスを生成するファクトリークラス(LanguageIdentifierFactory
) を追加。(RLIJE-15)
コマンドラインユーティリティーを LanguageIdentifier
から RLICmd
に変更。(RLIJE-32)
UTF-16のエンコーディングに対し、リトルエンディアン(UTF-16LE
) とビッグエンディアン(UTF-16BE
)の判別が可能になりました。(RLIJE-51)
ライセンスの読み込み方法を拡張。LanguageIdentifierFactory
のコンストラクターが、ファイル、入力ストリーム、xmlの文字列からライセンスの読み込みが可能になりました。
LanguageIdentifier setLanguageWeight Adjustment
メソッドで、特定言語のウェイト%を減少できるようになりました。 複数言語からなるドキュメントを解析する際有効です。
デフォルトのウェイトを調整し Pushto/Latn および Urdu/Latn の精度が向上。Serbian/Latn のデフォルトウェイトを0に変更。クロアチア語が判別できるようになりました。これらの変更はPushto/Arab, Urdu/Arab, Serbian/Cyrillic に影響しません。(RLIJE-37)
lib
ディレクトリーに新しい.jarファイルを置きました。mahout-collections-1.0.jar は廃止しました。
trove-2.0.4.jar を mahout-collections-1.0.jarで置き換えました。
utilities-no-jni-7.1.jar を廃止。rlp-common-1.3.6.jar を btcommon-3.jarで置き換えました。
RLIではUTF-16 データの判別が正しく行えないことがあります。その場合、UTF-8 のバイト配列を取り出しdetect(byte[] data)
に渡します。
漢字を含むデータを処理する際 LanguageIdentifier
が返す判別結果が信頼度順に並ばないことがあります。これは経験則による結果を反映したものです。
Basis製品で使用するサードパーティー・コンポーネントは、ThirdPartyLicenses.txtをご覧ください。RLI-JEは以下のサードパーティーコンポーネントを使用しています:
コンポーネント | バージョン |
---|---|
Apache Commons CLI | 1.2 |
Apache Commons IO | 2.4 |
Apache Log4j | 1.2.17 |
args4j | 2.0.26 |
Fastutil | 6.6.0 |
Google Guava | 16.0.1 |
iHarder.Net Base64 | 2.1 |
International Components for Unicode (ICU) ICU4J | 53.1 |
Jackson Annotations | 2.4.1 |
Jackson Core | 2.4.4 |
Jackson Databind | 2.4.4 |
Jackson Dataformat CBOR | 2.4.4 |
Jackson Dataformat Smile | 2.4.4 |
Jackson Dataformat XML | 2.4.4 |
Jackson Dataformat YAML | 2.4.4 |
LIBLINEAR | 1.94 |
SLF4J | 1.7.5 |
Bug# | 説明 |
---|---|
RLIJE-269 | RLICmdの -breakRegionOnScriptBoundary オプションがfalseに設定できない不具合を修正。 |
RLIJE-278 | 短文解析モデルが欠落している際のエラーメッセージを修正。 |
Bug# | 説明 |
---|---|
RLIJE-202 | 言語ヒントがキリル文字で処理データがUTF-8やUTF-16以外の時、LanguageIdentifier が返していたNotEnoughDataException の不具合を修正。LanguageIdentifier はヒント言語を返すようになりました。 |
RLIJE-220 | 言語-文字体系のペアと文字体系の指定のない当該言語が異なる設定の時、LanguageIdentifierBuilder が不規則なlanguageWeightAdjustmentsを設定する不具合を修正。言語-文字体系ペアの設定値が優先されるようになりました。 |
RLIJE-236 | REX-JEと併用時、シェード版のアノテートデータモデルのパッケージを含むために、RLI-JEのJARファイルをクラスパスの最初の部分に指定するとREXCmd がNoSuchMethodException を返す不具合を修正。 |
RLIJE-259 | LanguageIdentifier でngramプロファイルからの差異の小さいものから順にソートするアサーションチェックが、漢字データでは経験則に影響されてしまう不具合を修正。 |
RLIJE-262 | RLI-JEが5つ以上の結果を返せない不具合を修正。 |
Bug# | 説明 |
---|---|
RLIJE-170 | 大量の入力を処理する際、LanguageRegionAnnotator がIllegalArgumentException を起こす不具合を修正。 |
RLIJE-176 | 空の文字列を処理する際に起きていたIllegalArgumentException の不具合を修正。 |
RLIJE-178 | log4j システムプロパティーの初期化の警告メッセージが出ないよう、RLICmd ユーティリティーを修正。 |
Bug# | 説明 |
---|---|
RLIJE-161 | サードパーティーコンポーネントをrli-je-shaded jarファイルにシェーディング。 |
RLIJE-164 | LanguageRegionAnnotator.detectRegion がmaxRegion の設定よりも大きい領域を判別する場合、 IllegalArgumentException が返るようになりました。 |