Rosette 固有表現抽出 Pure Java版は、統計モデルプロセッサー(平均化パーセプトロン)、正規表現、ガゼティア(辞書)により固有表現を抽出します。また固有表現編集により、抽出した固有表現の出力を編集したり、プロセッサー間での固有表現が異なる場合など、プロセッサーのウェイト調整で最適なものを選択できます。It also includes entity linking functionality and a field training kit for optimizing REX results for your data.
[en] Release 7.55.8.c71.0
[en] September 2023
[en] New
[en] Bug Fixes
[en] Third-party component updates
表1 [en] Updated
[en] Package |
[en] Old Version |
[en] New Version |
[en] Jackson Annotations |
2.15.0 |
2.15.2 |
[en] Jackson Core |
2.15.0 |
2.15.2 |
[en] Jackson Databind |
2.15.0 |
2.15.2 |
[en] Jackson Dataformat XML |
2.15.0 |
2.15.2 |
[en] Jackson Dataformat T |
2.15.0 |
2.15.2 |
[en] Jackson Datatype: Guava |
2.15.0 |
2.15.2 |
[en] Jackson Module: Old JAXB Annotations |
2.15.0 |
2.15.2 |
[en] Guava: Google Core Libraries for Java |
[en] 31.1-jre |
[en] 32.1.2-jre |
[en] Protocol Buffers [Core] |
3.21.7 |
3.23.4 |
[en] Release 7.55.7.c70.0
[en] June 2023
[en] Bug Fixes
[en] Known Issues
[en] Third-party component updates
[en] This release includes the following third-party component changes:
表2 [en] Updated
[en] Package |
[en] Old Version |
[en] New Version |
[en] Apache Commons Compress |
1.22 |
1.23 |
[en] Apache Log4J API |
2.19.0 |
2.20.0 |
[en] Apache Log4J Core |
2.19.0 |
2.20.0 |
[en] Apache Log4J SLF4J Binding |
2.19.0 |
2.20.0 |
[en] fastutil |
8.5.9 |
8.5.12 |
[en] Jackson Annotations |
2.14.0 |
2.15.0 |
[en] Jackson Core |
2.14.0 |
2.15.0 |
[en] Jackson Databind |
2.14.0 |
2.15.0 |
[en] Jackson Dataformat CSV |
2.14.0 |
2.15.0 |
[en] Jackson Dataformat YAML |
2.14.0 |
2.15.0 |
[en] Jackson Dataformat XML |
2.14.0 |
2.15.0 |
[en] Jackson datatype: Guava |
2.14.0 |
2.15.0 |
[en] Jackson JAXRS:base |
2.14.0 |
2.15.0 |
[en] Jackson JAXRS:JSON |
2.14.0 |
2.15.0 |
[en] Jackson module:OLD JAXB Annotations |
2.14.0 |
2.15.0 |
[en] SnakeYAML |
1.33 |
2.0 |
[en] Release 7.55.6.c69.0
[en] March 2023
[en] This release is for compatibility with other Rosette SDKs. There are no new features or bug fixes.
[en] Third-party component updates
[en] This release includes the following third-party component changes:
表3 [en] Upgraded
[en] Package |
[en] Old Version |
[en] New Version |
[en] Guava: Google Core Libraries for Java |
[en] 26.0-jre |
[en] 31.1-jre |
[en] Protocol Buffers [Core] |
3.12.2 |
3.21.7 |
[en] Release 7.55.4.c69.0
[en] March 2023
[en] This release is for compatibility with other Rosette SDKs. There are no new features or bug fixes.
[en] Third-party component updates
[en] This release includes the following third-party component changes:
表4 [en] Upgraded
[en] Package |
[en] Old Version |
[en] New Version |
[en] Guava: Google Core Libraries for Java |
[en] 26.0-jre |
[en] 31.1-jre |
[en] Protocol Buffers [Core] |
3.12.2 |
3.21.7 |
[en] Release 7.55.3.c68.0
[en] January 2023
[en] Bug Fixes
[en] Release 7.55.0.c68.0
[en] December 2022
[en] New
[en] Wikidata refreshed: We've updated the knowledge base data for the provided linking knowledge base. The QID assigned to some extracted entities may differ from previous versions. (RWIki-119, ELK-274, ELK-276)
[en] New currency regex: We've introduced a new option, regexCurrencySplit
, that, when set to true, will attempt to split entities extracted with the regex engine of type IDENTIFIER:MONEY into two new entities: IDENTIFIER:CURRENCY_AMT and IDENTIFIER:CURRENCY_TYPE. These two new types represent the amount of the currency (50,000) and the currency type ($), respectively. By default, regexCurrencySplit
is set to false. (TEJ-1792)
[en] Tagalog support: We've added case-insensitive NER support for Tagalog. Previously we released a case-sensitive model and we've now added the case-insensitive model as well. (TEJ-1858)
[en] Parameter removed: We've removed the deprecated genre
extraction option. This option was used to turn the linker on which has been, and will still be, available by the linkEntities
option. The genre
option is no longer available in the REX SDK, in the Rosette Server REX configuration, as well as the Rosette API bindings (TEJ-1855).
[en] Release 7.54.1.c67.0
[en] October 2022
[en] New
[en] Release 7.54.0.c67.0
[en] September 2022
[en] New
[en] Tagalog (tgl) support: We've added Tagalog to our list of languages. The following processors are supported: gazetteer, regex, statistical NER, linking. (TEJ-1812, TEJ-1822, TEJ-1785, TEJ-1786)
[en] New linking option: We've added a new option for entity linking. When linkMentionMode
is set to entities
the linker will attempt to link the entities extracted by other processors (regex, gazetters, and the statistical processor) instead of using its own processor to extract entity candidates. Depending on your data, this may provide higher accuracy and speed. (TEJ-1806)
-
[en] REXCmd parameter change: The linkEntities
parameter can now act as a toggle instead of taking a true/false value, matching how other REXCmd boolean parameters are handled. (TEJ-1806)
[en] Parameter deprecated: The parameter genre
is deprecated and will be removed in the next release.
[en] Bug Fixes
[en] REX no longer produces an exception when token normalization produces an empty token string. (TEJ-1803)
[en] When looking for candidate mentions in text, if there is an overlap between these mentions the linker now resolves the longest spanning mention before disambiguation. (ELK-277)
[en] Release 7.53.3.c67.0
[en] June 2022
[en] New
-
[en] Configure knowledge base linking priority: With multiple knowledge bases it is possible to set the order in which to try linking against each knowledge base. Set the priority in the redactor configuration file (ne_types.xml)
(TEJ-1726, TEJ-1754)
[en] Example: The following XML element will set the custom-kb
priority higher than the default knowledge base (kb-linker
) when linking a PRODUCT entity type:
<ne_type>
<name>PRODUCT</name>
<weight name="kb-linker" value="100" />
<weight name="kb-linker:custom-kb" value="1" />
</ne_type>
[en] relatedEntities renamed to contextWords: When creating a custom knowledge base, the feature contextWords
, which was previously called relatedEntities
, is required. Context words are language-specific words that are strongly related to the entity. The term relatedEntities
has been deprecated. (TEJ-1756)
[en] Java 17 support added: Java 8 and 9 support has been removed. (TEJ-1728, TEJ-1763)
[en] Solr 9 support added: REX now supports Lucene and Solr 9. (TEJ-1731)
[en] Solr 6 support deprecated: REX no longer supports Solr 6 or earlier. (TEJ-1731)
[en] Bug Fixes
[en] Bug fix: An error is no longer generated when there are null prefixes in Arabic morphological analyses. (TEJ-1765)
[en] Bug fix: We fixed a bug to enable using noisy_context_vector
feature for disambiguation. (ELK-265, ELK-268, ELS-272, TEJ-1776)
[en] Release 7.53.0.c66.0
[en] March 2022
注記
[en] Solr 6 and earlier support is deprecated as of this release.
[en] Java 8 and Java 9 support is deprecated as of this release.
[en] Bug Fixes
[en] Third-party component updates
[en] This release includes the following third-party component changes:
表5 [en] Upgraded
[en] Package |
[en] Old Version |
[en] New Version |
[en] Apache Commons Compress |
1.9 |
1.21 |
[en] Apache Commons IO |
2.7 |
2.11.0 |
[en] Apache Commons Lang3 |
3.32 |
3.12.0 |
[en] Apache Log4j |
1.2.17 |
2.17.1 |
[en] Auto Common Libraries |
0.3 |
0.8 |
[en] AutoService |
[en] 1.0-r3 |
0.8 |
[en] ICU4J |
58.1 |
70.1 |
[en] fastutil |
8.4.0 |
8.5.6 |
[en] LibLinear |
2.30 |
2.42 |
[en] SLF4J |
1.7.28 |
1.7.33 |
[en] SnakeYAML |
1.26 |
1.30 |
[en] TensorFlow for Java |
0.2.0 |
0.3.3 |
表6 [en] Added
[en] Package |
[en] Version |
[en] License |
[en] AOP alliance |
1.0 |
[en] Public Domain |
[en] Apache Commons Logging |
1.2 |
[en] Apache License 2.0 |
[en] Apache Commons Math |
2.0 |
[en] Apache License 2.0 |
[en] Apache POI |
3.9 |
[en] Apache License 2.0 |
[en] DOM4J |
1.6.1 |
[en] DOM4J License |
[en] JCommon |
1.0.17 |
[en] GNU Lesser General Public Licence |
[en] JFreeChart |
1.0.14 |
[en] GNU Lesser General Public Licence |
[en] JUnit |
4.13.2 |
[en] Eclipse Public License 1.0 |
[en] JVM Integration for Metrics |
3.0.4 |
[en] Apache License 2.0 |
[en] Java Architecture for XML Binding |
2.3.2 |
[en] Eclipse Distribution License - v 1.0 |
[en] Java Common Annotations API |
1.3.2 |
[en] CDDL + GPLv2 with classpath exception |
[en] Java Message Service |
1.1 |
[en] Common Development and Distribution License (CDDL) v1.0 |
[en] JavaBeans Activation Framework (JAF) |
1.1 |
[en] Common Development and Distribution License (CDDL) v1.0 |
[en] JavaBeans Activation Framework API jar |
1.2.1 |
[en] EDL 1.0 |
[en] JavaMail API |
1.4 |
[en] Common Development and Distribution License (CDDL) v1.0 |
[en] Javax WS-RS API |
2.1.5 |
[en] EPL 2.0 |
[en] JetBrains Java Annotations |
23.0.0 |
[en] Apache License 2.0 |
[en] Jimfs |
1.1 |
[en] Apache License 2.0 |
[en] Legion of the Bouncy Castle Java Cryptography APIs |
138 |
[en] Bouncy Castle License |
[en] Lib TensorFlow |
1.5.0 |
[en] Apache License 2.0 |
[en] Mockito |
1.9.5 |
[en] The MIT License |
[en] ODFDOM |
0.8.6 |
[en] Apache License 2.0 |
[en] Project Lombok |
1.18.22 |
[en] The MIT License |
[en] Spring |
[en] 4.2.4.RELEASE |
[en] Apache License 2.0 |
[en] StAX API |
1.0.1 |
[en] Apache License 2.0 |
[en] Sun Multi-Schema XML Validator |
20050913 |
[en] The BSD License |
[en] TensorFlow |
1.5.0 |
[en] Apache License 2.0 |
[en] XML Commons External Components XML APIs |
1.3.04 |
[en] Apache License 2.0 |
[en] Xerces2 Java Parser |
2.9.4 |
[en] Apache License 2.0 |
[en] XMLBeans |
2.3.0 |
[en] Apache License 2.0 |
[en] ZIP4J |
1.3.2 |
[en] Apache License 2.0 |
[en] iText |
2.1.5 |
[en] Mozilla Public License |
表7 [en] Removed
[en] Package |
[en] Apache Geronimo |
[en] JAX-WS |
[en] JBoss RMI |
[en] JSR203 Hadoop |
[en] Jacorb Omg |
[en] Jakarta Activation |
[en] Jakarta WS-RS API |
[en] Jakarta XML Bind API |
[en] Javax Activation |
[en] Javax Annotation |
[en] Javax XML Soap |
[en] MIME Pull |
[en] SAAJ Impl |
[en] STAX-EX |
[en] Release 7.52.0.c65.0
[en] December 2021
[en] New
[en] Bug Fixes
[en] Hungarian dates are now extracted correctly. Previously, dates with embedded periods followed by a space were not being extracted. (TEJ-1681)
[en] rexcmd info
no longer lists TEMPORAL types by default for SWEDISH. (TEJ-1687)
[en] Release 7.51.1.c65.0
[en] September 2021
[en] Bug Fixes
[en] Release 7.51.0.c65.0
[en] August 2021
[en] New
[en] Wikidata refreshed: The internal database for Wikidata linking has been refreshed and re-indexed. QIDs for some entities may change from previous versions. (TEJ-1657, TEJ-1658)
[en] New RBL version: Entity extraction now consumes the latest version of Rosette Base Linguistics (RBL) 7.41.1.c65.0. (TEJ-1667)
[en] Bug Fixes
[en] A single line followed by an empty line is no longer always considered a fragment. (ETROG-3431)
[en] The Field Training Kit (FTK) no longer returns erroneous error messages from generating wordclasses. (TEJ-1636)
[en] The RBL models directory is now correctly specified in the FTK. (TEJ-1655)
[en] The REX Training Server (RTS) no longer fails when the request contains the language code msa
. msa
is now mapped to zsm
, the language code supported by REX for Malay. (TEJ-1669)
[en] May 2021
[en] Bug Fixes
[en] Open Source Changes
表8 [en] Upgraded
[en] Package |
[en] Old Version |
[en] New Version |
[en] jackson |
2.10.0 |
2.11.1 |
[en] commons-io |
2.6 |
2.7 |
[en] fastutil |
8.3.0 |
8.4.0 |
[en] liblinear |
1.95 |
2.42 |
[en] snakeyaml |
1.25 |
1.26 |
[en] stax2-api |
4.2 |
4.2.1 |
表9 [en] New
[en] Package |
[en] Version |
[en] License |
[en] JavaCPP |
1.5.4 |
[en] Apache 2.0 |
[en] TensorFlow Core API |
0.2.0 |
[en] Apache 2.0 |
[en] TensorFlow NDArray |
0.2.0 |
[en] Apache 2.0 |
表10 [en] Deleted
[en] Package |
[en] libtensorflow |
[en] libtensorflow jni |
[en] protobuf |
[en] April 2021
[en] New
[en] Language-specific joiner rules: Custom joiner rules can now be language-specific or apply to all languages. (TEJ-178)
[en] New default processing for structured text regions (lists, tables): Because structured text is often just words or phrases, and thus missing the syntactic context that REX was trained on, some REX users would pre-process input text to remove structured regions, on which REX performed poorly. Users no longer have to pre-process the input as now the statistical/DNN model is turned off by default for structured regions. This mode increases precision but may result in reduced recall in these regions. Note, the other REX processors (pattern match, exact match, entity linking) which do not rely on context will continue to analyze the structured regions. To turn on the statistical/DNN model for structured regions, set the parameter structuredRegionProcessingType
to nerModel
. (TEJ-1502) (TEJ-1502)
[en] New name classifier model for structured regions (LABS): We've added a new model for processing structured regions. The name classifier classifies a text fragment as PERSON, LOCATION, ORGANIZATION, or NONE. The entire structured region is classified as a single label, an entity type or NONE. It is disabled by default. (TEJ-1613, TEJ-1621)
[en] Japanese organization gazetteers: The gazetteers for Japanese organizations has been updated to improve extraction of Japanese organizations. (TEJ-1612)
[en] New RBL version: Entity extraction now consumes the latest version of Rosette Base Linguistics (RBL) 7.39.0. (TEJ-1618)
[en] Rosette Training Server (RTS) results: When using REX with Rosette Adaptation Studio (RAS), the results returned by RTS are now preferred by default. (TEJ-1605)
[en] Bug Fixes
[en] Entities are no longer extracted when they cross a sentence boundary. To enable entity linking across sentence boundaries, set disableApplySentenceBoundaries
to true
. (ELK-259)
[en] Entities are now checked to ensure they are normalized. (TEJ-1615)
[en] Third-party component updates
[en] This release includes the following third-party component changes:
[en] January 2021
[en] Bug Fixes
[en] December 2020
[en] New
[en] Updated the internal database for Wikidata linking. QIDs for some entities may change from previous versions, as Wikidata has been refreshed and re-indexed. (TEJ-1579, ELK-249, ELK-251, RWIKI-77)
[en] Updated RBL version (TEJ-1579)
[en] Bug Fixes
[en] The sqlite-kb-connector sample now works correctly. Runtime issues with sqlite dependencies have been corrected. (ELK-245, ELK-257)
[en] Extraction no longer fails when a custom processor returns a NULL annotator; instead a warning is generated. (TEJ-1580)
[en] Mentions normalized by the custom processor are no longer ignored. (TEJ-1573)
[en] Windows-formatted carriage returns (/r, /r/n) are now handled correctly.
[en] September 2020
[en] New Features
[en] Joiner runs before redactor: The joiner now runs before the redactor by default, providing more flexibility and control over the joiner results. Set runJoinerPostRedactor
to true
to run the joiner after the redactor. (TEJ-1534)
[en] Improved phone number recognition: Regular expressions for phone number extraction have been improved and now extract more phone number patterns. (TEJ-1556)
-
[en] REXCmd input from stdin: REXCmd can now accept input from stdin by specifying the command line option -stdin
.
[en] Example:
$ echo "Basis Technology is a company in Massachusetts" | REXCmd extract -stdin -langCode eng
[en] Bug Fixes
[en] We fixed a bug where sometimes a null pointer exception was returned when the custom processor and the linker had overlapping results. (TEJ-1561)
[en] Custom processors can now only modify the entity and metadata sections of the ADM. Previously, any modification could be made which could override annotation data. (TEJ-1537)
[en] We've partially fixed a problem in Japanese ORG extraction where sometimes the model extracts multiple ORG entities or includes non-related adjacent tokens. (TEJ-1534)
[en] The Field Training Kit no longer generates invalid models for when creating custom knowledge bases. This occurred for all languages except eng, jpn, and zho. (ELK-252)
[en] June 2020
[en] New Features
[en] Improved sample The sample files to build the SQLite connector described in the Custom Knowledge Base Connectors section now includes all files required to build with Maven. The configuration to run the connector with Rosette Enterprise is now provided as well. (TEJ-1508)
[en] Language-specific alias Custom knowledge bases compiled with the Field Training Kit (FTK) will now maintain the language of the alias. Aliases will only be extracted in documents of the language the alias is defined for. Aliases can be defined as for all languages or for a specific language. (ELK-241)
[en] Custom knowledge bases can be compiled without disambiguation. While adding a knowledge base without a disambiguation model will not provide the best results, it will function as an enhanced gazetteer that attaches an assigned ID to each gazetteer entry and supports multiple aliases per entry. To compile a custom knowledge base without compiling a disambiguation model pass -d
as an argument to train-linker-model
. (ELK-233)
[en] New method A method getBaseLinguisticsParameters
has been added to retrieve the base linguistics parameters that were used in training the model. Use the retrieved parameters to configure an external instance of RBL to produce tokens consistent with the training tokenization. A new sample application, RBLParametersSample.java
, is available in the samples
directory. (TEJ-1501)
[en] Base linguistics added The FTK can now use input ADM files containing base linguistics annotations, such as tokens, sentence boundaries, and morphological analysis for languages such as Korean and Arabic. For REX to produce the optimal results, tokenize with the options provided by the getBaseLinguisticsParameters
method when creating the ADM file from RBL. (APE-1793)
[en] Hebrew improvements REX has improved Hebrew normalization and added the ability of the disambiguator to identify prefixes removed from the entity's normalized form. Improvements are a result of enhancements in Hebrew base linguistics. (ETROG-3189)
[en] Bug Fixes
[en] A new line character in a regex (\n) will now also match carriage returns (\r) and a combination of both (\r\n). (TEJ-1525)
[en] Confidence scores for entity linking now use the same scale, whether linking to Wikidata or a custom knowledge base. Previously, the confidence scores given for links to custom knowledge bases were much lower than those calculated for the Wikidata knowledge base. (ELK-240)
[en] March 2020
[en] New Features
[en] Connector framework for custom Knowledge Bases added. See section 5.6 in the Application Developer's Guide. (TEJ-1476, TEJ-1477, TEJ-1485)
[en] Added Deep Neural Network model for Hebrew for improved accuracy. Replace statistical model with it by using the flag -useDeepNeuralNetworkProcessor.
(TEJ-1503)
[en] Hebrew normalization improved: instead of using the lemma form, just the prefixes are being removed, except the definite article. (TEJ-1505)
[en] New statistical model for Hebrew trained on news and finance data. (TEJ-1497)
[en] Solr plugin now available as a Docker container. (TEJ-1492)
[en] Supplemental regex support for ISO-6709 geo-coordinates. (TEJ-1431, DATA-761)
[en] Support for setting prioritization for multiple custom Knowledge Bases. See section 5.2 in the Application Developer's Guide. (ELK-236)
[en] Redactor weighs can now be configured for specific subsources. See section 3.2.1 in the Application Developer's Guide. (TEJ-1480)
[en] Separate license key required for linker custom Knowledge Bases. Note: extractions against existing custom Knowledge Bases will fail unless licenses are updated. (TEJ-1483)
[en] Custom Knowledge Bases can be set in Rosette Enterprise profiles. Note: To support this feature, the flinx
directory was moved into {rex-installation}/data
. Any custom data inside must also be moved to the new location. (TEJ-1494)
[en] Bug Fixes
[en] TEJ-1499 REXAnnotatorFactory
failed to assign linking confidence thresholds.
[en] TEJ-1479 Fixed dynamic gazetteers for Malay.
[en] TEJ-1506 Deep Neural Network extractions failed in REXCmd.
[en] February 2020
[en] Bug Fixes
[en] December 2019
[en] New Features
[en] Bug Fixes
2019年8月
新機能
Java 11に対応しました。
ウィキデータのリンク用に内部データベースを更新しました。 DBPedia Typeフィールドは、複数のサブタイプをサポートするようになりました。 一部のエンティティのQIDは、Wikidataが更新されてインデックスが再作成されたため、以前のバージョンとは異なる場合があります。
エンティティリンクは、一部のエンティティのQID(Wikidata ID)に加えて、PermID(Thomson ReutersナレッジベースのID)を返します。
バグ修正
2019年6月
機能 新
Flinx曖昧性解消モデルに実行時に制御するオプションのパラメーターファイルが前回供給したパッケージ内から欠落して精度不良が生じていましたが、再追加することで改善しました。
エンティティリンクで日本語文字が簡体字中国語に誤って正規化されたケースを修正しました。これは以前のリリースでも一部修正されていた問題です。
中国語ファイルシステムの言語コードは均一に3文字に修正しました。
エンティティ抽出とエンティティリンクは、最新バージョンのRBLを使用するように改善されました。
インストールをより簡単にするためドキュメントおよび言語パッケージの解凍およびインストールするスクリプトを追加しました。
バグ修正
[en] Release 7.41.0 and earlier
変更点
バグ修正
日本語でカタカナ表記内に中黒がある場合、エンティティを分けずに一つのエンティティとして出力するように改善しました。(TEJ-1341)
日本語Entity Linking(エンティティ参照)で最後の文字が中国語簡体字に変更される問題を改善しました。(ELK-118)
IncludeDbPediaTypesオプションがオフの場合、kb-linkerのファインタイプの情報がエンティティタイプに反映されない問題を改善しました。(ELK-115)
言語ごとに配布パッケージを準備しました。(TEJ-1361)
ヘブライ語の文字列正規化を有効にして、文書共同参照機能を向上しました。(TEJ-1139、TEJ-1173)
「@」や「#」などのSNS用文字はエンティティには含まれないようになりました。 SNS用文字を含むにはEntityExtractor.setRetainSocialMediaSymbols()をお使いください。(TEJ-418)
統計モデル信頼度スコアの強大化を防ぐよう改善しました。(TEJ-1146)
韓国語の統計モデルの精度を向上しました(APE-1737)。
[en] Default linking confidence thresholds are set (TEJ-1080, TEJ-1068)
com.basistech.rosette.rex.EntityExtractor のメソッド setUseDeepNeuralNetworkProcessor() は、統計モデルを新しいディープラーニングモデルに置き換える新しい実験的なAPIの一部です。メソッド setProcessors に ProcessorType.deepNeuralNetwork を提供するために使うという選択肢もあります。現在英語とアラビア語のみに提供されています。オペレーティングシステムによっては、深層ニューラルネットワークモデルをサポートしないものもあれば、良好なレイテンシーを提供しないものもあります。
FTKでカスタム知識ベースを使いエンティティの曖昧さ回避モデルを作成できるようにしました。(ELK-13、ELK-14、ELK-16、ELK-22、ELK-34)
エンティティのリンク信頼度に関するしきい値を追加しました。 (TEJ-1068)
FTK日本語トレーニング時のURL処理を改善。 (TEJ-1048)
アプリケーション・ガイドとカスタマイズ・ガイドを1つに統合しました。(ELK-22)
顕著性分類機能が追加されました。顕著性の計算はEntityExtractor.setCalculateSalience()で行えます。または REXFactoryConfigurationかREXAnnotatorConfigurationの中でcalculateSalienceを設定することでも有効になります。 (TEJ-936)
カスタム・プロセッサーをAPIで登録できるようになりました。(TEJ-972, TEJ-982)
多言語で複製されていた正規表現を統合しました。 (TEJ-785)
バイナリgazetteer辞書を各言語複数使えるようにしました。 (TEJ-960, TEJ-1005)
信頼度計算が精度により比例するように改善しました。しきい値がより適切に設定できます。(TEJ-910, TEJ-919)
統計モデルで絵文字対応可能になりました。 (TEJ-924)
REXの言語別最小インストール・パッケージを作成する為のpythonスクリプト「repack-rex.py」を提供。(TEJ-893) (TEJ-893)
短い文書では大文字・小文字解析を優先するように設定されました。 (TEJ-931)
カスタム拒否プロセッサーの追加が可能になりました。 (TEJ-840, TEJ-841, TEJ-843, TEJ-880)
Redactorの動的ルールの優先順位付けとサブタイプの処理が改善されました。 (TEJ-863, TEJ-858)
英語での文書内同名義選択が改善されました。 (TEJ-867)
文書内でのORGANIZATIONタイプは部分一致でも同組織として選択できるようになりました。 (INDOC-26)
ベトナム語フル対応が追加されました。 (APE-1691)
Hadoop DFS上でのREX使用例を追加しました。 詳細は / samples / MapReduceExample / README.mdにあります。 (TEJ-807)
実験的な機能setResolvePronouns() は英語文での’he’と’she’の同名義選択を選択します。 (TEJ-831)
Regexパターン・マッチとgazetteer辞書での拒否設定に全タイプ(wildcard)が指定できます。 (TEJ-853, TEJ-817)
ショート・メッセージ・サービス(SMS)用の実験的な機能 kb-linkerは英語、日本語、中国語をサポート。 (TEJ-857)
大文字・小文字の自動判別の向上(英語のみ)。(TEJ-861)
Spark上でのREX使用例を追加しました。 詳細は ./samples/SparkEntityCount/README.mdにあります。 (TEJ-155)
getLanguageInformation() と getSupportedEntityTypes() が返信する情報が全言語か、あるいはライセンスが有効な言語のみかが選択可能になりました。さらに、REXCmd infoに -onlyLicensedオプション が追加されました。 (TEJ-767)
REXは今後、新クラスEntityとMentionで結果を返します。ドキュメントでは各Entityが複数のMentionsを持つことが可能です。このバージョンでは今までのEntityMentionは使用できますが今後はEntityMentionsとcoreferenceChainIdは使用不可になる予定です。 (TEJ-702)
マレーシア語の統計モデルを改善し、新しいgazetteer辞書を追加しました。 (TEJ-711, TEJ-715)
ショート・メッセージ・サービス(SMS)用の実験的な機能 kb-linkerはエンティティを知識ベースのデータと結びつけます(英語のみ)。(TEJ-722, TEJ-725, TEJ-757)
REXはRosette Platform互換レベル58.2にアップグレードされました。 同じアプリケーションで複数のRosette JVM SDKを使用する場合は、同じ互換性番号を持つバージョンを選択する必要があります。 (TEJ-702)
欧州言語での大文字モデル選択を改善しました。 (TEJ-687)
欧州言語での大文字モデル選択を改善しました。(TEJ-724)
追加データフォルダーを定義する為のEntityExtractor setOverlayDataDirectory(Path overlayDataDirectory)メソッドを追加しました。(TEJ-731)
REXCmdコマンドライン・ユーティリティーでは、追加の正規表現ファイルを指定できるようになりました。 (TEJ-628)
複数の統計モデルを連続で使用できるようになりました。 (TEJ-674)
パッケージのサイズを削減するために、Big Endianバイナリは削除されましたが、 REXはBig EndianシステムでもLittle Endianモデルと辞書を正しくマップします。 (TEJ-664)
RBLのjarはREXのjarファイルに統合されました。 (TEJ-692)
大文字・小文字の最適な処理を行うよう、CaseSensitivityモデルを自動的に選択する設定を追加。本設定はデフォルトでは使用していません。使い方はサンプルプログラムやJavadocをご覧ください。(TEJ-568)
ドイツ語、イタリア語、オランダ語、スペイン語の大文字・小文字を無視するモデルを追加。(TEJ-566)
JDK1.7に更新。1.6以前のJDKはお使いになれません。(TEJ-551)
複数のBrownクラスタリングにより、英語の統計モデルの精度を向上。(TEJ-396, TEJ-559)
REXCmdおよび EntityExtractorに、新たにdisableStatisticalCleaner オプションを追加。(TEJ-379)
デフォルトで無効になっている固有表現タイプは、各言語のsupplementalディレクトリーにある正規表現ファイルをロードして抽出できるようになりました。詳細はJavadocのEntityExtractor.addRegularExpressions()をご覧ください。(TEJ-587)
PERSONの固有表現編集ルールを改良。(TEJ-115)
EntityMentionsおよび付随するフィールドの解説をマニュアルに追加。(TEJ-623)
EntityExtractorのaddGazetteer および addGazetteerEntity メソッドにboolean caseSensitive パラメータを追加。ユーザー定義のテキストガゼティアを大文字・小文字の区別なく適用できるようになりました。(TEJ-56)
指定言語のデータを返せない時、RosetteUnsupportedLanguageExceptionエラーを返るようになりました(従来は一般的な実行時の例外エラーを返していました)。(TEJ-536)
重複するガゼティアのエントリーがある場合、すでに存在するエントリーを上書きするよう変更しました。(TEJ-74)
インドネシア語(Bahasa Indonesia)のサポートを追加。(TEJ-441)
処理速度向上とユーザーの要求に合わせ、次の固有表現の正規表現をコメントアウト: IDENTIFIER:DISTANCE, IDENTIFIER:LATITUDE_LONGITUDE, IDENTIFIER:UTM, TEMPORAL:DATE, and TEMPORAL:TIME. 必要な場合はregexes.xmlファイルの該当する正規表現の@ignore=rex-je 属性を削除してください。(TEJ-510)
正規表現とガゼティアの処理速度とメモリー消費を向上。(TEJ-489)
ポルトガル語とフランス語の統計モデルプロセッサーの精度を向上。(TEJ-475)
indoc shut-offスレッシュホールドの変更機能を追加: setMaxResolvedEntities(). (TEJ-456)
APIを追加。詳細は{get,set}ExcludedEntityTypesをご覧ください。あくまで実験的なAPIですので、将来的に削除や変更の可能性があります。(TEJ-480)
未対応の言語を処理した場合にREXは例外処理を行うようになりました。(TEJ-447)
confidence および 'coreferenceChainId` が存在しない時の値を-1でなく nullで表すようにしました。(TEJ-466, TEJ-467)
鮮語の抽出精度を向上。またドキュメント内の同一固有表現の共通化機能の精度を向上しました。
新たな統計モデルを導入し抽出精度を向上 (約 25%のエラー低減). (APE-1111)
朝鮮語の接頭辞と接尾辞を正しく解釈し、ドキュメント内の同一固有表現の共通化機能の精度を向上。(TEJ-366)
REXCmd ユーティリティーに諸機能を追加。
pretty-printsをサポートし、出力が見やすくなりました。Chain IDを基に、同一固有表現を認識。(TEJ-410)
-context オプションを追加。固有表現タイプやChain IDと共にコンテキストを表示します。(TEJ-410)
JSONのAnnotated Text形式をREXCmdで処理できるようになりました。(TEJ-455)
部分一致する正規表現やガゼティアのトークンオフセット値の出力結果を修正。(TEJ-393)
REXのTcl正規表現がSupplementary Multilingual Plane (SMP)に対応 (TEJ-454)。従来はSMPのコードポイントは二文字として扱われていました。(TEJ-330)
EntityExtractor のオプションで大文字・小文字の区別を無視できるようになりました。対応言語は英語、フランス語、ポルトガル語です。(TEJ-458)
EntityExtractor.createDispatchAnnotator メソッドを追加。複数の言語を解析できるようになりました。(TEJ-432)
ポルトガル語の時間と金額を抽出する正規表現を追加。(TEJ-444)
固有表現の抽出に、ドキュメントレベルAPIを追加。将来的にはEntityCursor (streaming)を廃止し、EntityExtractor および Annotator (document-level extraction)に置き換えていく予定です。
固有表現の信頼度を出力するAPI (EntityExtractor setPostConfidence メソッド) を追加。setConfidenceThresholdメソッドで設定した値よりも信頼度が低い場合、その固有表現は無視されます。(TEJ-60)
すべてのプロセッサー(統計モデル、正規表現、ガゼティア)から返る固有表現に、正規形を出力するようにしました。(TEJ-288)
CPUを消費する、不完全な終わり方をする正規表現を除外。この変更は、時間、距離、緯度・経度の固有表現の抽出に影響を及ぼしますので、これらが必要な場合はsupport@rosette.comにお問い合わせください。(TEJ-283)
コマンドラインユーティリティーREXCmd でREX-JEのバージョン番号を出力するようにしました。(TEJ-261)
UnixのシェルスクリプトおよびWindowsの .bat ファイルを追加。コマンドラインユーティリティーRexCmd が簡単に起動できるようになりました。(TEJ-247)
コマンドラインユーティリティーのJSON 出力が、従来よりも詳細になりました。またJSON パーサーで画面に出力し (例 | python -mjson.tool) でEntityMention 要素を確認できるようになりました。(TEJ-260)
アラビア語、簡体字中国語、繁体字中国語、朝鮮語、日本語に対応。
またREX Field Training Kitをサポート。特定ジャンルの固有表現抽出精度の向上が実現。(TEJ-220)
オランダ語、ヘブライ語、ペルシャ語(西ファルシ語、ダリ語)、ポルトガル語、パシュトゥ語、ウルドゥ語に対応
REX-JE 1.1以降に行われた従来版(REX C++)の改良項目(統計モデル、ガゼティア、正規表現)を、REX-JEにも導入。
コマンドラインユーティリティーにオプションを追加。(TEJ-212)
一つの固有表現に含まれるトークン数の最大値が変更できるようになりました。デフォルト値は8です。EntityExtractor setMaxEntityTokens(int)メソッドをお使いください。(TEJ-188)
英語(大文字)、フランス語、ドイツ語、イタリア語、ロシア語、スペイン語に対応。
固有表現の共通化機能を追加。同一固有表現の共通化にはEntityExtractor setResolveNamedEntities(true)を使います。詳細は EntityCursor getChainId()をご覧ください。(TEJ-52)
IDENTIFIER:NUMBERを正規表現から削除。data/regex/lang/acceptディレクトリーのregexes.xml正規表現ファイルのIDENTIFIER:NUMBERのコメントアウトを外せば復活できます。(TEJ-171)
EntityCursor hasNext()メソッドを追加。固有表現をくまなく検出できるようになりました。(TEJ-150)
次のEntityExtractor メソッドを追加。
public void setStatisticalModel(LanguageCode, InputStream);
public void addGazetteer(LanguageCode, InputStream, boolean);
public void addGazetteer(LanguageCode, InputStream);
public void addRegularExpressions(LanguageCode, InputStream, boolean);
public void setRedactorWeights(InputStream);
public void addJoinerRules(InputStream);
public void setLicense(InputStream);
These methods enable access to data files placed in a JAR file (perhaps for use in a Hadoop environment). (TEJ-59)
バグ番号には、短い説明がついています。
linkEntitiesとジャンルが一致しない場合、ログレベルを「Warn(警告)」ではなく「Debug(デバッグ)」に設定します。(TEJ-1281)
新しいTVECを取得し、初期読み込み時間を向上しました。(TEJ-1319、TEJ-1346、ELK-114)
要求時に、代名詞に関する言及を含む固有表現に対し、顕著なスコアが常に返されないバグを修正しました。(TEJ-1324)
新しいRBLを取得し、代名詞解決モジュールで無効なポインター例外を修正しました。(TEJ-1327)
報告を受けたサポート言語からxxxを削除しました。(TEJ-1331)
統計モデルによって固有表現に関するすべての言及が常に返されないバグを修正しました。(APE-1766)
rliでテストした、LIBLINEARとTVECを再配置しました。(TEJ-1282)
REXのKblinkerを使用中、DBPediaの結果が存在するにもかかわらず、QIDが返されない状況を修正しました。(TEJ-1283)
REXFactoryConfigurationを介してカスタムプロセッサーを構成できるようにしました。(TEJ-1292)
略称機能の問題を修正しました。(ELK-82)
ORGANIZATIONの英語正規表現を補助辞書に移動し、パフォーマンスを向上しました。(TEJ-1160)
見つからないflinxデータディレクトリーの障害メッセージを改善しました。(TEJ-1167)
長いチェーンを持つ無効なポインター例外を修正しました。(TEJ-1168)
TEJ-1067 calculateConfidence 設定が無視されるバグを修正しました。
TEJ-1020 イスラエルID番号の正規表現を追加しました。
TEJ-1054 MD5がPRODUCTエンティティとして抽出されないように修正しました。
TEJ-1049 gazetteer辞書のcase-sensitivity設定が反映されるように修正しました。
TEJ-1041 QIDと信頼度スコアが正しく報告されない状況を修正しました。
TEJ-1039 Rosette APIで絵文字認識モードを有効にしました。
TEJ-1042 indoc-corefが無効中の顕著性スコア関数のエラー処理を修正しました。
TEJ-950 CustomProcessorSample.java等のサンプルソースを追加しました。
TEJ-951 米国マイナンバー(SSN)抽出を英語に限定しました。
TEJ-962 ベトナム人マイナンバーをタイプIDENTIFIER:IDからIDENTIFIER:PERSONAL_ID_NUMに変更。
TEJ-1005 ユーザgazetteerで抽出した結果のソース出力を修正しました。
TEJ-755 RBLとREXを同時に実行する時のバージョン・コンフリクトを防ぐため、RBLのクラスの一部をREXで使用するようにしました。
TEJ-735, TEJ-738 エンティティ・タイプのリスト報告にユーザ・エンティティ・タイプが検出されない問題を修正しました。
TEJ-747 DOSテキストファイルを使用時にREXCmdが文字位置情報を間違って報告するバグを修正しました。
TEJ-718 マレーシア語のサンプルテキストを追加しました。
TEJ-460 正規表現の部分一致で誤ったオフセット値を返す不具合を修正。
TEJ-438 パッケージ内のICUモジュールの位置を修正。
TEJ-415 REXのライセンスでRBL-JEが使えない不具合を修正。