it.wikipedia.org

Apache OpenNLP - Wikipedia

Da Wikipedia, l'enciclopedia libera.

Apache OpenNLP
software
Logo
Logo
GenereElaborazione del linguaggio naturale
SviluppatoreApache Software Foundation
Data prima versione19 Luglio 2004; 20 anni fa
Ultima versione2.5.3 (10 gennaio 2025)
Sistema operativo
LinguaggioJava
Licenzalicenza Apache 2.0
(licenza libera)
Sito webopennlp.apache.org
Modifica dati su Wikidata · Manuale

Apache OpenNLP è un toolkit che sfrutta l'apprendimento automatico per l'elaborazione dei testi in linguaggio naturale. Supporta i compiti più comuni in ambito NLP, come il rilevamento della lingua, la tokenizzazione, la sentence segmentazione, l'etichettatura delle parti del discorso, la named entity extraction, il chunking, il parsing e la coreference resolution. Questo genere di compiti sono solitamente necessari per sviluppare servizi di elaborazione testuale più avanzati.

La libreria è scritta in Java e può essere facilmente integrata in progetti Java o in progetti che utilizzano la Java Virtual Machine (JVM).[1]

  • Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato langdetect-183.bin come download. Questo è in grado di identificare 103 lingue.[2]
  • Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio opennlp-it-ud-vit-sentence-1.2-2.5.0.bin per il riconoscimento delle frasi nei testi italiani.[3]
  • Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc.
  • Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per 32 lingue (tedesco, inglese, spagnolo, portoghese, danese, ecc.). Questi modelli possono essere utilizzati per etichettare automaticamente un corpus di testo in una di queste lingue.[4]
  • Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli.

V · D · M

Apache Software Foundation
Progetti principaliAccumulo · ActiveMQ · Ambari · Ant · Aries · Apache HTTP Server · APR · Avro · Axis · Axis2 · Beam · Bloodhound · Brooklyn · Buildr · Calcite · Camel · Cassandra · Cayenne · Chemistry · CloudStack · Cocoon · Cordova · CouchDB · cTAKES · CXF · Derby · Directory · Drill · Empire-db · Felix · Flex · Flink · Flume · Geronimo · Gora · Gump · Hadoop · HBase · Hive · Jackrabbit · James · Jini · JMeter · Kafka · Kudu · Kylin · Lucene · Mahout · Maven · MINA · mod_perl · MyFaces · NetBeans · Nutch · OFBiz · Oozie · OpenEJB · OpenJPA · OpenNLP · OpenOffice · PDFBox · Parquet · Phoenix · POI · Pig · Pivot · Qpid · Roller · Samza · ServiceMix · Shiro · Sling · Solr · Spark · Stanbol · Storm · SpamAssassin · Struts 1 · Struts 2 · Subversion · SystemML · Tapestry · Thrift · Tika · Tomcat · Traffic Server · UIMA · Velocity · Wicket · Xalan · Xerces · ZooKeeperASF logo
Apache CommonsBCEL · BSF · Daemon · Jelly · Logging
Apache IncubatorNuttX · SINGA · Trafodion · XAP
Altri progettiBatik · Chainsaw · FOP · Ivy · Log4j
Apache AtticAbdera · Apex · AxKit · Beehive · Bluesky · iBATIS · Cactus · Click · Continuum · Deltacloud · Excalibur · Forrest · Hama · Harmony · HiveMind · Jakarta · Lenya · Marmotta · ODE · Shale · Shindig · Slide · Sqoop · stdcxx · Tuscany · Wave · Wink · XMLBeans
LicenzeLicenza Apache
Categoria