博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自然语言1_介绍和安装
阅读量:7113 次
发布时间:2019-06-28

本文共 1445 字,大约阅读时间需要 4 分钟。

 

(博主亲自录制视频教程)

 

 

 

 

 

相同爱好者请加

QQ:231469242

seo 关键词

自然语言,NLP,nltk,python,tokenization,normalization,

 

单词:

NLP:natural language processing  自然语言处理

tokenization 切分,分组意思。包括句子切分,词语切分

normalization 标准化(去除标点,大小写统一         )

nltk:natural language toolkit  (Python)自然语言工具包

corpora 语料库,body of text正文

lexicon: words and their means 文字和字义

pickle

python的pickle模块实现了基本的数据序列和反序列化。

pickle file

lemmatize 还原词根

named entity 命名的实体

abbreviation:缩略词
 
——指单词或片语缩短后的形式,主要用于在书面语中替代完整形式,如用 Mass. 替代 Massachusetts(马萨诸塞州), 用 USA 替代 United States of Ameirica(美利坚合众国), 用 RMB 替代 Renminbi(人民币)
.  
contraction:缩约词/收缩词
 
——指通过省略或结合一个较长短语中的某些音素而形成的词,如 从 will not 收缩而来的 won't ,从 of the clock 收缩而来的 o'clock,诗歌中从 them 收缩而来的‘em

 

punctuation 标点

 

stopwords 停止词

 

treebank:树状图

In , a treebank is a parsed that or structure.

在语言学中,树状图是解析的文本语料库,其注释句法或语义句子结构。

 

基础

python 正则表达式

Python oop

 

 

Natural language processing is concerned with the interaction between natural language and the computer.

自然语言处理就是关于自然语言和计算机的交互。

 

It is one of the major components of AI and computational linguistics.

他是人工智能的主要组成部分和计算的语言学。

 

 

 

 

 

运行以下代码时,出现错误,具体信息看提示

 

 

 在ipython输入nltk.download(),然后弹出需要下载的界面

 

安装好后,测试代码

 

# -*- coding: utf-8 -*-"""Created on Sun Nov 13 09:14:13 2016@author: daxiong"""import nltk#处理少量句子from nltk.tokenize import sent_tokenize#处理大量句子tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')text=" Welcome readers. I hope you find it interesting. Please do reply."list_text=tokenizer.tokenize(text)'''sent_tokenize(text)'''

 测试成功

 

 

转载地址:http://psghl.baihongyu.com/

你可能感兴趣的文章
Java异常处理总结
查看>>
Oracle数据库SQL优化的最佳思路
查看>>
SCWS入门使用指南
查看>>
简单的进度条,圆形进度条(一)
查看>>
全表扫描、索引扫描与物理读
查看>>
为何有时向外发信有延迟?
查看>>
Castle.Windsor官网API外文翻译(一)---基本概念
查看>>
使用MySql ODBC进行MYsql和MSsql的数据转换
查看>>
CCNA笔记之第十节:STP生成树协议(1)
查看>>
安全狗
查看>>
tomcat安装配置
查看>>
大型网站系统架构演化之路
查看>>
强大的数据库查询工具Database.NET 9.4.5018.42
查看>>
DB2 IBM InfoSphere Data Replication Center - SQL Replication[翻译]
查看>>
CentOS时间同步
查看>>
PHP防XSS 防SQL注入的代码
查看>>
MongoDB权威指南——管理
查看>>
ActiveMQ持久化方式
查看>>
手动(批量)添加nginx虚拟主机和rewrite规则
查看>>
安装JBOSS EAP 6 Standalone模式
查看>>