python提取英文单词怎么写_使用python对文件中的单词进行提取的方法示例

由于需要使用一个纯单词组成的文件,在网上下载到了一个存放单词的文件,但是里面有中文的解释,那就需要做一下提取了。

文本的形式如下:

2018122114184724.png

所见即所得,这个文本是有规律的,每个单词为一行,紧接着下一行便是单词的解释,有了这种规律我们就很好处理了。

首先我们来将文件的数据读取出来:

#coding:utf-8

file_object = open('words.txt')

try:

lines = file_object.readlines()

finally:

file_object.close( )

for line in lines:

print line

代码执行的结果为:

2018122114184725.png

显然,这不是我们想要的结果,因为这里面有太多的空行了,现在最主要的就是要处理掉这些妨碍我们的空行,对于中文的乱码呢,我们是不需要中文的解释的,所以它是无妨碍的,如果想看得舒服些,那么我们就转码一下就好了。现在最主要的就是要知道为什么会出现这么多的空行,因为我们的文件是已将看过了,显然是这些空行的出现是有点“匪夷所思”的,这也是由于python读文件的机制导致的,下面我们修改下代码,来看看原因:

#coding:utf-8

file_object = open('words.txt')

try:

lines = file_object.readlines()

finally:

file_object.close( )

print lines

在这里,我们直接输出lines,得到如下的结果:

2018122114184726.png

我们随意拿出这句'runlet\n', 'n.\xcd\xb0,\xd0\xa1\xba\xd3\n', '\n', 'runnel\n', 'n.\xd0\xa1\xba\xd3,\xcf\xb8\xc1\xf7\n', '\n',从中可以看出,对于每行的文件,在读取的时候,换行符“\n”也是会被读取在单词和对应的解释的后面的,所以这也就是为什么会有那么多空行的原因了,这显然不是我们想要看见的,下面我们处理一下,让这些多余的空行失去效果:

#coding:utf-8

file_object = open('words.txt')

try:

lines = file_object.readlines()

finally:

file_object.close( )

for line in lines:

if line!='\n':

print line.decode('gb2312','ignore'), #逗号得带着,因为文件自身带了换行,可以代替pirnt的换行

程序执行后,得到如下的结果:

2018122114184727.png

好了,这下就是我们想看到的东西了,那么,现在我们可以将这些输出写入 到新的文件里了,然后就可以得到我们想要的单词文本了。

#coding:utf-8

file_object = open('words.txt')

try:

lines = file_object.readlines()

finally:

file_object.close( )

myfile=open('newfile.txt','w')

num=0

for word in lines:

if word!='\n':

num+=1

if num%2: #只有奇数行为单词

myfile.write(word)

运行程序便可以得到新的单词文件了,最终提取了45000多个单词,文件如下所示:

2018122114184728.png

很显然,满足我们最终想要实现的要求,那么可以收工了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

本文标题: 使用python对文件中的单词进行提取的方法示例

本文地址: http://www.cppcns.com/jiaoben/python/248093.html

weixin_39634876
关注 关注
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
python读取特定单词_使用python文件单词进行提取方法示例
weixin_39608118的博客
11-20 874
由于需要使用一个纯单词组成的文件,在网上下载到了一个存放单词文件,但是里面有文的解释,那就需要做一下提取了。文本的形式如下:所见即所得,这个文本是有规律的,每个单词为一行,紧接着下一行便是单词的解释,有了这种规律我们就很好处理了。首先我们来将文件的数据读取出来:#coding:utf-8file_object = open('words.txt')try:lines = file_object...
Python学习第四篇:利用python抓取英语单词
热门推荐
Xunxianren007的博客
05-06 1万+
利用python爬取英语单词和释义。
使用python提取语句英文单词(初学)
qq_37662419的博客
01-18 6404
使用python提取语句英文单词(初学) PYTHON初学 #提取句子英文单词 x=0#记录开头 y=0#记录结尾 result=[] sentence=input('请输入英文句子:') for i in sentence: if i==' ' or i==',' or i=='.'or i=='、': if x!=0:#第二格单词前面存在空格需往后移一格,剔除空格 q=sentence[x+1:y:1] x=y#记录位
python提取英文单词怎么_python 文本单词提取和词频统计的实例
weixin_39701834的博客
11-24 636
这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。操作:strip_html(cls, text) 去除html标签separate_words(cls, text, min_lenth=3) 文本提取get_words_frequency(cls, words_list) 获取词频源码:class DocProcess(object):@classmethoddef strip_htm...
python提取英文内容
10-08
详细说明如何利用python对文本文、英文、数字等进行提取,可以供表格处理使用,可以通过进一步的函数的定义处理整个excel或者txt文档。
使用python文件单词进行提取方法示例
09-19
Python编程提取文件单词是一项常见的任务,特别是在处理...希望这个示例能帮助你更好地理解和应用Python进行文件单词提取。在实际应用,你可能需要根据具体需求调整代码,例如添加错误处理或优化性能。
python提取txt字符串_使用Python提取文本含有特定字符串的方法示例
weixin_39666550的博客
12-09 2442
今天搞了一天的文本处理,发现python真的太适合做数据处理了。废话不多说,一起学习吧!1.我的原始数据是这样的,如图2.如果要提取每行含有pass的字符串,代码如下:import refilepath = "E:/untitled1/analyze_log/test.log"txt = open(filepath, "r").read()result=""test_text = re.finda...
Python读取英文文件并记录每个单词出现次数后降序输出示例
09-20
Python编程,读取英文文件并记录每个单词出现的次数是常见的文本处理任务,尤其在数据挖掘和自然语言处理领域。以下是一个具体的示例,它涵盖了如何完成这个任务,涉及到了文件操作、字符串处理、字典操作以及...
python英语词汇
08-29
自己整理的python常用英语词汇,熟练掌握对大家的开发会有很大帮助,希望下载的朋友多多支持博客哦
python 爬取英语词汇
qq_44550513的博客
06-18 3628
前言:由于一个小demol需要一些英语四级词汇作为数据,自己动手一个个找太费事所以用python搞了一个小工具用来爬取一些四级词汇,毕竟是第一个爬虫小工具,所以记录下。 首页去找了一下各个网站的词汇状况,发现扇贝的词汇好爬点,其他的好多要登录才可以,目前技术不够。 先 把爬取的效果图贴出来吧 我是把单词爬取到word.txt文件里 接下来直接上代码 from urllib import request from lxml import etree #词汇表 words = [] fo.
python切分英文单词
11-06
文件有利于帮助初学者使用python进行英文分词,是学习python的入门必备。
python英文单词批量抽取美式英标英式音标文解释例句解释
04-28
英文单词批量抽取美式英标,英式音标、文解释、例句解释 使用方法 把需要翻译的单词word.xlsx标签[Sheet1]页的A列里面,如 abandoned ability abroad 运行python getWordFromDic.py 生成word_create.xls,内容例子如下 英文 音标UK 音标US 现在完成时 一般过去时 现在进行时 复数变形 文翻译 例句 ability əˈbɪlətɪ əˈbɪlətɪ abilities n. 才能,能力 " I don't doubt your ability to do the work./r/n 我不怀疑你有能力担任这项工作。/r/n He is a man of many abilities./r/n 他是一个有多方面才能的人。/r/n"
python翻译pdf英文-看不懂pdf的英文?就用Python
weixin_39783360的博客
11-11 666
pdf作为只读文稿,直接拿来翻译是不现实的。当我们学会Python 后,这个问题就很好解决了。前期准备工作:翻译接口: 调用的是apipdfminer3k:pdfminer3k是pdfminer的Python 3端口。 PDFMiner是一种从PDF文档提取信息的工具。 与其他PDF相关工具不同,它完全专注于获取和分析文本数据。 PDFMiner允许获取页面文本的确切位置,以及字体或线条等其他...
python提取英文单词 每行显示一个_用Python提取一个包含单词的句子。。。以及周围的句子?...
weixin_39768695的博客
11-26 364
像这样的怎么样?在import nltk.datatokenizer = nltk.data.load('tokenizers/punkt/english.pickle')for paragraph in document:paragraph_sentence_list = tokenizer.tokenize(paragraph)for line in xrange(0,len(paragrap...
python提取英文单词怎么,Python提取单词
weixin_34907135的博客
03-26 1282
目前,我一直在使用此函数提取纯英语字符串和Unicode字符串的有效单词:s = """\"A must-read for the business leader of today and tomorrow."--John G. O'Neill, Vice President, 3M Canada. High Performance Sales Organizations defined the ...
python提取英文单词怎么_python提取两个句子之间不同的单词
weixin_39714191的博客
11-24 396
我有一个非常大的数据框,有两列名为sentence1和sentence2.我正在尝试使用两个句子之间不同的单词创建一个新列,例如:sentence1=c("This is sentence one", "This is sentence two", "This is sentence three")sentence2=c("This is the sentence four", "This is ...
python实现单词的简单爬取
qq_44614115的博客
03-06 2869
本文记录了python实现iciba单词的简单爬取
python简易英汉互译界面_python之做一个简易的翻译器(一)
weixin_39849479的博客
12-05 818
平时经常在网上翻译一些单词,突发奇想,可不可以直接调某些免费翻译网站的接口呢?然后做一个图形界面的翻译小工具?下面开始实践1.先找一下有哪些免费翻译的接口百度了一下关键字“免费翻译接口”,然后找到一篇帖子,是介绍有哪些免费翻译接口的,上面有谷歌翻译、百度翻译、有道翻译、必应翻译等等,最终选择了有道翻译2.使用requests库请求代码构造如下# -*- coding:utf-8 -*-import...
python提取英文单词 每行显示一个_python 文本单词提取和词频统计的实例
weixin_39665507的博客
11-26 514
这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。操作:strip_html(cls, text) 去除html标签separate_words(cls, text, min_lenth=3) 文本提取get_words_frequency(cls, words_list) 获取词频源码:class DocProcess(object):@classmethoddef strip_htm...
python提取字符串英文单词
最新发布
10-31
使用Python提取字符串英文单词,可以使用正则表达式和Python内置的re模块来实现。下面是一个示例代码: import re def extract_english_words(input_string): # 使用正则表达式匹配所有的英文单词 english...
146
原创
52
点赞
205
收藏
20
粉丝
关注
私信
写文章

热门文章

  • mysql leftjoin 大表在外_小表驱动大表 15085
  • idea怎么进行c语言编程_怎么进行C语言编程,要全代码 5165
  • python身份证年龄计算_用python计算年龄 5089
  • python 条件语句且_python 条件语句 4873
  • python中撤销的快捷键_Python IDLE常用快捷键 4359

最新文章

  • 我的世界服务器修复地图指令,我的世界怎样用指令清空地图上的全部方块 | 手游网游页游攻略大全...
  • NF5270M3服务器主板安装系统,服务器NF5270M3的安装配置
  • 服务器物理内存利用率,物理内存占用率过高
2021年140篇
2020年240篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

天下网标王曲阜网站优化网站seo优化有什么好处网站如何优化关键词步骤详解网站页面格式优化在线蓬莱网站优化怎么选沭阳网站优化公司排名网站关键词怎么优化套巢湖网站排名优化公司濉溪县网站排名优化公司沈阳求推荐好的网站推广与优化网站页面大小优化网站seo优化价值舒兰网站推广优化网站优化中网页标题写什么沧州科技网站优化海口市网站优化藁城网站优化推广java 网站优化阳江网站优化哪家快蓟县网站关键词优化网站优化排名的好处山西临汾网站优化排名山东网站优化多少钱登封营销网站搭建优化连江网站seo优化团队临海畅销百度网站优化优化建站开关网站seo优化哪家好潍坊网站专题优化睢县网站关键词优化多少钱新都区网站优化哪家好香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化