为PC端Google拼音输入法增加词库
为什么折腾词库
都在说百度、讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里面跑一圈才能知道你的输入习惯吧?
用什么输入法都是个人习惯,不过自打有了智能ABC拼音输入法的时候已经有本机记录输入词频的功能,个人还是喜欢Google拼音输入法,电脑端、手机端(我不是miboy)都安装。
因为各种原因,目前google拼音输入法的词库同步功能无法使用,重装系统之后除了把自己备份的词库手动导入之外,显得词库太瘦,由在github上发布的深蓝词库转换工具:
一款输入法词库转换软件,支持以下超过20种的输入法工具和词库
有了这个神器,就有想把搜狗词库下载下来。
开始手工活
通过页面
通过查看网页源代码查找/dict/cate/index/
可以看到,有下面几大类:
- 人文科学
- 农林渔畜
- 医学
- 城市信息大全
- 娱乐
- 工程与应用科学
- 生活
- 电子游戏
- 社会科学
- 自然科学
- 艺术
- 运动休闲
可以进一步看到每一类的单独页面是:
- 城市信息大全
- 电子游戏
- 自然科学
- 人文科学
- 社会科学
- 工程与应用科学
- 农林渔畜
- 医学
- 艺术
- 运动休闲
- 生活
- 娱乐
找到子类
里面的数字相当于是他的ID,点击进入每个大类,会打开对应的每一个细类,在细类页面找到每一类的总页数,例如,总页数是10页,每一页的具体页面是:
- ……
词库下载地址
在子类的每一个页面查找:
<div class="detail_title"><a href=
找到分页面里的词库名称:
动物词汇大全【官方推荐】
地理地质词汇大全【官方推荐】 生物词汇大全【官方推荐】 化学化工词汇大全【官方推荐】 数学词汇大全【官方推荐】 物理词汇大全【官方推荐】 植物词汇大全【官方推荐】 天文词汇大全【官方推荐】 气象词汇大全【官方推荐】 测绘词汇大全【官方推荐】
对应的下载地址继续查找:
<div class="dict_dl_btn"><a href="
对应的下载地址是:
给每个下载地址加入“.scel”后缀,放到迅雷里进行下载。
用到的工具
pycharm
找到子类分页面之后,通过python的request包把页面源代码下载到本地。(python连初学都算不上)
ultraedit
通过ultraedit的在文件中查找功能找到子类名称、词库名称和下载地址。
迅雷
在下载链接中加入scel后缀之后加入迅雷进行下载。
PS:词库有重复的。按键精灵
迅雷下载时会提示有重复任务,问是否需要继续,用按键精灵录制了一个鼠标点击动作。
后记
一共找到6912个词库,自己下载了2000个。
书到读时方恨少,python应该可以一次搞定这个事情,这里算是用打补丁的方式做了。