LinuxSir.Org  
| 网站首页 | 论坛帮助 |

欢迎来到LinuxSir.Org!
您还未登录,请登录后查看论坛,或者点击论坛上方的注册链接注册新账号。


发表新主题 回复
精华主题  
主题工具
旧 06-07-24, 20:32 第 16 帖
pupilzeng 帅哥
 
 
 
注册会员  
  注册日期: Jun 2002
  我的住址: 云游四海
  帖子: 2,280
  精华: 11
 

引用:
作者: wpyh
哦,这样,我以为最后的词库也是mysql数据库格式的……如果可以dump成text好:)

开发那种自动拼音的程序我觉得不是很容易(做完整的难,往往是10%的bug占了90%的开发时间,但是做简单的不是很难),不如直接输出所有可能的拼音,然后手工整理。

你是说,简单的.org格式的可以Public Domain,然后“加工”后的是BSD/GPL?这个可以啊,我没意见,因为我一般也用的是GPL软件。但是,我觉得可能有些人觉得GPL束缚性太强了,如果是GPL的话,空怕很多人都没有得到利益。或者,可以这样:GPL+exception,exception是让使用者可以随意使用该词库,商业软件也可以,但是必须提供源代码(也就是说原形的词库),类似arphic font的协议吧。
怎么感觉这个exception有不有都差不多啊







__________________
Simplicity is beauty!
  pupilzeng 当前离线   回复时引用此帖
旧 06-08-02, 20:15 第 17 帖
wpyh
 
 
 
注册会员  
  注册日期: Dec 2004
  帖子: 57
  精华: 1
 

嗯,这个exception其实只是说明一下协议。

过了几个星期,还是没有人给我发词库,呵呵 看来得自己继续做下去了……

我后来发现CEDICT并不是Public Domain,不允许商业应用,FangQ可能需要考虑这一点:)
  wpyh 当前离线   回复时引用此帖
旧 06-08-03, 04:31 第 18 帖
FangQ
 
 
 
注册会员  
  注册日期: Jun 2005
  帖子: 74
  精华: 0
 

我已经给CEDICT project的maillist发了封信询问license的问题。public domain与non-commertial use本身就是矛盾的。

关于文泉驿的词库,前一段suzhe(SCIM的作者)告诉我他那里有比较全的词库(60万词汇量),他希望合作完成对词库的分类整理工作。等收到他的资料后我会作一个更新,我希望更多的人一起来完成这个工作。
  FangQ 当前离线   回复时引用此帖
旧 06-08-03, 12:56 第 19 帖
james_su
 
 
 
注册会员  
  注册日期: Oct 2002
  帖子: 2,369
  精华: 18
 

是的。我也会尽快发布新的中文拼音处理库,和辅助工具,来帮助制作这个词库。
  james_su 当前离线   回复时引用此帖
旧 06-08-08, 03:02 第 20 帖
up4tree
 
 
 
注册会员  
  注册日期: Aug 2005
  帖子: 14
  精华: 0
 

建议参考林顺凡的拼音佳佳词库,我感觉非常好,是txt文本的。
  up4tree 当前离线   回复时引用此帖
旧 06-08-08, 09:35 第 21 帖
Yuking
 
Yuking 的头像
 
 
注册会员  
  注册日期: Apr 2002
  我的住址: 四川省绵阳市
  帖子: 3,237
  精华: 5
 

现在fcitx用的就是拼音佳佳词库
  Yuking 当前离线   回复时引用此帖
旧 06-08-12, 16:21 第 22 帖
rushrush 美女
 
rushrush 的头像
 
 
注册会员  
  注册日期: Aug 2004
  帖子: 666
  精华: 0
 

引用:
现在fcitx用的就是拼音佳佳词库
现在词库是拼音加加的? 我怎么觉得这么难用呢? 好多常用词都不在前面..







__________________
by 断了的猫 (arch linux)
blog: http://rushrush.cublog.cn
新浪微博: http://t.sina.com.cn/mao8421
  rushrush 当前离线   回复时引用此帖
旧 06-08-12, 16:48 第 23 帖
ailantian
 
ailantian 的头像
 
 
注册会员  
  注册日期: Jan 2004
  我的住址: 长春 ***JLU***
  帖子: 1,638
  精华: 1
 

呵呵,这个问题我以前也想过呢,输入法要有一个好的词库还是很重要的,另外就是现在好像也还没有中文的语法拼写检查的软件,这些都应该有一个好的词库的吧

我以前的想法是,想googlebar的在线翻译一样,在线提交的,看能不能修改一下输入法,做一个带提交数据的版本出来,比如每次输入一个词的时候(提交给应用程序的时候,这个是应该输入法程序判断的吧)就自动提交到数据库里面,已经提交过的就不再提交了,这样大家在平时打字的时候就帮助完成了造词的工作(分布式?),不过问题是,如果用户重新装了系统的话,就又会重复提交这些数据了,另外就是大家肯定会重复提交很多那些常用的词汇,另外就是可能大家会觉得泄漏了隐私。还有一个问题就是平时大家输入的时候可能错别字也不少。

不知道我这个想法是不是有什么其他的问题,其实开发相关的工具做出来了,这个东西就好完成了。剩下的没有什么技术含量的工作还比较好做。







__________________
debian软件安装方便,软件包数量多,可定制性强,不用到网上搜软件,没有依赖性的问题,推荐使用:)
[url]http://debian.cn99.com/debian-cd[/url]
[url]http://cdimage.debian.org/pub/weekly/[/url]
[url]http://cdimage.debian.org/pub/cdimage-testing/daily[/url]
[url]http://www.debian.org/devel/debian-installer/ports-status[/url]
amd 64的这里 已经released [url]http://debian-amd64.alioth.debian.org[/url]
或者这里[url]http://amd64.debian.net/[/url]

此帖于 06-08-12 17:08 被 ailantian 编辑.
  ailantian 当前离线   回复时引用此帖
旧 06-08-13, 01:25 第 24 帖
Yuking
 
Yuking 的头像
 
 
注册会员  
  注册日期: Apr 2002
  我的住址: 四川省绵阳市
  帖子: 3,237
  精华: 5
 

引用:
作者: rushrush
现在词库是拼音加加的? 我怎么觉得这么难用呢? 好多常用词都不在前面..
是拼音佳佳4.0的词库,具体的字序还真不清楚……
  Yuking 当前离线   回复时引用此帖
旧 06-11-09, 07:35 第 25 帖
wpyh
 
 
 
注册会员  
  注册日期: Dec 2004
  帖子: 57
  精华: 1
 

帖子怎么聊成这样了,呵呵

其实我不是没有做点东西,我只是懒得收集而已(直接利用我打过的词,呵呵)。因为我发现,网上的很多词库都不是开放的,而是非商业应用的,所以我不能用。

今天下载3.4.1,顺便上传我的词库:)

注:本词库是PUBLIC DOMAIN。
上传的附件
文件类型: bz2 fcitx-phrase.tar.bz2 (15.5 KB, 24 次查看)
  wpyh 当前离线   回复时引用此帖
旧 06-11-09, 08:48 第 26 帖
happykiller
 
happykiller 的头像
 
 
注册会员  
  注册日期: Oct 2006
  帖子: 49
  精华: 0
 

fcitx是应该有在自己的词库,自从用了拼音佳佳的词库,选词特别不舒服,主要是常用的词组都被挤到了后面。
  happykiller 当前离线   回复时引用此帖
旧 06-11-09, 15:48 第 27 帖
wpyh
 
 
 
注册会员  
  注册日期: Dec 2004
  帖子: 57
  精华: 1
 

FangQ: suzhe那有消息了吗?

Yuking: 以前fcitx的词库是怎么保证顺序的呢?是不是用不同的格式?
  wpyh 当前离线   回复时引用此帖
旧 06-11-09, 21:22 第 28 帖
Yuking
 
Yuking 的头像
 
 
注册会员  
  注册日期: Apr 2002
  我的住址: 四川省绵阳市
  帖子: 3,237
  精华: 5
 

格式没变,过去也有同样的问题啊
不过现在应该好一些了吧
  Yuking 当前离线   回复时引用此帖
旧 06-11-17, 21:09 第 29 帖
yumumao
 
 
 
注册会员  
  注册日期: Sep 2006
  帖子: 18
  精华: 0
 

要是Fcitx能像拼音加加那样方便地添加词库就好了,现在加加论坛上掀起了一股词库热潮,有很多不错的词库出现,和作者们联系联系,应该有很多好的东西可以取得,Fcitx也可以考虑和Ahman商量一下,把他的首选词引入进来,这样词频真的就会好很多的。

此帖于 06-11-17 21:12 被 yumumao 编辑.
  yumumao 当前离线   回复时引用此帖
旧 06-11-20, 18:55 第 30 帖
sysnotdown
 
 
 
注册会员  
  注册日期: Oct 2006
  帖子: 358
  精华: 1
 

用程序去统计比较好,人工做这种活太枯燥了。
  sysnotdown 当前离线   回复时引用此帖
发表新主题 回复


主题工具

发帖规则
您 [不可以] 发表新主题
您 [不可以] 回复主题
您 [不可以] 上传附件
您 [不可以] 编辑您的帖子

已 [启用] BB 代码
已 [启用] 表情符号
已 [禁用] IMG 代码
已 [禁用] HTML 代码
[论坛跳转…]


所有时间均为[北京时间]。现在的时间是 16:27


Powered by vBulletin 版本 3.6.8
版权所有 ©2000 - 2012, Jelsoft Enterprises Ltd.
官方中文技术支持: vBulletin 中文
版权所有 ©2002 - 2011, LinuxSir.Org