新开一博客

Blog

因为这里不太稳定，，所以在baidu http://hi.baidu.com/imjl_cn/blog/ 新开一个，做备用。两边同时发，博文主要作为个人备份。

2009-11-04 09:26
浏览 596
评论(2)

safari 我的常用快捷键

Safari

cmd为苹果键关闭tab cmd+w 退出safari cmd+q tab切换 ctrl+tab 书签快捷从左到右 cmd+1，+2 显示TOP SITES cmd+shift+1 当前tab刷新 cmd+r 最小化 cmd+m 备份下

2009-10-28 16:01
浏览 954
评论(0)

换个交互方式：twitter

Twitter

我twitter号： imjl_live_cn 即时聊天太过于正式，经常怕骚扰到他人而不敢说。有时候分享东西给对此感兴趣的朋友，却又不知如何做？想找个志同道合的朋友聊某个话题，看着密密麻麻的msn，却不知道找谁聊觉得twitter满适合solve it。

2009-10-28 10:59
浏览 496
评论(0)

听朋友们说51job要多刷新简历，于是我在待业第二天就写了简历，开始还能每天刷，后来隔几天刷，现在懒得刷。-------------至今点击率为0. 猎头们忽悠我去杭州试试，还有忽悠去北京的，我不能去外地。不上班找点事做，于是写网站，PHP+MYSQL，看了几个framework，最后用codeigniter，满爽的，推荐大家使用。code时间很少，大多数时间花在研究需求和产品设计上面， solr1.4出来一段时间了，我都没仔细看过。最近断断续续看了一点，改天整理下 google reader 增订几个经济的博客，了解些经济知识。天凉之前每天早上散步，现在凉了，，就 ...

2009-10-13 21:22
浏览 612
评论(0)

iphone 从3.0升级到3.1（带越狱）

iphone

只适合无锁版我iphone是3.0+越狱。。。想要升级到3.1+越狱之前准备了，itunes最新版，3.1固件下载到本地，但是没有安装今天看到 http://news.weiphone.com/news/iphone/news/2009-10-03/PwnageTool_3.1.3zhengshifabu_206792.shtml,,,然后到3g iphone的论坛版块里找到了PwnageTool下载。（只有mac版）安装PwnageTool后，按照其提示一步步做了个自定义的固件，，，它会自动保存到桌面将iphone和mac电脑连接，然后打开itunes，，option+cl ...

2009-10-04 11:23
浏览 1417
评论(0)

Contrived FieldCache Load Test: Lucene 2.4 VS Lucene 2.9

lucene Java Blog

转载：http://www.lucidimagination.com/blog/2009/09/22/contrived-fieldcache-load-test-lucene-2-4-vs-lucene-2-9/ public class ContrivedFCTest extends TestCase { public void testLoadTime() throws Exception { Directory dir = FSDirectory.getDirectory(System.getProperty("java.io.tmpdir") ...

2009-09-29 10:26
浏览 847
评论(0)

我也成无业游民了

纪念下这个有意义的一天

2009-09-11 12:38
浏览 585
评论(0)

已知关键词的快速索引

C C++C#

关键词已知的情况下，快速索引。给定：1300个关键词，在1000条信息中比较，将对应的关键词和记录id记录下来。分析：简单测试，将1300个关键词放入hashtable，循环1000次，一条条记录做IndexOf(c# 中判断字符串是否存在的方法)，花费时间很长。解决：重复太多，改进方法就是减小重复，将1300个关键词取第一，第二个char作为下标各自放入bit数组，建立第一个char对应的struct，包含该字符起头的最长关键词长度和最短关键词长度以及相应的关键词hash表。反向以最后和最后第二个char为下标放入另一bit数组。从0开始到字符串长度的循环，一个个char判断，一 ...

2009-08-02 09:44
浏览 1097
评论(0)

新闻之主题相似计算

工作

新闻转载非常多，搜索新闻时常常碰到，结果里有很多相似新闻出现在一个页面，影响用户查看。我这里说个主题（也就是新闻题目）相似计算。分析：新闻主题大多是经过少量修改，大致状况是，加转载，截取主题，换个类似主题。解决：过滤一些无意义字符，以主题的单个字符为hashtable主键，比较后计算相同key的出现次数，以它为分子，较小的hashtable长度为分母，获得一个比值，将它和一个常量（反复测试后获得的相似率）比较，一旦大于就认为其相似。实际过程根据自己需要做些小调整，以上计算有最短长度限制（小于该长度的主题不计算）。很早以前写得，现在工作中使用的，效果还行。

2009-08-02 09:28
浏览 689
评论(0)

关于全文检索系统设计我的思考

全文检索 lucene

全文搜索大体分为：数据采集，索引，搜索。我认为最重要的是搜索效果，大体表现在准确性，搜索结果排序，稳定，速度。准确和分词相关，排序是如何让最适合的结果出现在最前面，稳定这里指索引和搜索时的稳定，速度指索引，搜索使用以及维护。当然这一切加上硬件，人力综合成一个性价比，这个值决定了最终使用哪个搜索架构（像我这样的懒人通常会基于一些现有的东西，在上面堆砌来完成）基本确定后，就会写更加细的测试代码，根据数据特性，业务特性进行优化，充分利用硬件发挥其特性。以lucene索引部分为例就是addDoc，updateDoc，deleteDoc，commit，optimize效率，分词速度，内存占用，硬 ...

2009-07-08 22:35
浏览 873
评论(1)

记录下最近生活

生活 Solr 旅游脚本工作

生活有点累，想去旅游，甲型流感还没好，只好等（有相同想法的可以短信我，也许可以一起旅游）工作要做个亿级搜索，没啥感觉，我记得刚进公司时做个千万比较兴奋，也许那时我第一次做发现 win自动化脚本也满多人用的 solr的mail-list多了几个中国人 iphone装得多了速度慢适合我的公司似乎很少等待甲型流感结束 win2008正式版发布新苹果系统和iphone3.0（似乎明天出）

2009-06-08 19:53
浏览 727
评论(0)

有点累了

也许我该考虑休息下了

2009-04-03 00:03
浏览 668
评论(0)

关注b2c

在b2c的,或者感兴趣的可以PM我你的联系方式, 一起交流

2009-03-19 21:58
浏览 651
评论(0)

排重记录

算法

主要是针对论坛上的主题转载的过多，所以做个排重 5000条主题排重以我破机器跑70秒左右，估计到p4 2.8 2g内存服务器上跑大概一半时间吧没想出精确的算法，粗略算法正确性还行。先将就用着，改天有更好的再来修改 1条到5000条不同主题比较，大概100多ms，嘿嘿，懒得用啥算法，最原始的，够用，速度不够再优化吧，比前者好有大概思路的折腾其他东西去

2009-03-16 09:49
浏览 879
评论(0)

记录下最近做得产品中文分词

算法

需要对一些信息进行产品Score的排序思路: 厂家, 产品系列, 产品型号, 分销, 零售商等字典, 按照需求特性对他们进行分级格式化用户请求信息, 根据上述字典切割成有效关键词, 根据这些关键词进行score计算因为考虑到用户可能会输入些辅助词语, 所以找了个简单的常规字典来切分这类词语根据词语的重要性, 出现的次数计算出score,对此排序. code比较简单, 这里需要注意的是如何分级, 分级的score如何设定. 简单的完成后, 排重需求比较急, 所以没有优化和测试该分词效率和资源占用状况顺便说下通用搜索的分词, 目前已知的算法在准确性上面都有些不足之处. ...

2009-03-10 21:18
浏览 906
评论(2)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论