areal's profileiamcrfBlogLists Tools Help

iamcrf

areal

June 25

快速排序vs.冒泡排序

最近两个星期的时间,我被chinese gigaword corpus的处理难住了:我原来的程序居然不能正确处理超过一亿汉字的文本,每次都在几分钟甚至几个小时后崩溃。硬邦邦的linux只会报告segment fault。不知道问题出在哪里。
昨天的时候灵机一动,会不会是数据太大,导致表示指标的数据类型越界了?看了下,果然是用的是int型,改成unsigned long型,居然跑通了几个。继续检查剩下的几个segment fault,发现问题出在快速排序那一段,因为用了递归函数,不知道哪里有问题,今天临时改为冒泡排序,再也没有segment fault了。但是出了新问题:到现在为止,一个原来15分钟quick sort掉的样本集(包含1.2亿汉字),几个小时都没有冒泡完。
May 07

美国签证搁浅/cnccl-2009中了

 
昨天下午犹豫再三,还是去大新银行放血1040港币。今天早上一早赶到中环的美国领事馆,和我期望的如同银行般寂静的无人之境相反,各色人等在那里拐了几个弯的排队。准备忍受签证官的考问。在经历了1个多小时的排队等待后,进入大厅,接待我的居然是一个亚裔mm,她一上来问我的工作是关于什么的。我答计算语言学,她又问有什么应用,我按我的照惯例答机器翻译,结果对于机器翻译她也不懂。于是我被要求转到9号窗口,一个讲普通话的香港女士那里。无视我提供的会议日程表以及学校资助,以及我来自一个文科的系的事实,坚持要我的要简历/论文摘要---而我都没有带。于是中午急忙跑回学校,打印/传真,下午四点,香港女士打电话过来,说收到材料,要继续处理,让我等消息。
为了昨天不小心付出的1040港币,我忍---哪怕拿到签证我不去。
 
快要开会的时候,收到cnccl-2009的录用通知,未经证实的小道消息说今年的cnccl收到250多篇投稿,但是仅录用80篇左右,因此,这篇稿件的录用,说明城大的nlp研究已经步入国内先进行列。
 
May 04

我可以在conll-2009上讲20分钟

今天早上,conll-09的shared task主席Hajic教授给大家写信说,会议日程表出来了。我和老陈的两篇居然都进入了oral,放在最后讲。鉴于老陈不去,这意味着要我一个人讲双倍时间,20分钟了---问题是猪流感现在似乎也不太允许我去那个荒山野岭的地方了。
另外,我估计今年的组织者多少有点郁闷,因为最好的系统是用暴力搜索特征获得的,和他们期待的joint-learning没什么关系。
May 02

居然可以上了

不知道何时开始,我的msn不能上了,只能从网页登录,但是不能发贴,还只能留言。今天知道原因了---因为我坚持用firefox,所以微软惩罚我,让我知道,他们公司也出浏览器的。
July 01

竞争激烈

不知道从上个月哪天开始,conll08评测的结果公布栏开始接受赛后结果。上面说好,这个不影响正式排名,有了更好的结果可以发给组织者,然后他们把分数放到公布栏中,如同往届那样。
地址 http://www.yr-bcn.es/dokuwiki/doku.php?id=conll2008:results
最开始的时候日内瓦大学提交了一个更新的结果,大大更新了在句法依存上的分数,从原来的第4追到第2。没两天,第一名的lund大学的大大更新了他们的语义依存的成绩,让他们的成绩更加遥不可及。又过了没几天,加泰罗尼亚理工的lluis大大更新了他们的句法依存成绩——他们往届conll成绩一直靠前,可惜这次被句法依存拖了后腿,总分屈居倒数第二,而这此赛后更新猛赶8个名次,算是挽回了点面子。
昨天早上我看不下去了,把我几天前轻微改进的句法依存结果提交了上去(语义依存的性能提升是连带性的,其实我没有改进这部分),傍晚的时候mihai回信,说加上去了。现在我的总分排在第三了,句法部分的分数排在第二。我打开页面,开心了没几分钟,无意刷新了下,发现yahoo的ciaramita也更新了他们的结果。太巧了。他们也是改进了句法依存,但是他们的语义部分很强悍,所以我的总分第三只是维持了几分钟。好在暂时没有人撼动我的句法第二的位置。
不过现在哈工大的结果后有追兵,前有堵截。这游戏越来越好玩了。