| areal's profileiamcrfBlogLists | Help |
|
|
June 25 快速排序vs.冒泡排序最近两个星期的时间,我被chinese gigaword corpus的处理难住了:我原来的程序居然不能正确处理超过一亿汉字的文本,每次都在几分钟甚至几个小时后崩溃。硬邦邦的linux只会报告segment fault。不知道问题出在哪里。
昨天的时候灵机一动,会不会是数据太大,导致表示指标的数据类型越界了?看了下,果然是用的是int型,改成unsigned long型,居然跑通了几个。继续检查剩下的几个segment fault,发现问题出在快速排序那一段,因为用了递归函数,不知道哪里有问题,今天临时改为冒泡排序,再也没有segment fault了。但是出了新问题:到现在为止,一个原来15分钟quick sort掉的样本集(包含1.2亿汉字),几个小时都没有冒泡完。 May 07 美国签证搁浅/cnccl-2009中了昨天下午犹豫再三,还是去大新银行放血1040港币。今天早上一早赶到中环的美国领事馆,和我期望的如同银行般寂静的无人之境相反,各色人等在那里拐了几个弯的排队。准备忍受签证官的考问。在经历了1个多小时的排队等待后,进入大厅,接待我的居然是一个亚裔mm,她一上来问我的工作是关于什么的。我答计算语言学,她又问有什么应用,我按我的照惯例答机器翻译,结果对于机器翻译她也不懂。于是我被要求转到9号窗口,一个讲普通话的香港女士那里。无视我提供的会议日程表以及学校资助,以及我来自一个文科的系的事实,坚持要我的要简历/论文摘要---而我都没有带。于是中午急忙跑回学校,打印/传真,下午四点,香港女士打电话过来,说收到材料,要继续处理,让我等消息。
为了昨天不小心付出的1040港币,我忍---哪怕拿到签证我不去。 快要开会的时候,收到cnccl-2009的录用通知,未经证实的小道消息说今年的cnccl收到250多篇投稿,但是仅录用80篇左右,因此,这篇稿件的录用,说明城大的nlp研究已经步入国内先进行列。
May 04 我可以在conll-2009上讲20分钟今天早上,conll-09的shared task主席Hajic教授给大家写信说,会议日程表出来了。我和老陈的两篇居然都进入了oral,放在最后讲。鉴于老陈不去,这意味着要我一个人讲双倍时间,20分钟了---问题是猪流感现在似乎也不太允许我去那个荒山野岭的地方了。
另外,我估计今年的组织者多少有点郁闷,因为最好的系统是用暴力搜索特征获得的,和他们期待的joint-learning没什么关系。 July 01 竞争激烈 不知道从上个月哪天开始,conll08评测的结果公布栏开始接受赛后结果。上面说好,这个不影响正式排名,有了更好的结果可以发给组织者,然后他们把分数放到公布栏中,如同往届那样。 地址 http://www.yr-bcn.es/dokuwiki/doku.php?id=conll2008:results 最开始的时候日内瓦大学提交了一个更新的结果,大大更新了在句法依存上的分数,从原来的第4追到第2。没两天,第一名的lund大学的大大更新了他们的语义依存的成绩,让他们的成绩更加遥不可及。又过了没几天,加泰罗尼亚理工的lluis大大更新了他们的句法依存成绩——他们往届conll成绩一直靠前,可惜这次被句法依存拖了后腿,总分屈居倒数第二,而这此赛后更新猛赶8个名次,算是挽回了点面子。 昨天早上我看不下去了,把我几天前轻微改进的句法依存结果提交了上去(语义依存的性能提升是连带性的,其实我没有改进这部分),傍晚的时候mihai回信,说加上去了。现在我的总分排在第三了,句法部分的分数排在第二。我打开页面,开心了没几分钟,无意刷新了下,发现yahoo的ciaramita也更新了他们的结果。太巧了。他们也是改进了句法依存,但是他们的语义部分很强悍,所以我的总分第三只是维持了几分钟。好在暂时没有人撼动我的句法第二的位置。 不过现在哈工大的结果后有追兵,前有堵截。这游戏越来越好玩了。 June 25 想起在微软期间的一段事情 2006年的时候,西格马大厦一层层装修,所以几乎每个人都要至少搬一次家。暑假那次的规模特别大,整整一层的人都要从5楼搬到4楼或者1楼。搬完的第二天的早上,我们在新位置上坐下,我就收到一个群发邮件,上面盛赞人事部门的工作效率,吹嘘说,每个人都很满意,大家都很喜欢云云。发送者署名cb.其实打包,抱着一大堆东西跑上跑下(虽然绝大多数物品其实是由搬家公司的工人搬掉的),然后要在新的位置重新按照自己的工作习惯布置桌面。移动工作的位置其实是一件很不舒服的事情,怎么可能还心情好?我愤愤地点击了一个回复所有,估计所有的微软在中国的雇员,永久的,临时的都应该能收到吧,只有三个字母: pmp. 发完后就没有管了,第二天吃早饭的时候碰到一个校友,他说我太牛了,然后问我知不知道那个cb是谁。我说不知道,我只是对这种马屁的群发邮件忍耐了很久了。他说,是许峰雄,我大吃一惊,是那个发明深蓝的许峰雄?他说是的。我这才想起来,年轻的时候的许峰雄被人称为crazy boy,所以他就用缩写cb作为签名了。 May 27 conll-2008的open特征中的maltparser性能评估 昨天提到我怀疑conll08的open test任务提供的maltparser性能不佳, 今天想起来顺便跑了下打分程序. 果然证实了我的猜测. 下面是open feature所提供的maltparser在4个测试和开发集上的成绩 data LAS UAS label-acc. =========================================== devel 84.10 87.66 89.18 wsj 85.50 88.41 90.41 brown 77.06 82.67 83.60 wsj+brown 84.56 87.77 89.66 下面是所提供的maltparser在所有closed test参加者的句法依存序列中的LAS排名,总计20个closed结果. maltparser输出排在17位.由于太低(<80%),我认为最后三位的句法依存结果不能算作正常的成绩. LAS wst+brown wsj brown =================================== 1 st 89.32 90.13 82.81 16 th 84.82 85.69 77.83 maltparser 84.56 85.50 77.06 17 th 84.47 85.20 78.58 不知道这个maltparser在哪里训练的,如果是在去年的数据上训练的,应该是情有可原的,因为去年的english句法分析的训练语料是一个大杂烩,训练规模也仅为今年的一半. 这样所给出的maltparser性能其实并不能算太差, 可能只是不太拟合今年的数据吧. 但总的来说,以这样的一个分析器来做open test的句法依存输入不是一个成功的做法. 继而想到,如果我利用这个open test的句法依存输入作为基础,仅运行我提交的那个srl模块会怎样? 我想这会是一个有趣的对比, 下面是结果. 总分 macro-f1: wst+brown wsj brown devel ============================================== mine 80.08 81.29 70.26 79.55 best-open 79.61 80.61 71.45 - best-open是open test总分第一的选手. 句法依存 LAS of syntactic parsing: wst+brown wsj brown devel ============================================== mine(maltparsr) 84.56 85.50 77.06 84.10 best-open 87.32 88.14 80.8 - 这部分比较其实是open test的maltparser输出和参赛者的结果比较, 和我没关系. 语义依存 labeled-f1 of semantic parsing: wst+brown wsj brown devel ============================================== mine 75.55 77.02 63.39 74.90 best-open-srl 76.17 77.38 66.23 - best-open 71.89 73.08 62.11 - best-open-srl是仅仅单独参加了srl部分的open test的最优选手. 结果说明,我的系统比best-open更加平衡, 他的句法部分做得相当好, 很大程度上克服了不佳的maltparser输入(考虑到他的open句法性能和closed句法性能一模一样,我猜测他早就发现了问题因而完全抛弃了open test给的这个句法输入,而自己单独搞了一套),但是他的语义依存部分脱了太大的后腿. 至于best-open-srl,他只做srl,虽然大致在一个水平线上, 他的系统性能的确轻微的好于我的srl子系统. 关于srl子模块的评估问题,我想起来前几天给mihai写了封信,建议他加入一个新的rank list,使用一个比值semantic-F1/syntactic-LAS来评估单独的SRL子系统的性能,我的理由是SRL部分过于依赖syntactic parsing部分的性能,因而不是像句法依存部分那样独立。mihai热情的回信说,他喜欢这个主意,但是还要考虑下怎么做。我猜测他一定在苦恼,如果真的列出一个这样的表格的话,那么那个排在最后一位的不正常的结果要跳到第一位了,这个动静也太大了。:) May 26 conll-2008评估回顾没有更新blog已近两个多月,都是conll-2008招惹的,事情起源于去年年底kit转发的一封newsletter,说今年要办一个输入很少,输出很多的自然语言学习任务:基于依存的句法和语义结构的联合推导(当然实际的要求比这个说法要更加复杂,我在4月中旬给主办者Mihai写了封弱弱的信问了些初级问题,才知道本次任务还包含一个语义消岐问题),问我有无兴趣。那时候我还不知道什么是dp和srl,只好笼统地回答说,如果那个跑crf的机器允许的话,可以试下。但1月2月在南亚和中东各奔波了一半的时间,浪费了大好时间去深入学习理解dp/srl。好在总算利用春节的几天把最大熵写了一个出来。考虑到效率因素,决定以后的机器学习就用这个跑了。虽然种种迹象表明现在的计算语言学界中svm更加时髦,但是svm天文般的训练时间自从读博士以来就已经把我吓怕了好多年。至于将来能否用svm要看 intel,amd以及nvidia的表现了(记得某次开会我曾经建议买台ps3来跑crf的,自然是被鄙视)。随后,我用自己写的最大熵先跑了下传统的分词ner,继而用词性标注作了下验证,结果在bakeoff-4的成绩单中很靠前,至少前三名之列,恩,考虑到第一名事实上用了一个双向最大熵,这个结果至少说明我的最大熵实现没什么大毛病,可以放心的拿它用于后面的任务了。 下面我的教训说明,仔细阅读任务说明是多么重要的事情:从2月下旬开始,我在conll-2004的数据上跑了一个月,一直到3月中旬发现单个训练时间以星期为单位的时候,我才觉得应该利用这个空挡看看怎么做依存句法分析(dependency parsing,DP)——这时候我其实还没有发现我的错误。无从下手之下,给dp前辈陈文亮(他参加了去年的关于dp的conll)写了封email,请教了很多初级的问题,总算知道dp是要做什么的了。然后又花了一个星期的时间,在最大熵上面(不顾nivre在论文中的反复警告:使用最大熵跑它的算法,性能不会高),对照nivre那些拗口的论文写了一个移进规约算法(昨天才知道nivre在2月份就公布了一份java版本的maltparser源代码,ft)。调试,让它能够正常工作,给出了些正常的结果,不知不觉时间到了4月中旬。在一个被nivre认为没有前途的分类算法上,我只用一个model所作出的性能看来也就这样了。于是随意看了看早就发布了的训练数据的格式,才惊讶的发现SRL部分的标记似乎都只有一个词,慌张地写了封email问mihai,弱弱的问是不是今年的srl只用标出argument的开头,另外,predicate标记的那些末尾数字是什么意思,名词述语和动词述语的区别又不太像。虽然回信显得很富有耐心,我还是猜想mihai一定是以郁闷的心情写他的回信的:那个srl标记不是argument的开头,是中心词(head),至于末尾的数字,那是sense的编号。看了回信,急急忙忙去看官方网站的任务描述,dependencies这个词在文中到处都是,顿时想起很多年前考试,经常题目没有看清楚就匆忙答题的窘境,暴汗中。。。 好在这个时候dp已经不准备做改进了,可以专心作srl。结果鬼使神差居然用nivre算法作了大半个月的依存srl。浪费了最最宝贵的一段时间后,5月初才发现名词述语predicate和argument是同一个词的情形依然无法有效识别,而且这种情形所在比例还不小,因而不能忽略。这个不幸的原因也很简单,我实现的nivre算法只能对root标注缺省label。推倒重来后,使用直接的词对分类,这样返璞归真反而作下来了。然而所剩时间也不多了,好在5月9日发布测试数据,5月16日才需要提交测试结果,而我居然在利用这段时间做特征工程。 提交结果前,心里很没底,因为这种复合任务是第一次提出,根本没有往届的数据作指示,不知道什么范围的f-score是正常的。通过同事的关系,和哈工大的同行交换了下结果,才知道应该没事,所谓没事,就是不会垫底。我计划跑三个最终的model。第一个model在开发集上的系统总分和哈工大的结果差2个多百分点,好在他们友好的指出,我用的评估程序的版本过时了,因此实际差距没那么大。我的第二个model的差距已经在1%以下了,这也是我最终提交的model。第三个model很遗憾没有及时跑出来,它是在结果出来的那天才出来的,虽然其差距已经在0.5%以下。 周五提交的测试结果,周一晚上系统排名就出来了,不得不佩服组织者的效率。结果很意外,以微弱的差距低于第三名的srl老将ciaramita(目前在yahoo,等待微软收购中?)而排名第四,和哈工大的结果的测试集总分差距是1.2%,基本上全部是由于srl导致的,可见他们在这个领域的确有一手。但在句法依存上,综合开发集上的成绩,我的结果实际上要好些。导致我的句法依存的正式成绩拖后的是那个out-of-domain的brown测试语料。不过,这是不是恰好说我的系统有点overfitting ? 观察结果,发现了些有趣的现象。 0. 50个人报名,最后仅有23个研究小组提交结果。其中18个提交closed, 2个提交open+closed,1个提交open,2个仅提交open的srl。很佩服那两个同时提交open+closed的队伍,至少我很羡慕他们的计算服务器。他们的共同点是:提交者都是中国人。 1.关于句法依存分析:第一名的瑞典人的wsj结果总分的LAS高达90%,第二名及其之后的结果均小于88%,考虑到今年的数据需要标注复合词内部的依存,这导致句子的平均长度加大,90%这个结果很不容易。去年conll评估的英语上的最高成绩为89%(训练数据为今年的一半)。我猜测瑞典人的结果要么用了复杂的nivre组合模型,要么用到了二阶mcdonald特征,要么作了一个完美的syntactic+semantic的joint learning。无论哪种,惊人的计算量是不可少的。 2.关于句法依存分析的20个closed结果中,有7个结果,包括我,LAS在86.60-86.69%之间(浮动范围为0.1%)。如果考虑浮动范围86.0-86.9%的LAS(1.0%的浮动范围),那么能覆盖10个也就是一半的结果!这强烈说明,当然属于我的继续猜测,86.5%左右的LAS代表了某种依存句法的性能瓶颈。 3.如果我没有记错,本次的conll是首次成功引入open test的SRL,之所以是首次,是因为往届的SRL评测从未得到过响应。:( 不过,虽然理论上open性能应该高于closed性能, 本次open test的结果普遍差于closed test的结果,最好的open总分 的成绩排在closed第7名的位置,最好的单独的open的srl的成绩排在closed的srl第4名的位置(比我的closed srl的成绩恰好高0.01%, :-)) 。而且,完整的open test,包括dp+srl只有三个参与者,另外有两个参与者仅仅参加了srl部分的open test(可能他们无力开发依存句法分析器)。Open测试的语料和closed 不同的地方在于,它额外提供了命名实体标记,ciaramita的supersense标记,以及nivre的maltparser的依存句法输出。有两位选手,同时参与了open 和closed测试,其中dfki的open总分轻微好于closed总分,另外一个则是open总分<closed总分。有意思的是,他们的open dp成绩和closed dp成绩都是一样的, 不管是增长还是减少, open和closed总分差距均来自srl部分. 虽然组织者声称他们在用一个state-of-the-art的parser,考虑到srl的效果非常依赖于句法依存的输出,这个关于open test的负面结果让我怀疑这个用于open测试的maltparser其实不会好于大多数参赛者自己开发的依存句法分析器, 还有一个因素就是, 目前句法语义分析的联合学习还处于比较低的水平, 参加者普遍不能有效的综合两者的输出。 4.前所未有地,这次有6个国内研究团队(包括我)参与了本次conll评估,如果我没记错,即使加上港澳台,最近4届参与的国内队伍从未超过3个。这次参加的国内队伍包括:哈工大、哈工大深圳研究院、北大,中科大,苏州大学,以及我。苏州大学参加的是open test,哈工大深圳研究院同时参加了open+closed,其他的都是只参加closed test。 March 08 以色列纪行-2月19日今天继续开会。议程平淡无奇。倒是我从30层的高楼上观察到海法天气的一个有趣的现象:天空经常非常厚重的乌云散布而不是密布,太阳在云层中穿行,结果就是经常出现一些光柱照向大地,形成一些地方阴暗,一些地方特别明亮的情形。从其他的地方看过去,似有神圣的天启之光照耀。这种情形我在去耶路撒冷的路上又看到多很多次,光柱从天空中照下,把山上的一些地方照得特别明亮。我冒昧的把这个地方的宗教起源和宗教热忱部分的归因于这种独特的天气现象。 下午临近结束的时候,我们觉得无聊,和曹一起去大楼地下的一个名为Reuben and Edith Hecht的小博物馆参观了下。碰巧见到了John,他居然也在那里饶有兴致的参观。博物馆是由Dr. Reuben Hecht在1984年捐出他的考古文物藏品而建立的,博物馆名以他和他妻子的名字命名。主要的文物包括从红铜时代到罗马拜占庭时代的以色列土地上出土的一些文物。另外还有些Dr. Hecht收藏的一些名画,包括莫奈、毕加索等大师的作品。Dr. Hecht后来是一家位于海法的公司的创始人,还是海法大学董事会的创始成员。 博物馆很小,仅有两层,但是文物都很精致漂亮。由于Dr. Hecht本人毫不掩饰自己的犹太复国主义者的立场,因此这些文物大都是关于犹太人的早期文化生活历史的。主要的藏品是一些生活器具以及艺术品。在一楼的一角甚至根据出土的状态,复制了关于腓尼基(Phoenician)人石刻的发掘现场。在一楼的另外一角,有一个出土的古代的黑色帆船的巨大展品。在二楼一角,通过类似卫星图片的风格,展示了从古至今,死海不断萎缩的历史。在旁边,精细的复制了一个古代风格的茅草屋。转过弯,就是画廊了,但是因为要赶回去的大巴,我们没有看就退了出来。 晚上回到旅馆的时候,John建议出去找个地方吃饭,被一天冰冷的食品弄得很不舒服的我答应了。另外有三个老外一起去,其中一个白胡子老者不知道国籍,另外两个一个是腼腆的芬兰人,一个是豪爽的讲法语的比利时人(比利时现在正在闹分裂,据说讲法语的和荷兰语的居民互相看不惯)。餐馆是一家生意好得很的亚洲风味的小面馆,名为Giraffe,离旅馆不远,两个街区的样子。我第二次去的时候,甚至注意到两个厨师说的是某种中国南方方言。餐馆门口始终有一个保安,不时要求带有小包的客人开包检查。进去后我们找了个地方坐下。来了个法国风格的mm招待我们。我要了个海鲜炒饭和一杯热苹果汁,总共63.5谢克尔。 味道还是不错的,特别是热的果汁在这个时候喝起来特别可口。大家在一起瞎聊。最开始大家都狠狠抱怨了一下以色列的入境安检如何变态,John提到他甚至被要求出示作报告的ppt文件,仅仅由于边防检查员手边没有合适的计算机作罢。最后大家总结,they are too nervous。大部分时间都在听豪爽的比利时人吹牛,以及john讲述他在北欧作交换学生的经历。最后结账的时候,除了john,他要单独结账用于报销,我收集了三个老外的谢克尔,用我的信用卡一次付掉。由于老外坚持,我们所有人支付了10%的小费。此外,饭店还要求每个人支付1.5谢克尔的保安费。算下来,4个人为了每个人的面条或者是米饭花掉了330谢克尔,大约660港币的样子。 以色列纪行-2月18日-CICLing早晨吃饭的时候又一次碰到了老朋友,在日本nict工作的曹海龙,他们一行三人前天半夜就到了,已经参加了昨天白天的以色列北部之旅。餐厅的大玻璃正对地中海的东部海岸。因为旅馆在山顶上,虽然餐厅在一楼,但是视野很好,可以轻松看到海上的帆船。 吃完早饭一起坐会务组提供的大巴去海法大学的会场。 大巴在海边的山路上上下下,很快到了另外一个山头的海法大学校园。会场所在地是山上的一座高楼,我们在三十楼的一个小会议室开会,所以很容易俯瞰整个海法城。海法建立在一个北部和西部朝海的海边高地(Carmel山脉)上。 大学在这座山的南部,由于城市发展,山脚东部和北部都已经发展为城区,就是我在旅馆能够看到的那个繁荣的港湾。 整个会议只有一个session,既然工作的会期长达4天,除了少数poster,大家都有机会发言。最开始是Shuly Wintner发言,他致欢迎词。然后似乎是一个海法大学的某个重要人物,介绍了下海法大学的情况。最后是Alexander Gelbukh,大致介绍了会议的情况,同时鼓励大家多了解下以色列这个国家,如果你对它原来存有偏见的话。 他的俄式英语听起来真得很痛苦,虽然他说得很清晰,速度很慢。从长相上看,Alexander是一个典型的俄国人长相,个个高高,稍微有点发福,一头卷发,大而浓密的络腮胡子。听到他这么发言,当时我就猜Alexander就是一个犹太人。后来周五晚上的宴会上恰好和我坐在一起,果然证实了这一点。 三个组织者的发言完毕,马上开始一个keynote报告,报告者来自卡耐基梅隆大学的Alon Lavie,我还是觉得这也是一个犹太名字,不过没有机会证实。他的报告是关于机器翻译的,依据我这个外行的水准判断,我认为他们的方法的新意有限,而且结果一般。 coffee break提供的咖啡粉有两种,而且都要自己调配,加牛奶和糖,所以居然每次都要排队才能拿到。我尝了下,味道很不错。午餐由会务组提供,包括一些蔬菜和水果沙拉,主食是一块金枪鱼三明治,冰冷并且不好吃。在会场我还碰到了在MIT读博士的John Lee,原来在MSRA就认识的,他也抱怨这个三明治很难吃。 会场提供wifi,只要随便填写一个email地址就能登录使用。唯一的麻烦是插电口不足,我数了下,会场内总共只有三个取电口,而且很快就被捷足先登者占用了,其他人只好用自己的电池(后来的几天就出现很多人抢着上楼来抢取电口的情况了)。由于我昨天来的时候待机耗尽了电力,所以必须充电才能用。幸运的是,我在会场门外的走廊发现了一个插口。我一个人坐在那里用机器的时候,Shuly很兴奋得跑过来,问我的机器是不是华硕的eeePC,还说他给他儿子买了一台,不知道什么时候能够送到。然后说这台机器太可爱了云云。真没想到华硕的这个产品的知名度这么高。 由于楼层很高,三面走廊外侧的玻璃的视野很不错。很多人,自然包括我都纷纷掏出相机,到处拍照。临近中午的时候,突然起了大雾,我在休息时间出来的时候,惊讶的发现,早上来的时候阳光明媚,现在居然在30楼的空中,看不到任何东西了。浓密的大雾遮盖了一切。又过了段时间,能够看到雾气飘过地面,才开始慢慢显现出远处地面风光。直到下午3点的样子雾气才消散得差不多。 下午4点开始poster session,会场在另外一个大楼的6层。出门过马路的时候,猛然发现气温很低,而且略微有点小雨,风也很大。顿时觉得凉飕飕的。Poster session和一个非正式的招待会同时举行,大家可以边喝饮料,吃点心,边观看各个poster。会场我发现了这次Conll share task的组织者Mihai Surdeanu,他也是一个poster作者。我问了些他的SRL工作上的一些问题,同时顺便跟他抱怨我的注册申请迄今为止没有收到确认。他拿笔记下我的名字,说会马上给我回复的。 在北京时间2月19日凌晨一点(当地时间2月18日晚上7点),Alon主持的special event结束后我们得以坐车回到旅馆。由于北京时间今天早上6点才到,我实在困得不行,回到旅馆后几乎是倒头就睡。 以色列纪行-2月17日-从香港到海法 以色列纪行-2月17日 我的航班是下午将近4点,以色列航空的直达航班到特拉维夫。因为目的地海法没有机场,给一个30万人口的小城市配备一个国际机场当然比较奢侈。 本来我提前了两个半小时到达香港机场,结果办理登机前,以色列人居然要求飞机起飞前1个半小时到达登机口。我立即手忙脚乱起来。作为非以色列公民的待遇,护照机票都要被复印。两个以色列航空的保安在登机手续办理点前面搭起两张桌子,专门负责给非以色列公民问话,确认行李无恙才能让你办理登机手续。轮到我的是一个以色列小mm,问了堆诸如行李在哪里打包的,谁打包的,路上来的时候有没有其他人给你塞东西,有没有匕首枪支等等。还有你去以色列干吗这样甚至被以色列领事馆的保安问了好几遍的问题。我自然不是心怀不轨的恐怖分子,所以顺利过关。 mm还特意叮嘱,办完登机手续后直接去登机口,不要接受任何其他人的东西。办完手续,出境,安检,然后急急忙忙往登机口跑。居然赶在要求的时间到达45号登机口了。 我坐了会,然后那个在登机台前问话的mm又过来了,告诉我去登机口另外一边坐着等待接受检查。一个帅哥和另外一个mm拿着类似金属探测器之类的东西把我抱里面的手机,笔记本仔仔细细摸了个遍。然后放行。这时候我才注意到以色列公民已经排了长长的一队在登机了。不过外国人比较少,虽然被特别照顾,还是比大多数以色列人先上飞机。 12小时的飞行虽然很累,但一路无话。空勤的帅哥美女各占一半吧。飞机上的主食是一种很软的面包,蛮好吃的。唯一奇怪的是飞行路线。飞机先在中国境内往北飞到甘肃,绕过青藏高原,然后新疆出境,在中亚的哈萨克斯坦的中部飞行,越过里海中部,翻越高加索山脉,开始转向南,进入土耳其,在土耳其的中部进入地中海,然后从地中海由西向东进入以色列。这样显然绕了个圈。实际上12小时足以从日本飞到法国,如果不绕圈的话。以色列航空的这个飞行路线绕开了所有不喜欢以色列的国家,包括7个海湾阿拉伯国家,约旦,还有以色列的死敌,伊朗,这些都是直线联结香港和以色列路线上的国家。后来听说,这些国家压根不允许以色列飞机飞越它们的领空。 飞机在当地时间晚上10点,北京时间18日4点,降落于特拉维夫的本古里安国际机场(对我来说,今天是今年最长的一天)。该机场以以色列的首任总理命名。特拉维夫有两个机场,另外一个机场主要负责国内航线,据说有合并两个机场的功能到这个国际机场的计划。 虽然我没有机场地图,直觉上我觉得整个建筑的结构比较简单,应该是两个过道连接两个大楼。穿过长长的一个过道通往入境检查点(以色列人的英文标识是passport control),这个国道是向上的,和向下的登机过道正好相邻。如果从侧面看,这两个走廊应该凑成一个扁扁长长的X型。 可能是出于安全方面的考虑,不像其他国家,特拉维夫机场的边检处是大厅里面一排哨岗式样的小屋,大约有10来个。每个小屋占一个三角形的地面,斜对前方的长边的那一侧呈阶梯形露出3-4个办理窗口。给我办理的又是一个女士,可以想见以色列的妇女就业率还是很高的。继续问了堆来干嘛,住哪里,呆多久的问题,遂放我过关。 略过海关,第一件事情是兑换以色列货币谢克尔。我问过深圳香港的好几个银行以及兑换点,都没有这种货币,所以只好到这里来接受机场的不友好价格了。给我办理兑换的还是个mm(继续验证关于妇女就业率很高的理论),很快就按照1500港币兑640谢克尔的不友好价格给我进行了兑换。 离开机场大厅的时候,我看到一个彪形大汉站在门口,问我要不要出租车,我说不要,往门外走去,他还在后边喊,很便宜的。出去后是一排排的车道,我拿出打印的CICLing会务组发给我们的本地信息,跟一个到处招人的司机谈了谈,说我要去海法,他把我拉到一个小巴旁边,原来这就是所谓的shared taxi,以色列人叫sherut。不过我不是很放心,我从车前方探头看了下,发现没有开车灯的车内已经默默坐了7-8个人了。我问了下价格,司机说54谢克尔,然后又去拉人,看来是要凑齐人数才会开车。我最后还是上了车,坐下最后一排。我又找坐我前面的人确认了下。结果坐我坐前方的一位年轻女士插话说,她也是CICLing开会的,说这车没问题,原来她看到我拿的那张纸上打印的CICLing标志了。 很快凑齐10人,司机开车出发。司机同时负责收钱,以色列的司机同时是售票员,在驾驶座的右侧都有一个专门的打票机,同时也可以自动的找零钱。大约过了70分钟,车绕阿绕的似乎上了山,然后在一个明亮的门前停下。我们的目的地Dan Panorama Hotel, Haifa就到了,此时已经当地时间半夜,北京时间18日早上6点多。前台小姐在完成登记后把CICLing发的包同时也交给我们。这似乎是我经历过的最有效率的会议登记方式了。我的房间在13楼,推开窗户正好看到海法半夜的海湾。到处灯火,景色还是很好的。 February 13 基于字标注的语料学习:最大熵方法回顾摘要:最大熵方法,特别是最大熵Markov模型,很大程度上启发了流行的串标注框架CRF。然而在一个一致的环境中比较这两种方法的性能差异还是一个有趣的工作。特别是在中文标注语料学习中,这种比较还未见报道。在两个领域,分词和命名实体识别上,本文的经验比较说明在适当的解码条件下,最大熵方法可以取得和crf接近的性能。 1。背景 在字标注的中文语料学习中, 最大熵和CRF获得了广泛的应用. 由于追求更高的性能的需求, 最近有利用CRF取代MaxEnt的趋势. 然而, MaxEnt方法在训练效能上的优势始终存在. 因此,标注学习领域依然有MaxEnt方法存在的空间.本文考察并比较了最大熵及其变体以及CRF在字标注学习上的性能. 最大熵(maxent)是一个分类器。原则上说,不适合结构化学习。因此,一般要用两个技巧来使其适应结构化学习的需要。以串标注为例。 1.1规则空间解码 考虑maxent对于一个未知串中的第k个样本c_k给出分类预测的概率分布p_ki, i=1,2,...,n,分别对应于标记L_i。且 \sum_i{p_ki}=1 同时,我们考虑两类规则约束。 第一类是词典约束,例如,对于c_k,{L_i}的某个子集才是可以考虑的标记空间。在这种情形,对于c_k的标注,我们选取L_i,其p_ki在可选的标记空间是最大的。在这种约束下的解码本质上还是分类问题,因为没有考虑上下文。 第二类约束是状态转移约束。这种约束,可以表达为c_{k-n},c_{k-n+1},...,c_{k-1}标注为L_{k-n},...,L_{k-1},则c_k必须标注为L_k。因此这种类型的解码是要寻求 max_{状态转移约束}\pi_k p_{ki} 通常这个最大联合概率可以通过标准的viterbi解码算法获得解码序列。 这两类约束条件均可通过搜集训练语料中的信息获得。 1.2 最大熵Markov模型(MEMM)[1] 将最大熵和HMM结合起来是一个直观的想法。MEMM在训练和MaxEnt一致,区别仅仅在于解码的时候需要考虑激活特征所包含的状态转移条件约束。解码算法也类似于状态转移约束下的MaxEnt解码。 2。实验 2.1 语料 分词:bakeoff-4的CTB切分语料 Bakeoff-1和Bakeoff-2的CityU切分语料 选择bakeoff-4的CTB语料的原因是Xue Nianwen在[2]中用的也是ctb语料进行评估.我们假定同样来源的语料保持一致的统计机器学习特性.选择两个CityU语料的原因是它们是唯一一种在bakeoff-1,2上都出现,并且训练集发生改变的语料.此外,Xue在CityU-2003上报告了结果[3]. Low et al.在CityU-2005上报告了结果[4]. NER: Bakeoff-3的MSRA语料 2.2实验设置 实验表明,抽取自训练语料的词典约束对于性能没有帮助.因此不在这个设置下进行比较. 对于状态转移规则,只考虑一阶状态转移.同时额外考虑两种串开始和结束约束.第一种,串起始限制,包含所有那些出现在串头的标记.第二种,串结束限制,包含所有那些出现在串尾的标记.所有这些规则均自动地收集自相应的训练语料. 标注集 分词,分别使用4词位和6词位标注集 ngram特征模板 5字窗口模板:C_i,i=-2,-1,0,1,2; C_iC_{i+1},i=-2,-1,0,1,以及C_{-1}C_1 3字窗口模板:C_i,i=-1,0,1; C_iC_{i+1},i=-1,0,以及C_{-1}C_1 NER 6词位标注集 ngram特征模板仅使用3字窗口模板 在MEMM中,状态转移特征将分别考虑1阶和2阶特征,即,t_{-1}和t_{-2}t_{-1}. 性能评估一律为f-score. 2.3实验结果 ================================================================================================ 分词: ------------------------------------------------------------------------------------------------ CTB4 MaxEnt 4-tag+5字窗口 0.9386(字分类) 0.9496(状态转移约束下解码) 4-tag+3字窗口 0.9288(字分类) 0.9507(状态转移约束下解码) 6-tag+5字窗口 0.9396(字分类) 0.9496(状态转移约束下解码) 6-tag+3字窗口 0.9291(字分类) 0.9505(状态转移约束下解码) MEMM 4-tag+5字窗口 0.9386(+1阶状态转移特征) 0.9391(+2阶状态转移特征) 4-tag+3字窗口 0.9231(+1阶状态转移特征) 0.9241(+2阶状态转移特征) 6-tag+5字窗口 0.9384(+1阶状态转移特征) 0.9384(+2阶状态转移特征) 6-tag+3字窗口 0.9236(+1阶状态转移特征) 0.9235(+2阶状态转移特征) MEMM 下面附加状态转移约束解码不会导致性能发生改变. 使用CRF,6-tag+3字窗口,1阶状态转移特征,性能0.953.MaxEnt下面给出的最优结果大致差0.002 ------------------------------------------------------------------------------------------------ CityU-2003 4-tag+5字窗口 0.9278(MaxEnt字分类) 0.9423(MaxEnt字分类+状态转移约束下解码) 0.9255(MEMM,order-1) 0.9263(MEMM,order-2) 6-tag+3字窗口 0.9189(MaxEnt字分类) 0.9456(MaxEnt字分类+状态转移约束下解码) 0.9147(MEMM,order-1) 0.9143(MEMM,order-2) Xue在[3]中使用 4-tag+5字窗口的order-2 MEMM给出的结果0.9143.需要说明的是,[3]中Xue使用了两个MEMM分别完成正向和逆向的串解码.同时他使用一个TBL方法来校正非法的标注序列。和CRF一样,MEMM其实不会给出非法的标记串序列,除非训练集本身包含错误。至于Xue的结果比我差的原因,我认为可能是他的训练参数未达到最优。 使用CRF,6-tag+3字窗口,1阶状态转移特征,性能0.9473.MaxEnt下面给出的最优结果大致差0.002. ------------------------------------------------------------------------------------------------ CityU-2005 4-tag+5字窗口 0.9318(MaxEnt字分类) 0.9466(MaxEnt字分类+状态转移约束下解码) 0.9333(MEMM,order-1) 0.9322(MEMM,order-2) +字符类别特征 0.9422(MaxEnt字分类) 0.9550(MaxEnt字分类+状态转移约束下解码) 6-tag+3字窗口 0.9168(MaxEnt字分类) 0.9469(MaxEnt字分类+状态转移约束下解码) 0.9132(MEMM,order-1) 0.9154(MEMM,order-2) +字符类别特征 0.9281(MaxEnt字分类) 0.9520(MaxEnt字分类+状态转移约束下解码) Low et al.在[4]中使用 4-tag+5字窗口的(MaxEnt字分类+状态转移约束下解码+字符类别特征)给出的结果0.950. 使用CRF,6-tag+3字窗口,1阶状态转移特征,性能0.9476,加入字符类别特征后,0.9563。 ================================================================================================ NER MSRA-2005 6-tag+3字窗口 0.6617(MaxEnt字分类) 0.8313(MaxEnt字分类+状态转移约束下解码) 0.7170(MEMM,order-1) 0.7186(MEMM,order-1,+状态转移约束下解码) 0.7234(MEMM,order-2) 使用CRF,6-tag+3字窗口,1阶状态转移特征,性能0.8528. ================================================================================================ 3.结论 3.1 和期望的一样,MEMM优于完全基于分类器思想的MaxEnt,高阶的MEMM由于较低阶的MEMM. 然而,在字标注学习中(我谨慎的把下面的结论放在这个前提下),MEMM不敌MaxEnt+状态转移约束解码. MaxEnt+状态转移约束解码相比纯粹的MaxEnt算法, 性能上带来戏剧性的增长. 注意到由于2阶MEMM有时候轻微的好于1阶MEMM. Xue最开始可能被2阶MEMM的性能所误导. 这导致他虽然第一个吃到苹果,但不是吃得最多的人. 3.2 MaxEnt+状态转移约束解码轻微的弱于CRF(f-score性能差在分词上是0.002,在NER上0.02).但是,通常,前者的训练时间是后者的1/5-1/10. 参考文献 [1] Andrew Mccallum, Dayne Freitag, Fernando Pereira, Maximum Entropy Markov Models for Information Extraction and Segmentation, In Proceedings of the 7th International Conference on Machine Learning (ICML 2000): 591--598. [2] Nianwen Xue. 2003. Chinese Word Segmentation as Character Tagging. International Journal of Computational Linguistics and Chinese Language Processing, 8(1):29-48. [3] Nianwen Xue and Libin Shen. 2003. Chinese Word Segmentation as LMR Tagging, In Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL'03. Sapporo, Japan. [4] Low, Jin Kiat, & Ng, Hwee Tou, & Guo, Wenyuan (2005). A Maximum Entropy Approach to Chinese Word Segmentation. Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing. (pp. 161-164). Jeju Island, Korea. 本文的增强版本已经投杂志. February 01 Stallman征婚了-ztCraigslist是全球最大和最早的分类广告网站,近日有人发现开源软件运动的领军人物Richard Stallman在其上发布了一则征婚启事: “本人是单身白人无神论者,54岁,众所周知地聪明,非同寻常地热衷于政治、科学、音乐和跳舞。 希望寻找一位兴趣广泛、对世界充满好奇、性格直爽爱憎分明(我讨厌猜来猜去)的温柔女性,能把乐趣、真理、美和正义看得比“成就”更重要......我花费很多时间在欧洲、亚洲和拉美演讲,如果能有时间与我一同旅行就最好不过了。” 同时RMS还附上了自己的照片。 本贴来源 http://news.mydrivers.com/1/99/99243.htm 评论:Stallman还是蛮谦虚的。 January 29 Encoding unsupervised segmentation features into CRF learningi found somebody is not clear how to integrate word-level information discovered by unsupervised segmentation in a character-level supervised learning system, even though i try my best to give a detailed description in my bakeoff-4 report. To explain how my method works actually, i copy a segmentation from the input file for crf++ training and test. 上 11-S 8-B 0 5-B 0 0 0 B 海 10-S 8-E 0 5-D 0 0 0 E 浦 6-S 6-B 4-B 5-F 0 0 0 B 东 9-S 6-E 4-D 5-E 0 0 0 E 开 10-S 8-B 4-E 4-F 0 0 0 B 发 10-S 8-E 4-D 4-E 0 0 0 E 与 11-S 3-E 4-E 0 3-B 0 0 S 法 10-S 5-B 0 4-B 3-D 0 0 B 制 10-S 5-E 3-B 4-D 3-F 0 0 E 建 9-S 9-B 3-D 4-F 3-M 0 0 B 设 9-S 9-E 3-E 4-E 3-E 0 0 E 同 10-S 5-B 3-E 0 0 0 0 B 步 8-S 5-E 0 0 0 0 0 E each column between the first column and the last one is av feature with word candidate length 1-7, respectively. as for values, for example, 10-B, this means av value of this substring with the character as head is between 2^9-2^10. the maximal value will be chosen as what i described in our paper. for example, the character 制 may get 3-B and 5-E among the context, but 5>3, so 5-E tag as feature is chosen. More details can be found in Hai Zhao and Chunyu Kit, Unsupervised Segmentation Helps Supervised Learning of Character Tagging for Word Segmentation and Named Entity Recognition, The Sixth SIGHAN Workshop on Chinese Language Processing (SIGHAN-6), pp.106-111, Hyderabad, India, January 11-12, 2008 url: http://bcmi.sjtu.edu.cn/~zhaohai/pubs/WSNER-SIGHAN-6-zh.pdf January 28 印度之行小结论文总是要写个conclusion的,所以想了想,还是写下前面流水账想说没有合适的地方说的话。 印度人:总的来说,印度人是友好的,至少,对于能让他们赚钱的外国人是友好的。我所见到的大多数印度人天性乐观,性格平和,以至于有人说他们的男人都已经女性化了。不知道是不是非暴力运动的传统过头了,但是我想关键因素可能是因为印度的宗教传统。这使得印度人并不崇尚暴力,当然也许极端宗教主义者我没有遇到。印度我是我曾经去过的安全感最为强烈的地方。一路上从南到北看不到斗殴,甚至看不到吵架。整个社会平静而安宁。某种意义上说,印度现在已经是和谐社会了。:)但印度人肯定不属于纯朴的或者坦率的谈判对手,恰好相反,他们享受于赚快钱的乐趣。这种实用主义使得他们在面对外国人的时候经常一时侥幸而获益,也使得他们缺乏战略眼光而失去更多的机会。好在印度人大多表现得知足常乐,男女老少可以无所顾忌并且不分场合的向你乞讨,但你要是坚持不给,他们也不会烦恼更多。印度人大多黝黑,肤色似乎介于黑人和白人之间,我相信他们应该是早期的白人和印度黑人土著长期混血形成的。这种典型的印度人北部更多些。在印度南部,皮肤几乎完全黑色,但是又具有某些东南亚土著的脸部特征的人明显比北部多。印度人内部的种族和宗教之间的差异恐怕很容易从衣着上看出来。简单来说,在印度,你穿任何衣服,都不会有人惊讶。锡克教的头巾,印地人的纱丽,穆斯林的黑衣长袍可以和自然的混合在大街上川流不息。总的来说,由于印度常年气温很高,使得印度人的传统穿着显得飘逸洒脱,无论男女,很多人喜欢裹着围巾毛毯或是长袍。我去的时候算是冬季,但是即使是印度人觉得寒冷的北印度,我并不觉得比香港冷多少,至于海得拉巴这样的中南部地区,在我看来,它的冬季完全是一种夏天的架势。然而,正是这种长年高温,恐怕也使得印度人抵抗严寒的能力大大降低了吧。 印度国家:自由散漫的民族天性导致的印度国家是一个无序的社会,尽管今天的印度中央政府可能是有史以来最为强大,统治面积史无前例的。虽然和低水平的经济发展关联,但印度的基础建设的无序以及公共设施以及配套服务的缺乏还是让人震惊。如果要用一句话来说,整个印度就像一个巨大的连绵的乡村。尽管像任何其他国家一样,印度也存在高端的服务设施,但是性价比非常低。每个社会,无论穷富,都多少有些高端低端的链条,富裕的发达的社会对于落后的社会的优势仅仅在于,它能够让更多的人享受更加高端的服务。整个印度的发展从整体上讲,不幸的,大都处于一种低水平上自娱自乐。最糟糕的是,政府的管制和规划作用无法感受到。从城市建设布局和交通管制,印度人大都满足于无政府状态的快乐。IJCNLP发给参会者的指南上就明确说,海得拉巴的公共交通是靠不住的,大家应该选择出租车(问题是非常昂贵,无论以印度价格还是国际价格)去会场。唯一的强力部门可能表现在一些关键的旅游景点甚至商场的安检上,滑稽的是,这些安检措施的确通常非常严格,可以媲美机场的安全检查,但是它的负责人员往往很晚才来上班,而且通常仅仅守住众多入口中的一个。 语言:英语自然是印度的骄傲,也是它的优势,当然前提是地球上最强大的国家的官方语言永远是英语。但是英语的优势似乎有南北的差异。印度南部的英语明显比北部差很多,比如,我很难听懂海得拉巴人的英语,但是印度北部的英语就好很多,他们的发音规范得多,口音少得多。我们在海得拉巴的出租车司机经常要找人翻译我们的英语和当地的泰卢固语,但是北印度,无论是德里还是阿格拉这样的小镇,无论是刚上学的儿童,还是一个普通的auto司机,用英语的交流不存在任何障碍。不过滑稽的是,在北部印度,印地语的广告招牌非常多,也非常明显,几乎有超过英语告示牌的趋势,特别是在德里。然而在海得拉巴这样的印度中南部,几乎所有的室外广告都是英语的,甚至连当地的官方语言泰卢固语的广告都非常罕见,至于印地语的招牌则几乎没有。这多少反映了印度持续的南北差异的事实。英语某种意义上成了维护国家统一的一种纽带。尽管印地语是一半的印度人口(大多在北部)的母语,它可能还是在被南印度所持续抵制。印地语和英语作为印度的国家语言本来是印度独立后的临时安排,稍后英语应该是退出,但是现在看来印度南部的反对使得这一临时性安排几乎永久化了。 January 26 基于字分类的分词:最大熵方法 今天写了一个最大熵标注工具.当然也可以说是在别人的内核上改写了下接口.我使用的参数估计代码来自 http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/maxent/ 不过我把它嫁接了一个类似crf++风格的输入输出接口. 这样我就不用改写我的任何数据直接跑结果了.不过状态转移特征还没有写,因此只能做本地特征的试验了. 继续用bakeoff-4的ctb语料,根据我和钱线讨论的结果,它在6tag+6ngram下的一阶crf的学习性能的正常数据应该是0.953. 去掉状态转移特征,也就是马尔科夫特性都被忽略,那么实际上我就在用一种字分类的方法了.crf++给出的成绩是0.9313,我的最大熵的结果是0.9296.结果很接近.但是crf++训练大约跑了2个小时,而最大熵仅仅15分钟.全部使用优化的高斯先验值. 尽管薛念文用最大熵启动了基于字标注的分词方法的里程碑,但迄今为止似乎还没有严格的数据在完全一致的环境下比较到底crf比me高多少.虽然大家都相信crf要好些. 我目前的结果显示这个差距似乎仅有0.2%,但是训练代价不可同日而语. January 25 印度纪行-1月15日-重回德里早晨的火车是6点开车,估计正点10点到达新德里火车站。因此我又一次被迫5点不到就早起。交还了钥匙就算check-out了,看到街上黑乎乎的,一个人影也没有。我因此很担心找不到车去火车站了。在街上晃了晃,一个早起的路人告诉我要到6点才能有auto。我不禁暗叫ringo误我,他昨天说即使这么早,找辆车不会是个问题。我在一个路口站了会,正在想怎么办,一个auto飞奔而来。我急忙招手,驾车的是一个jack船长打扮的当地人。在无人的街头,他带着我飞奔坎特火车站而去。 火车站倒是有几个人,灯光虽然灰黄但是还算明亮。我坐的是车是Intercity Express。Ringo说这是辆不错的车,至少票价71卢比倒的确不错。不过我找到脏兮兮的车厢的时候,就知道它就只有票价还不错。和我来的车厢不同,这次我坐的是国内意义上的那种硬座车厢。唯一不同的是,国内的车厢是一边2人座,一边3人座,而印度这里的车厢是过道两侧都是3个人坐。车厢的顶上密密麻麻的安装着电风扇,粗略估计一节车厢有30个。我对面的是一对肥胖的富态母子,我的右侧是一个胖乎乎的白领mm,左边靠窗的是另外一个矮胖的白领男人。之所以说他们是白领,是因为我观察到他们衣着不凡,而且都在用高档崭新的智能手机。 列车准时启动,和来阿格拉的A.P.Express一站到达不同(当时晚点半小时),这趟车会沿途停靠。胖mm下车前,告诉我next to next stop我就可以下车了,但是实际情况是next to next至少3-4遍,我才确信回到了新德里火车站。火车在临近德里的时候,不断走走停停,以至于我根本不知道算不算严格的停车,而且印度的车厢门不是由列车员控制的,实际上,并不存在列车员这个职位,而是由任何一个乘客自由打开的,所以列车缓慢停下的时候,很多人都在铁轨旁跳下车,左右观望,一发现列车缓慢启动,大家又急匆匆爬上车。 Intercity Express晚点了近2个小时,总算负责任的到达了新德里。这时候已经快中午12点了。 新德里和德里其实是一个城市的两个部分。德里是印度的传统首都,莫卧儿帝国的大部分时间定都于此(少数时间在阿格拉)。英国政府印度后的首都长期以来是加尔各答(靠近孟加拉)。在1911年,英国人在德里以南建立新城:新德里,将印度总督驻地迁于此。印度独立后,沿用这个城市作为首都。说起来,新德里作为首都的历史不超过100年。今天的德里和新德里在地理上没有明显的界限,城区连为一体。有时候为了区分,将原来的那个德里称之为旧德里。对比新旧德里,我只能通过坐车的观感粗略比较。新德里的城市更加现代化一些,而旧德里的街道更加狭窄,很多地方保持了阿格拉那样的小镇的拥挤风格。 民以食为天,我是民,自然要找地方吃午饭。步行到老地方,康诺特广场。在看中央草地的两层楼房前站了会,和一个搭讪的年轻人聊了会天。自然是老问题,从哪里来,要到哪里去,到印度多久了。我告诉他我在找一个餐馆。他一指我身后,赫然有一个chinese restaurant。见我要进去,那人急忙说,很贵的哦。进去后,觉得装修得不错,比我昨晚去的Zee餐厅还要好。里面只有一对印度情侣和一对貌似韩国情侣在吃饭。我放下两个包,轻松的看了看菜单,果然价格不菲。我要了一盘红烧鱼块(3块鱼),一碗饭,一杯咖啡,539卢比(后面他们要小费,又签了50 卢比)。不过的确是中餐馆,鱼的调味酱味道很好,某种意义上已经捕捉到中餐的神韵了。期间,我打开我的e pc,删除了一下相机存储卡中一些多余的文件。给我服务的服务生(估计40-50岁)了表现出很感兴趣的样子,跑来问是不是笔记本,要花多少钱买之类的,还问什么配置之类的。因为卢比不足,因此我第一次在印度使用了信用卡。 我的航班是将近半夜的,所以我有半天时间去我想去的地方看看,然后从容去机场。我曾经问了那个在去阿格拉的火车上认识的小伙子和Ringo,他们一致认为在德里如果有两个地方一定要去的话,应该是红堡和Qutb Minar.这里说的红堡是德里红堡,和阿格拉红堡一样,它原来也是皇宫.我看了看地图,发现红堡靠近德里的贾玛清真寺,因此,决定坐车先去清真寺.吸取在海得拉巴和阿格拉的教训,精明的印度司机既然决不肯吃亏,我就不包车了,一段段的找司机还价好了. 第一段,40卢比的auto从康诺特广场到贾玛清真寺. 德里的贾玛清真寺要热闹得多.最重要的表现在,它的正门口是一个很大的当街农贸市场,我下车的地方就是一排排的鸡笼叫卖嘎嘎叫的禽类.本来我想进去,但是看门的警察认为我的包要存,我实在没有时间.于是在门口照了下巨大台阶上的人群以及后方的白色圆顶就离开了. 由于正门朝南,我不得绕着整个清真寺走了一圈,穿过旧德里的一堆天空密布凌乱的电线的小巷子才来到大街上. 路过一个具有独特风格的尖顶的耆那教神庙,还没有过马路,就能看到远处红堡的尖顶了.绕过一个朝西的广场,红堡的拉合尔门很奇怪的贴着墙朝北开.门口的安检居然要过x光机. 监视机器的中年妇女发现了我的笔记本. 这时候一个ppmm警察过来, 跟我说,笔记本必须存包. 我解释说, 我正在赶路,穿过红堡后我想从另外一个门离开(其实后来知道并不存在另外一个门). mm嫣然一笑说,那你一定要保证在里面不打开这个笔记本哦.我自然乐意承诺. 在高大的院墙下拐了个弯,要穿过一条城门风格的略显阴暗的步行商业街, 才能到达红堡的正门. 不过到了正门,我傻眼了,一个管理员正在一个警察的配合下查门票,我上前去问,这才知道,在拉合尔门那里卖门票.虽然我知道无数印度的景点的卖票处和入口通常多少有段距离(很多时候甚至分别在马路对面),但像这次这么远也太离谱了吧.查门票的看到了我的窘境,马上威严但是低声说100卢比.旁边的警察重复了遍.我慌忙摸出100卢比上前靠近交给管理员.他快速收好,递给我半截撕过的票让我进去了. 下了台阶,我正走向正前方的大殿,那里过去是放皇帝宝座的地方. 忽然听到后边那个警察的喊声,我本来吓了跳,以为当众行贿印度官员被人揭发了. 结果是那个警察追上来又递给我一张半截子票.虽然不知道是什么,收下总是没有坏处的. 德里红堡不同于阿格拉红堡的地方,我觉得是德里红堡的希腊式风格更加浓郁一些.而阿格拉红堡更多的是伊斯兰教风格的建筑.另外有一点就是后者可能还有军事要塞的功能,而德里红堡可能自始自终是作为皇宫.因此,德里红堡里面多是希腊风格的大殿和花园水榭.几乎所有的建筑都是一层的.除了正中间的那个大殿.那里的楼上是一个军事博物馆.文物的风格和海得拉巴的萨尔江博物馆差不多.军刀,军服,步枪等武器陈列其中.在红堡的东南角也有另外一个类似风格的博物馆. 两个博物馆都需要刚才那个警察后来追上来递给我的小票.这使得我对印度式的负责精神有了更加深入的认识. 尽管时间紧迫,由于没有其他的出口,我不得不再次原路从拉合尔门出来.找了个auto,答应100卢比送我去Qutb Minar.按照我的要求,顺路在印度门停了下,本来以为可以靠近的.结果看门的士兵说,下午两点半关门了.我只好远远拍了张逆光的照片走人. 一路无话,倒是发现印度人很善于宣传,可以看到路边长长的干道被不断重复的带有德里地铁字样的白色围墙所隔开的工地,但是地铁并不稀奇阿.Qutb Minar在新德里南部郊外,离机场并不远.门票在景区马路对面购买,外国人300卢比.虽然整个景区叫Qutb Minar,其实应该是一个以Qutb Minar为中心的宗教建筑群. 比如Minar旁边有一个荒废了的清真寺. 据传Qutb Minar是12世纪的印度的穆斯林征服者,奴隶王朝的第一位苏丹,Qutb-ud-din,为了纪念击败印度教徒而修建的尖尖塔,它现在矗立于景区中央, 基部直径14.5米,底下三层由赤砂岩建成,上边两层由赤砂岩和大理石混筑而成。塔身上镌刻着古老阿拉伯文的《古兰经》经文和花纹图案,每层花纹相异且精致。现在塔大约有70多米高的样子,本来这个塔比现在我们能看到的更高,据说原来有100米,但是由于飞机失事,撞毁了顶部, 所以只有现在这么矮了.我第一次知道由于飞机失事可以导致一个千年的古塔截枝,感觉印度式幽默真的无处不在.塔的顶部原来是可以上去的,因为经常有人从上面往下跳(想想海得拉巴的charminar那么高根本没有防护措施,我宁愿相信过去在Qutb Minar顶上,应该是游客经常失足掉下), 所以上世纪70年代就关闭了,只开放第一层. 80年代的时候又不幸发生了学生践踏事故,从那以后大家就只能外观,不能入内了. 如果把这些事情送进MBA教材, 肯定是一个疏于管理而导致服务品质和内容不断下降的典型案例. 我不禁胡思乱想, 如果在中国, 会是怎样, 说不定后人接着重建被撞毁的塔顶, 进一步把塔加高到120米, 还可能极其富有创意的扩大顶部的天台, 租出个塔顶餐厅或者辛巴克也不是不可能. 然后在塔下再收取一次上塔的门票进一步增加营收. 可惜这里是印度, 仅博一笑. 塔的东北紧挨着一个清真寺,但是已经破败.只留下一些希腊式的长廊供人凭吊.清真寺中央广场围着一个栅栏,中间供着一个竖立的铁棒.这个铁棒的历史远远高于它周围的陪衬,据说是公元4世纪的作品.可以依稀看到铁棒上1600年前的梵文.根据资料,铁棒高7米,重6吨,直径0.41米,成分中98%是熟铁。立于印度教笈多(Gupta)王朝时期。根据铭刻,此铁棒是为了纪念印度教庇护神毗斯努以及一位笈多王朝国王,同时用于天文观测.最开始,这里有一个印度教神庙。Qutb-ud-din建塔时拆了印度庙,建起清真寺,但留下了这根铁棒在其中。考古学者以及冶金学专家,对铁柱1600年以来高度的耐腐蚀能力颇感兴趣。他们将这种能力归因于铁棒其中高溶度的磷,进而由此产生的由氧化铁和磷酸盐组成的坚固的钝化层,对铁棒起到了关键性的保护作用。 在清真寺的北部还有一个巨大的基座,称之为Alai Minar.既然只有一个基座,但又称之为Minar,看来就是一个未完工的塔了.根据资料.奴隶王朝另一位统治者Ala-ud-din曾经雄心勃勃的计划建一个两倍于Qutb Minar高度的尖塔,但是估计由于技术或者财政原因在这位苏丹去世后没有完成. Qutb Minar的南部的坡后是一大片带有坡度的草坪,不时有当地的儿童在上面追打嬉戏. 全部逛完,我坐在Qutb Minar不远处的一个椅子上休息.夕阳这时候照过来,把尖塔照的略微有点发黄,断壁残垣也拉出来长长的阴影.周围很安静.我一直坐到快要天黑,这才离开. 出乎我的意料,尽管红堡到Minar的距离是Minar到国际机场的距离的两倍,但是每一个auto司机都至少要200卢比.我对这种沾了国际机场高贵的仙气的现象无可奈何.最后终于找到一个150卢比的司机愿意送我去. 由于离我起飞还有4个小时,本来我担心不让进机场的,但是居然还是被门卫批准进去了.机场的出发大厅倒是很整洁的很崭新的, 地板和天花板白得发亮, 比起到达大厅要好多了. 和我去Qutb的路上铺天盖地的德里地铁的广告一样,大厅的墙上也是不断重复写着两种标语,一种是,我们正在升级,以便更好地为您服务.另外一种是,一个世界级的机场等着您! 我对此深表怀疑. 按照中国的标准,印度人把机场当火车站来经营,把火车站当汽车站经营,至于汽车站,我怀疑他们根本就不经营. 这样怎么能有世界级. 我坐的印度航空的登机办理点单独的在大厅的一角,和所有其他公司的办理点不在一起,显示了印度政府对于自己的航空公司毫不掩饰的偏爱. 办登机手续的时候,我的机票被改了航班, 从310改成了314.而后者是去日本大阪的.后来才知道,这个飞机会在香港停下,把我们扔下后继续飞大阪. 这让我想起,上次从香港过来的印航航班也是,先在德里把我们扔下,然后继续飞孟买.印度式的规划倒是精明得很.不过从侧面也能说明印度和国外的交流的程度还不够深入. 机场大厅有好几个收费的打包机,上面都写着,每个旅客只能带一个手提行李. 我其实就两个小包,一个背包,另外一个IJCNLP发的提包有两件衣服. 办理托运实在没有意思, 我于是尝试着跟办登机的小伙子说,我还有个包,但是个空包,不知道可否带上.他让我提给他看了看, 立即准许了. 由于大厅里面没什么商店,我准备到安检区区看看能买点什么.结果证明这是一个大大的失策. 离境手续办完后,没有进入安检区之前(这一点很奇怪的,我知道的通常机场的离境办理点和安检过道连在一起的).我发现了一排商店,当然也就是这一排而已. 在那里把剩下的600鲁比买了两包茶叶,后来回去一看,有一包居然是中国产的,然后给老婆买了条106美元的Cashmere围巾.过了安检,就进入了一个拥挤的大厅.遗憾的是,里面除了一两个咖啡店,就没什么店铺了.我的临时采购计划到此为止, 剩下的时候只能静候半夜的登机了. :( January 24 印度纪行-1月14日:阿格拉 由于硬邦邦的床板,睡眠并不好,所以7点多就起来了。到楼下的餐厅用早餐,点了份吞拉鱼沙拉套餐,花去了150卢比,外加10卢比的小费。而且真个餐厅就我一个人。尽管老板以他的餐厅自豪,但是和床板一样硬邦邦的面包让我无法恭维。我晃悠晃悠出来,跟坐前台的老板聊了会天。这时候那个服务的伙计突然从老板后面的餐厅里面冲出来,问我的钥匙在哪,天哪,我猛然想起,我似乎把钥匙放在餐桌上了。我急忙跑去,钥匙找不到了,急忙回到前台左右看。这时候那个伙计变魔术一样的从身后掏出了我的钥匙。我这才知道他跟我开了个玩笑,我应该是把钥匙拉在餐桌上了。作为感谢,我又掏了20卢比给你。 吃完早餐第一件事情,就是要去兑换美元。我问了下老板,兑换点要街道拐弯才能找到。我慢悠悠走过清晨的阿格拉街道,感觉就像一个破败的国内小镇。印度人似乎起床都很晚,尽管已近8点,街上基本没什么人也没有什么车,甚至连auto都没有几个。在兑换点,拥有两名店员,也许是两名老板,的兑换店按照1美元37卢比的价格跟我进行了兑换,这比官方价格低了3卢比,最后交给我的时候,又得意洋洋的宣布扣去100卢比的手续费,真是ft。遵循陆老师的建议,我找了个auto,要他们带我去阿格拉红堡,路过maya旅馆的时候捎带停下让我把明天的房费交掉。在去红堡的路上,两位司机(不知道为什么司机旁边还要坐个伙计)建议我雇他们一整天,收费300卢比,最后我还价到200卢比成交。我到达红堡的时候还很早,早到负责安检的警察还没有上班,好在卖票的上班了,门票300卢比。 跨过两重很高的城门,再走过长长的一段斜坡,就进入红堡前的一个广场了。但是我没有停留,继续穿过第三重城门,进入正式的广场,这个广场有点像故宫前的广场,只是规模小很多。红堡是阿格拉作为莫卧儿帝国首都期间的皇宫。红堡,顾名思义,几乎所有的主体建筑都是红色的。例外也有,红堡北部清真寺风格的圆顶就是白色的,估计那里应该是红堡的核心地带。但是在这个内广场的北部,一个铁栅栏封锁了去那里的路口。一群工人在那里进进出出,印度人宣布里面在施工,所以现在处于关闭状态。唯一值得一提的是红堡的东部靠近亚穆拉河的建筑群。 亚穆拉河流经德里和阿格拉两个城市。由于一代雄主阿克巴没有儿子,最后在阿格拉找到了他宣布为继承人的那个男孩,他迁都阿格拉作为庆贺。那个男孩,就是建立了泰姬陵的沙贾汗的父亲贾汗吉尔。阿格拉红堡很大程度上记录了这三个著名的莫卧儿皇帝的历史。贾汗吉尔一度背叛阿克巴,但终获原谅。沙贾汗重复了他父亲的历史并进一步登峰造极,经历了若干场宫廷战争才击败他父亲娶的那位野心勃勃的皇后而获得帝位。沙贾汗显然是一个建筑艺术爱好者。红砂岩(作为城墙)和大理石(作为主要的宫殿)构成了红堡的主要建筑材料。 著名的八角堡楼在红堡的东部。沙贾汗晚年重病后,四个儿子为了皇位发动内战。野心勃勃富有才干的三儿子奥朗则布最终获胜。他杀光了自己的兄弟,把自己的父亲囚禁在八角堡楼里。在红堡东部任何一个可以东望的平台或者窗口,都可以看到泰姬陵。由于是早上逆光,只能看到熟悉的泰姬陵的黑影。可以想象,老皇帝就是在这里,在遥望泰姬陵的孤独中度过9年,然后黯然去世的。 离开红堡,我转向贾玛清真寺。我在清真寺门口下面的台阶徘徊的时候,被一个老者看到,他热情地跟我招手,要我上去。我上去后脱鞋,就走入一个广场,三面环绕着很高的红墙,清真寺里面应该是不能进去的。老者带着我在广场走了圈。介绍了清真寺大致的情景,特别让我留意进入祈祷的大门的穹顶上密密麻麻的蜂巢。自然,问了我从哪里来,我说中国,然后他就提到中印两国人民的友谊。我很感动这里还有中印友好人士。于是他顺势掏出一张纸,上面写着这个名义那个名义,但是英文语法不通,没看明白,后面我看懂了,是一堆卢比的数量。看来不破财不行了。那张纸上最小的是300卢比。虽然我不知道我为什么要付钱,我还是糊里糊涂的问,50卢比如何,老者居然很愉快地答应了。我递给他,他利索的塞入自己的衣服内层,熟练的说了句谢谢。我继续往前走,发现老者已经没有跟来了,一个人在后边的穹顶下面抬头仰望。出来的时候,给看鞋的,也许只是恰好在我出来的时候赶到我鞋子旁边的那个人,10卢比,旁边的乞丐10卢比。 放血出来,我跟司机说,我要去阿格拉坎特火车站买明天的车票。阿格拉有两个火车站,一个叫红堡,一个叫坎特,昨天我就是从坎特火车站抵达阿格拉的。相对来说,坎特也是一个更大些,车更多的火车站。两位司机极力怂恿我就在贾玛清真寺旁边的红堡火车站买票。我想了想,就同意了。红堡火车站也有一个外国人窗口。而且即使包括印度人,买票的人很少。我前面那个买票的是个日本人,轮到我的时候,卖票的大叔又习惯的用日语问了下好,我不得不纠正说我来自中国。不过他很遗憾的告诉我,这里没有我要求的在早晨到德里的车次,如果我坚持的话,必须去坎特火车站买。 我出来后告诉司机。两位司机比较沮丧,不过很快他们又出了个主意,劝说我去一个附近的火车票代理处。也不管我同意不同意,他们直接拉我到那里。没有办法,我告诉他们,如果手续费太贵,我还是要去坎特火车站的。果然,141卢比的车票居然要100卢比的手续费。我自然拒绝了。现在才11点不到,我有的是时间。没有办法,两位司机只好把我拉到坎特火车站。这个火车站离红堡和泰姬陵都很远。我估计司机们的心,不,钱包,在流血。 坎特火车站乱糟糟的。在专门的外国人售票窗口一群老印们也在那里凑热闹,全然不顾国际友好。我注意到一对日本情侣排在我前面买票回德里,不过他们是今天晚上的车,不像我是明天早上。搭上话后,我知道,男生叫Ringo,女生叫Mary。Ringo似乎很熟悉这里,他友好的帮我选好了车次座位等级。他家就住在德里,我们互相留下了电话email(可惜后来没到德里就丢了),他让我明天到了德里跟他联系。出来后,我让他们两人坐我的auto回他们住的Khema旅馆,Khema和我的Maya一样,都在泰姬陵附近,而且非常便宜,只要150卢比。刚要上车的时候,突然跑来一个大汉握住我的肩膀, 我吓了跳, 仔细看清楚, 才发现就是昨晚送我来的那个司机, 他问我怎么没有和他联系, 我答应要租他的车的, 我很圆滑地说, 你看, 我碰我的朋友了, 所以我的计划改变了. 到了Khema旅馆,本来我安排司机继续等我,没想到司机突然向我要钱,我很惊讶。司机信口雌黄地说,200卢比只能管一个上午,如果要全天,是500卢比。我气坏了。Ringo更加生气,他告诉我,这里包车的正常价格是150卢比一天。考虑到泰姬陵就在我住的旅馆不远处,所有要远去的地方我早上已经去过了,下午我也就去看看泰姬陵了,我于是干脆给了司机200卢比让他走人。 尽管发生了这个不快,好在没有影响大家的兴致,Ringo邀请我到他们旅馆的顶楼去看泰姬陵,他说下午也要陪Mary去看泰姬陵。到了顶楼,也就是三层楼高的样子,我发现阿格拉得几乎所有房子都是在这个高度或者更矮,而白色泰姬陵就正好地平线上赫然耸立。Ringo跑下楼办事情的时候,我跟Mary聊了聊,才知道Ringo其实是印度人,不过来自和缅甸交界的曼尼普尔邦,那里居住的是和我们东方人一样的黄种人,而不像印度本土居住的那些“正常的”黝黑的印度人。Mary倒的确是一个日本人,她应该是在德里旅游的时候和Ringo结识的。难怪我会把Ringo当作日本人,他长发外加一个小帽,在长相和打扮上和典型的日本青年根本无法区别。不过,他懂六种印度语言外加英语,倒是让我叹为观止。下了楼顶,我们喝了点咖啡,我吃了碗印度式炒面,Ringo告诉我他的爱好是搜集硬币,我于是搜罗了我的包半天,但也只找到5毛人民币硬币,就很不好意思地给他了。然后我们三人就出发去泰姬陵了。 泰姬陵的外围的关键路口用铁架子围了几个安全检查的岗哨,但是警察们通常都坐在那里聊天,一般不会过问普通游客。泰姬陵的门票印度人似乎是30卢比,外国人是750卢比(饱含了500卢比的ADA票,该票用于赞助印度考古研究,当然,前提是印度的地下真的还有文物需要挖掘的话)。在买票的时候,Ringo果然遇到了麻烦,卖票的老印毫不犹豫得让他去外国人窗口去买。我看着他和卖票的用印地语争吵,把印度身份证甩到桌子上。最后,他成功的帮自己和Mary买到了印度价格的票。我自己当然只能到隔壁老老实实买外国人票了。本来我以为相机还要收费的,但是他们说相机免费,只有录像机要收费。我对这个规定感到很滑稽,难道印度人不知道现在很多相机都有录像功能。不过,倒也真的有可能,我在海得拉巴的报纸上看到的广告都是卖的廉价数码相机。在旅游景点能够看到使用相机的印度人很少。相比之下,手机的普及率倒是客观。 进门安检的时候,又遇到了麻烦,警察说我们的包太多太大,要我们去存包,我不得不把一堆纸币信用卡证件掏出来鼓鼓囊囊的塞了两个裤子口袋,然后让Ringo帮忙去存包。进入后,首先是一条横着的街道通往一道红色砂岩铸就的大门,只有那道大门才通往泰姬陵的广场。所以,泰姬陵实际上两个院落。游客只能先进入前院,才能进入正院。虽然门建设得很大,但红门的门口并不宽,所以那里的人群总是很密集。穿过那道门,就能正对白色的泰姬陵主建筑了。泰姬陵之前,有一道长长的水池用来映照白色宏伟的建筑。据说如果天气好的话,似乎能看到两个泰姬陵。不过今天显然不属于这样的好天气。 我们徐徐向前。在距离泰姬陵一半的路上,一个大约1米高的水泥台把那个长长的水池隔断,上面放了一个椅子。自然,无数的游客挤在那里合影。泰姬陵建在一个几米高的基座上,基座的四角是四个细柱拱卫。在基座前面正下面,是大家脱鞋的地方。脱鞋后,无数的光脚和袜子通过两边的台阶走上去。这时候仰望泰姬陵发觉它的确宏伟壮观,最重要的是,有一种独特的优雅的风格在里面,尽管一眼能够看出这是一个伊斯兰教风格的圆顶建筑。沙贾汗在这里把他对大理石的热爱表现得淋漓尽致,硕大而白色的大理石让人有一种纯洁无瑕的轻松感。遗憾的是,可能是大气污染的缘故,我发觉泰姬陵的白墙已经隐隐有点发黄。人群涌入泰姬陵的大殿,可以瞻仰泰姬的陵墓,按照火车上那位阿格拉小伙子的说法,这个算是衣冠冢,不能当真的。但是门口的牌子上还是可以严肃的文字:内部严禁拍照。不过这个自然难不住那些跃跃欲试的投机分子了。我就看到了数起闪光灯在里面闪耀。 泰姬陵后正好能看到蜿蜒的亚穆拉河,河的正对岸有一片荒芜的树林,在树林边上的河岸上,有一个和这边的角亭类似的亭子,孤零零的矗立在对岸的一堵没有完成的墙上。据说沙贾汗计划为自己盖一个黑色的泰姬陵。然而不孝儿子奥朗则布破坏了他的计划,只留下那个孤零零的亭子。退一步说,泰姬陵耗费当时的百万卢比,无数建筑工人设计师20多年。当时再建一个泰姬陵恐怕也超出了莫卧儿帝国的国力。 逛完了泰姬陵的主建筑。我们三人向一边的baby mahal走去。baby mahal似乎只是Ringo的说法,它们一边一个,拱卫在白色的泰姬陵基座两侧不远处,高度略小于主建筑,是一个红色的大殿式建筑。这个大殿在靠近河边的方向顶部是一个很高的平台,平台尽头立有一个八角亭。我们在下边浏览了一下。突然发现左侧有一个虚掩的门后有个楼梯,似乎通向楼顶,我们推了下,正想上去,一个扛着步枪的警察(或者是士兵,反正我分不清楚)从上面的平台探头向我们看来。我们急忙后退,表示不会上去。没想到那个士兵友好的一笑,示意我们上去。自然我们不会拒绝。上去后,士兵在楼梯口接应我们。他告诉我们,千万不要让对面的游客或者巡逻的士兵看到了。所以我们都弓着腰跑到亭子那里的柱子后边。在那里从高处俯望河边。不过说实话,尽管看得更远,视野更开阔,作为一个除了泰姬陵就什么也没有的小城,阿格拉的高处其实也没有什么特别可看的。难怪这个地方会被关闭起来。我们感激地在士兵的带领下重新猫腰回到楼梯下去。正要出那个门。士兵把Ringo拦住了,原来他要100卢比。讨价还价,Ringo给了他50卢比,我已经掏出了50卢比,在路过士兵身边的时候,干脆也给他了。年轻的士兵兴奋的把我的手狠狠握了下。出了门,Ringo气愤地跟我说,“do you know,in india, money bribe is everywhere.”我哈哈一笑。 出了泰姬陵大门,我和Ringo握手道别。然后就步行回到Maya旅馆。在阿格拉的小巷走过,一路上不断被Japanese,korean的招呼所骚扰。而且印度人特别喜欢照相,即使他们收不到相片,也总是请你给他照。特别是小孩子,他们带有更多的好奇。不过稍不留神,他们也会央求你要些巧克力或者10卢比之类的。我路过maya门口的那条街道的时候,居然走过头了,当时不知道,但是越走越不对劲,遇事问了路边两个少年,他们拿着我给他们的maya的名片,说了声跟我来,就一直领着我到maya旅馆的门口。我自然是非常感谢。 回到旅馆,收拾了一下,喝了刚买的瓶装水,我决定再出去逛逛,同时找个新的餐厅吃晚饭。在我刚才回来的路上,我发现了几个餐厅,外观看起来还不错,但是我跑去看了看他们的菜谱,都很单调。最后我决定去旅游指南上提到的一家名为Zee的旅馆地下一层的餐厅。因为旅游指南上说这家餐厅饭菜出名的好,只是价格不菲。我决定去试试。租了个人力脚踏车,很快就到了那里,Zee这个旅馆在另外一个大型的豪华旅馆Taj View的不远处。我在找它的时候,遇到了一个黑乎乎的小女孩,她按照印度人通常的习惯向我要10卢比。我急匆匆走过,没有给她。钻到Zee下面的那个餐厅,发现餐厅的布置很整洁也很有情调,先看了看它的菜单,发现居然有鱼这种标志性的食品,于是我决定就在这里吃了。整个餐厅始终只有我一人,这多少让我有点不自在。不过,的确,它的菜蛮贵的,一盘鱼块(不超过6块)加一个米饭,居然要400卢比。不过我尝了尝,作的味道的确不错。离开后,我继续在华灯初上的街上闲逛。碰巧,又碰上那个女孩了,她自我介绍说我叫Sonia。居然和国大党主席一个名字,有志气。我只好讪讪的说我的名字叫hi。于是我问她,你怎么不去上学呢,出乎意料,她说正在一年级。我给了她10卢比,勉励她好好学习,就跟她再见了。 印度纪行-1月13日:从德里到阿格拉 早晨坐kingfisher的航班大约9点就到了德里的国内机场。在找预付费的出租车的时候,发生了一点不快。本来我找到的是一个机场内最靠近出口的一
个旅游代理,一个中年男子友好的跟我打招呼,按照惯例,认为我是日本人,听到说是中国人后,多少表示下惊讶,当然,这个不妨碍他开出700卢比的价格支付
先到国际机场,再到新德里火车站的费用。我表示太高,他拿着计算机算阿算,然后告诉我,作为友谊的代价,500卢比。我觉得实在太贵,于是出去逛了圈,发
现没有合适的车可以坐。于是重新进入机场,找到一个排了长队的出租车付费点。价格还算公道,但是他们不支持到达两个地方的预付费,175卢比只能到达新德
里火车站。我于是准备上车后跟司机私下交易,让他带我去国际机场停下。上车后,我跟司机谈起这个打算,他最开始坚持再收200卢比,最后还价到150成
交。但是快到新德里国际机场的时候,司机突然把付费的那张条子要去(司机凭条从付费中心领取费用),递过去后我觉得不对劲,但是晚了。我再向他要回条子,
他说什么也不肯了,而且,突然之间,他宣布不懂得英语了,总是说,Hindi speaking, Hindi
speaking。我提建议说,我可以给他一部分卢比,他要保证等我,我逗留下确认下机票就会继续去火车站的,我还给他机票看是14号出发的。但他就反复
重复那句话。我被这个不可理喻的家伙气得没辙,于是不抱希望地说,好吧,我下去了,你可一定要等我。我刚下车,如我所料,这个猪头就开车跑了。真不明白这家伙
怎么想的。 我在德里国际机场旁边的一个小房子上的小窗口确认了机票改签到15号了。于是放心找车去新德里火车站。国际机场的预付费出租车中心开出了250卢比的价格 到达火车站(后来我发现了,只要是和这个国际机场沾边的交通费,都会不同寻常的贵)。而且,可惜的是,我没有看清付费的条子,上了车才发现,单子上写的居 然是到康诺特广场。简直气坏我了,我一直在说我要去火车站,从来没有说过到这个广场,虽然火车站在广场北部不远处。 司机继续是一个滑头的家伙,中途他还停车买了点小吃,音乐开得老大。不知道在什么地方,我估计在康诺特广场的南端还有些距离,他就宣布到了,要我下车,我 拒绝了,拿出旅游指南,指着一个标志性建筑的照片,说必须到那里。他没有办法,又开了好一会才到。然后又要钱,说要50卢比小费。我不理他,本来找10卢 比的,只找到个20卢比的,于是说了句“便宜你了”,愤愤下车。 既然到了,就在广场逛了逛,很快,就有友好人士上来搭话。好在我已经被旅游指南训练得百毒不侵,倒也无所畏惧。好几个小伙子轮番上来搭讪,通常问我从哪 来,来了多久,我说来自中国的时候,他们立即都表示那是一个让他们神往的地方,然后问我来了多久,我胡诌说,来了半个月了。这时候,他们多半有点失落。但 是他们多半还是努力的保持了神采奕奕的样子,继续友好的给我指出“官方的”旅游代理处的位置。他们会接着问我要去哪里,我跟一个小伙子说要去火车站,他就 立即企图阻止我说,今天是星期日,火车站关门了。我解释说,我只是去那里会见我的朋友,不是去坐火车。跟另外一个小伙子,我说我有一个印度航空通票,马上 会到机场继续赶飞机的,他自然失落得说不出话来,只好悻悻离开了。再跟另外一个小伙子说我要去康诺特广场的中央草坪的时候,他也是习惯性的睁眼说瞎话,说 那里今天不开放,问题是滔天的军乐声正在从那里传来。 我穿过马路,越过一个栅栏门,很容易就进入了圆形的康诺特中央广场。那里有一个草坪洼地。一群中学生样子的军乐队正在那里列队演奏。周围的一侧聚满了围观 的印度人。扛着步枪的警察还来回巡逻。根据跟我搭讪的某个年轻人的说法,这是学生为了10天后的共和国日游行做的排练。逛了一圈,发现广场周围只有些2层建筑,也没有特别显著的可看之处。于是就起身去火车站。 问了下路,绕来绕去,居然绕进了火车站站台。印度火车站没有任何管理,没有围墙,以至于鸽子都在大厅里面飞来飞去。我直奔二楼 的外国游客服务中心。那里倒是蛮好的。一排排的售票电脑和搭配的卖票大叔在兢兢业业工作。门口还有一个友好的问讯处。只看到一些韩国mm和几个西方人在哪 里买票咨询,基本不用排队。本来我想买11点出发到阿格拉的车票的。结果门口问讯处的大叔说这趟车已经不能买票了。他推荐一个A.B.Express。居 然是下午5点出发的。我去看了看贴在旁边的时刻表,分明只有A.P.Express。我去核对,问他是B还是P,他似乎很生气的大声说就是B,我只好按照 他说的在火车票申购表(印度买火车票都必须填表)上填写A.B.Express。由于车厢等级太多,我不明白,所以没有填写。卖票的大叔问我坐什么等级的 车厢,我说只要有位子就行,他大笔一挥,添了个lower berth。200公里的历程,收费141卢比,还算物美价廉,我给了他150卢比,自然9卢比有去无回。我看了看车票,分明打印写着 A.P.Express。于是对于印度式英语又有了更深入的认识。 买完票,发觉还有大半天不知道怎么打发。于是跟几个买票的韩国mm和韩国帅哥搭了搭话,本来期待他们中有人也去阿格拉的,但是一个也没有。大多去很远的诸 如班加罗尔,加尔各达之类的。于是只好出来,到处逛逛。离开外国人中心的时候,和一个胖乎乎的白人老外聊了聊坐火车的常识,他告诉我最好半小时前就到自己 的车厢前面待命。下楼梯到一楼大厅的时候,他和我都被黑压压的人群震惊住了。他说了声“too busy,god”,和我好不容易绕出人群到了火车站前的广场。那里一样也是人挤人。 我和他分手后,就决定去Pahar Ganj(主集市),本来我没什么概念,但是等我进入后,才发现这里多少相当于国内的步行街。不同的是,这里有很多廉价旅馆。当然,旅馆我是不需要的。狭 窄的过道上,很多auto还频频过来跟我招揽生意。店铺的人也跟我这个“日本人”打招呼。让我惊讶的是,很多人居然能够说一句日语的问候语。店铺大多卖些 纪念品,衣物,印度手工艺品,香料之类的。我基本上没什么兴趣。偶尔也有一些小吃卖。按照旅游指南上的说法,本来我直奔上面说的很好吃的饭店。结果过去一 看,不过是一个黑乎乎的,卫生状态让人不敢亲近的小铺子。最后,逛完了整个集市,也没有找到一个像样的吃饭的地方。没有办法,临近当地时间下午2点,我决 定去一个“中餐,西餐,印度餐,做什么都好吃”(旅游指南上的原话)的饭店。到了一看,是一个坐落于半地下的一个小店。一个冷冰冰的服务生在那里慢腾腾忙 活。我坐下去好久,他才把菜单拿来。只有一张纸。一张纸能够覆盖这么多的菜系,我不禁佩服得五体投地。招来找去,我点了个番茄饭和一杯冻咖啡。上来后,发 现番茄饭就是一碗干巴巴的米饭(根据我在海得拉巴的经验,所有的印度米饭都如此干硬)外加一点点番茄末,咖啡味道倒是马马虎虎。快速吃完,也没有觉得好吃 不好吃。 重新走回车站,跟各种各样的人搭讪,聊天。熬到4点多。就开始进站了。新德里火车站只有两个天桥用来跨越各个站台。入站口有个地方坐着两个人悠闲的执行着 安检的工作,但是只是有一茬没一茬的随机察看。而且进入天桥或者进入火车站的路线有好多条,最明显的,旁边有电梯的那个入口就是没有任何人看着的。所以我 严重怀疑安检存在的必要性。整个火车站唯一的管理措施是大厅中的电子显示屏显示的以及广播中播报的车次站台信息。站台上一样人挤人。我坐的车本来宣布是5 站台的,结果我下去后,才发现停在4站台了。 我上了车,才发觉这是一列到海得拉巴的长途客车,至于我的车厢,是一个卧铺车厢。车厢中人很少,比如,我对面就只有一个年轻人。 不断有些像乘务员样的人喊着印地语“chayi,chayi”的来来回回卖。直到从阿格拉回来,我才明白,原来他们卖的是茶水,实在太像汉语普通话中的茶 叶的发音了。当然,这些人其实也不可能是乘务员。坐了两次后,我发觉,至少我坐的这种等级的车厢是没有国内意义上的那种乘务员的。可能整列火车也就配备1 -2个查票的人员。这就是全部的列车服务了。 后来,我和对面的小伙子聊起来。原来他居然是IIT计算机专业毕业的,在新德里的一家外包软件公司工作。这次是回到阿格拉父母家。我和他聊了聊泰姬陵的话 题。当他听说泰姬陵在汉语中的意思是tomb的时候显得很惊讶。印地语泰姬陵是Taj Mahal,本来我以为Mahal是陵墓的意思,他这么一说,加上我后来参观了其他的一些景点,才意识到Mahal这个词应该是大殿,宫殿之类的意思,反 而不大可能是陵墓的意思。我跟他解释说,陵,一般是庄严的,美丽的,很宏伟的陵墓,在汉语中是一个很好的词。 下车后已经当地时间9点多,我的印度朋友很帮我找到了站内的一个旅游代理,又找到了一个出租车司机,说好了150卢比的价格到我要去Taj Khema旅馆,这才友好的跟我告别。司机是一个英语非常流利的高个大汉,深更半夜的,就我一个人,我多少有点担心。不过这个司机还是蛮爽快的,本来他拉 我去他的auto,我说要去坐出租车,于是他又带我去找他的出租车,路上路过停车场的一个牌子,上面写着到达我要去的Taj Khema旅馆的车费标准,他还专门指给我看。让我惊讶的是,他的车居然用帆布包裹了起来,他揭开后,我才发现是一辆新车。难怪这么爱惜。在车上,他演示 了他的DVD播放系统,还问我喜不喜欢印度音乐,我投其所好的告诉他,我从小就喜欢。 他还把他的一个名片给我,我一看,居然是另外一个旅游指南上推荐的maya旅馆的名片。他说这是他的旅馆。然后又说了些Taj Khema旅馆的坏话。车停下后,我下车,居然发现就是他的maya旅馆,我不干了,他也不坚持,重新上车,去Taj Khema。但是在一个横杠前停下了,因为他的车开不过去。我和他步行了150米的样子,在漆黑,没有路灯,只有狗儿偶尔叫叫的阿格拉街头走了一遭。到达 了位于洼地的一个小庭院式的旅馆Taj Khema。我们推门进去的时候,发现没有人坐在前台,喊了几声,才有两个人,一老一少跑来。不过按照它们挂在墙上的收费标准,最便宜的房费高达960卢 比。远远高于我的旅游指南上的推荐价。看着这么小的旅馆,我觉得实在不划算。于是离开去maya看看。司机当然很高兴。进入Maya,老板,前台,收银都 是一个人,让人赞赏的是,这么晚了,他还在勤奋的工作,和Taj Khema的怠工成了鲜明对比。老板带我去了2楼的一个房间。我注意到这明显是一个双人间的大床,我问房费如何,老板很严肃的开价1000卢比,我几乎晕 倒,我问有没有其他的,他说没有。想想旅游指南上说maya最贵的房间才350卢比,这简直是抢劫。于是开始还价,我开价500卢比。老板妥协了,700 卢比。我还是坚持500卢比。老板继续妥协,600卢比。我还是坚持我的价格,老板宣布不干了。司机在旁边也很着急,明显的,我即将要付的房费也包含他的 辛苦费。司机跑来打圆场说,这样子,取一个谁也不吃亏的价格,550。我还说要加入早餐,老板坚决拒绝了,而且拿来一张写着菜单的纸,说明他的餐厅如何的 奢侈。最后550卢比成交。由于我身上卢比不够,我支付了一天的费用。司机满意离去,走之前还跟我说明天去玩一定要打电话找他坐他的新车,我当然热情的答 应了他。 小伙计带我进入房间,本来我问电话怎么打进来,结果他支支吾吾。进房间才知道,这里根本没有房间电话。热水器也极其不稳定。至于空调,不知道遥控器偷偷放 在哪里了。自来水的味道比在海得拉巴还差。一本旅游指南上曾说这个旅馆的被子太软是他们唯一的缺点,我觉得事实完全相反,感觉他们压根就没有垫被子在床 上,睡着觉得床板特别硬。好在被子盖着还算暖和。另外一本旅游指南上对于这个旅馆的介绍时这样的:“老板Raju人很爽,会告诉你很多信息。对印度之旅已 经疲惫了的旅客推荐来这里。”事实上是,第二天早上我问老板他是不是Raju,他告诉我,他不是,Raju已经在另外一个旅馆爽去了。 印度纪行-1月12日 SIGHAN持续一天半,所以今天还有半天。我是所有报告的最后一个,Olivia解释说,因为我的名字按照拼写顺序排在最后。我这一场报告的主席是Richard Sproat,昨天我就发现他频频出现了,但是一直不认识,后来问了Olivia才知道的。这么一说,我记起我在主会上的那个Session的主席也是他。我快速讲完,之所以快速,是因为Sproat提醒还有5分钟的时候,我只讲了一半。遗憾的是没有人提问题。看来我的系统地重现特性还是蛮好的。也说明我的方法是深入浅出的。:) 昨晚林教授回去了。今天陈文亮也要回去,所以今天中午我和毛新年就到陈爱涛的best western旅馆去吃饭。中午去他那里的时候,发现那个旅馆的确是一个很好的地方,它由一个古堡改建,或者说,它建成了一个古堡的式样。因而别具特色。另外,消费比QIR还要便宜。餐厅很大,当然,和我们的旅馆以及陈文亮的旅馆一样,进餐的人总是稀稀拉拉的,无处不在地显示印度高端消费的不振。 吃完午饭,我们三人决定去侯赛因湖看看。由资料显示这是一个人工湖。由于它位于海德拉巴城去的中心,可能稍微偏北点,面积很大,所以应该值得一看。IJCNLP提供的宣传材料上就是以这个湖中心的佛像作为题头照片。我们租了个车,说好两小时绕湖游览一周。我们先到一个游艇码头区逛了逛,有点意外的是,这里也有安检,开包检查,金属探测器一一领教。滑稽的是,就在安检入口旁边,有一个无人看守的两格的栅栏,一个向我这么样的成年人可以在那里轻松的匍匐着溜进这个湖边娱乐区。进去后,看到了一些快餐店,冷饮店之类的店铺。在湖边的凉亭下,年轻人们三三两两的聊天喝饮料。不过,唯一的问题是,湖水的味道不好闻,有一股轻微的臭味隐隐约约传来。我们大致在湖的北侧的样子,所以那个标志性的佛像看起来很远。岸边有一个很小的码头,停着一艘船。据说这艘船就是专门负责把大家送到那个佛像那里的。海德拉巴的居民应该是北部印度教徒,南部穆斯林,佛教徒的人数应该忽略不计吧。我总是猜想是谁提出来在这里建立一个佛像的。真是太有才了。印度教的确有偶像崇拜,但是伊斯兰教没有,所以在湖中放一个毗斯努之类的塑像在海德拉巴这个敏感的地方实在不是个好主意。佛像就没这问题了,不是你的,也不是我的,外来的佛像会念经嘛。 除了湖对岸普遍3-4层楼高的房子,码头娱乐区实在没什么可看的。我们很快回头重新上车。让司机沿着湖边继续走。司机在路上又推荐了一个湖边公园,不过我们在车上扫了眼,感觉没什么看头,而且据说门票还要250卢比之多,简直抢钱。司机继续推荐其他的逗留点。我们也没什么兴趣。于是沿着湖边公路走了会,可能还没到湖周长的一半,司机二话不说,把我们拉回了旅馆。快要到旅馆了,才故作姿态的问,还有什么可看的。我们私下揣摩着,可能司机寄希望于我们在湖边绿地能“流连忘返”,而压根就没有让我们在车上真的跑两个小时的想法。毕竟,连续跑两个小时的汽油费可不便宜。 |
|
|