areal's profileiamcrfBlogLists Tools Help

Blog


    June 25

    想起在微软期间的一段事情

    2006年的时候,西格马大厦一层层装修,所以几乎每个人都要至少搬一次家。暑假那次的规模特别大,整整一层的人都要从5楼搬到4楼或者1楼。搬完的第二天的早上,我们在新位置上坐下,我就收到一个群发邮件,上面盛赞人事部门的工作效率,吹嘘说,每个人都很满意,大家都很喜欢云云。发送者署名cb.其实打包,抱着一大堆东西跑上跑下(虽然绝大多数物品其实是由搬家公司的工人搬掉的),然后要在新的位置重新按照自己的工作习惯布置桌面。移动工作的位置其实是一件很不舒服的事情,怎么可能还心情好?我愤愤地点击了一个回复所有,估计所有的微软在中国的雇员,永久的,临时的都应该能收到吧,只有三个字母: pmp. 发完后就没有管了,第二天吃早饭的时候碰到一个校友,他说我太牛了,然后问我知不知道那个cb是谁。我说不知道,我只是对这种马屁的群发邮件忍耐了很久了。他说,是许峰雄,我大吃一惊,是那个发明深蓝的许峰雄?他说是的。我这才想起来,年轻的时候的许峰雄被人称为crazy boy,所以他就用缩写cb作为签名了。
    May 27

    conll-2008的open特征中的maltparser性能评估

    昨天提到我怀疑conll08的open test任务提供的maltparser性能不佳, 今天想起来顺便跑了下打分程序. 果然证实了我的猜测.

    下面是open feature所提供的maltparser在4个测试和开发集上的成绩
    data        LAS    UAS  label-acc.
    ===========================================
    devel      84.10  87.66  89.18
    wsj        85.50  88.41  90.41
    brown      77.06  82.67  83.60
    wsj+brown  84.56  87.77  89.66

    下面是所提供的maltparser在所有closed test参加者的句法依存序列中的LAS排名,总计20个closed结果.
    maltparser输出排在17位.由于太低(<80%),我认为最后三位的句法依存结果不能算作正常的成绩.
    LAS         wst+brown  wsj    brown
    ===================================
    1 st         89.32     90.13    82.81
    16 th        84.82     85.69    77.83
    maltparser   84.56     85.50    77.06
    17 th        84.47     85.20    78.58

    不知道这个maltparser在哪里训练的,如果是在去年的数据上训练的,应该是情有可原的,因为去年的english句法分析的训练语料是一个大杂烩,训练规模也仅为今年的一半. 这样所给出的maltparser性能其实并不能算太差, 可能只是不太拟合今年的数据吧.
    但总的来说,以这样的一个分析器来做open test的句法依存输入不是一个成功的做法.

    继而想到,如果我利用这个open test的句法依存输入作为基础,仅运行我提交的那个srl模块会怎样?
    我想这会是一个有趣的对比, 下面是结果.

    总分 macro-f1:
                wst+brown  wsj    brown    devel
    ==============================================
    mine        80.08     81.29   70.26    79.55
    best-open   79.61     80.61   71.45    -

    best-open是open test总分第一的选手.

    句法依存 LAS of syntactic parsing:
                    wst+brown  wsj    brown    devel
    ==============================================
    mine(maltparsr) 84.56      85.50  77.06    84.10
    best-open       87.32      88.14  80.8     -
    这部分比较其实是open test的maltparser输出和参赛者的结果比较, 和我没关系.

    语义依存 labeled-f1 of semantic parsing:
                  wst+brown  wsj    brown    devel
    ==============================================
    mine          75.55     77.02   63.39    74.90
    best-open-srl 76.17     77.38   66.23    -
    best-open     71.89     73.08   62.11    -

    best-open-srl是仅仅单独参加了srl部分的open test的最优选手.
    结果说明,我的系统比best-open更加平衡, 他的句法部分做得相当好, 很大程度上克服了不佳的maltparser输入(考虑到他的open句法性能和closed句法性能一模一样,我猜测他早就发现了问题因而完全抛弃了open test给的这个句法输入,而自己单独搞了一套),但是他的语义依存部分脱了太大的后腿. 至于best-open-srl,他只做srl,虽然大致在一个水平线上, 他的系统性能的确轻微的好于我的srl子系统.


    关于srl子模块的评估问题,我想起来前几天给mihai写了封信,建议他加入一个新的rank list,使用一个比值semantic-F1/syntactic-LAS来评估单独的SRL子系统的性能,我的理由是SRL部分过于依赖syntactic parsing部分的性能,因而不是像句法依存部分那样独立。mihai热情的回信说,他喜欢这个主意,但是还要考虑下怎么做。我猜测他一定在苦恼,如果真的列出一个这样的表格的话,那么那个排在最后一位的不正常的结果要跳到第一位了,这个动静也太大了。:)



    May 26

    conll-2008评估回顾

    没有更新blog已近两个多月,都是conll-2008招惹的,事情起源于去年年底kit转发的一封newsletter,说今年要办一个输入很少,输出很多的自然语言学习任务:基于依存的句法和语义结构的联合推导(当然实际的要求比这个说法要更加复杂,我在4月中旬给主办者Mihai写了封弱弱的信问了些初级问题,才知道本次任务还包含一个语义消岐问题),问我有无兴趣。那时候我还不知道什么是dp和srl,只好笼统地回答说,如果那个跑crf的机器允许的话,可以试下。但1月2月在南亚和中东各奔波了一半的时间,浪费了大好时间去深入学习理解dp/srl。好在总算利用春节的几天把最大熵写了一个出来。考虑到效率因素,决定以后的机器学习就用这个跑了。虽然种种迹象表明现在的计算语言学界中svm更加时髦,但是svm天文般的训练时间自从读博士以来就已经把我吓怕了好多年。至于将来能否用svm要看 intel,amd以及nvidia的表现了(记得某次开会我曾经建议买台ps3来跑crf的,自然是被鄙视)。随后,我用自己写的最大熵先跑了下传统的分词ner,继而用词性标注作了下验证,结果在bakeoff-4的成绩单中很靠前,至少前三名之列,恩,考虑到第一名事实上用了一个双向最大熵,这个结果至少说明我的最大熵实现没什么大毛病,可以放心的拿它用于后面的任务了。

    下面我的教训说明,仔细阅读任务说明是多么重要的事情:从2月下旬开始,我在conll-2004的数据上跑了一个月,一直到3月中旬发现单个训练时间以星期为单位的时候,我才觉得应该利用这个空挡看看怎么做依存句法分析(dependency parsing,DP)——这时候我其实还没有发现我的错误。无从下手之下,给dp前辈陈文亮(他参加了去年的关于dp的conll)写了封email,请教了很多初级的问题,总算知道dp是要做什么的了。然后又花了一个星期的时间,在最大熵上面(不顾nivre在论文中的反复警告:使用最大熵跑它的算法,性能不会高),对照nivre那些拗口的论文写了一个移进规约算法(昨天才知道nivre在2月份就公布了一份java版本的maltparser源代码,ft)。调试,让它能够正常工作,给出了些正常的结果,不知不觉时间到了4月中旬。在一个被nivre认为没有前途的分类算法上,我只用一个model所作出的性能看来也就这样了。于是随意看了看早就发布了的训练数据的格式,才惊讶的发现SRL部分的标记似乎都只有一个词,慌张地写了封email问mihai,弱弱的问是不是今年的srl只用标出argument的开头,另外,predicate标记的那些末尾数字是什么意思,名词述语和动词述语的区别又不太像。虽然回信显得很富有耐心,我还是猜想mihai一定是以郁闷的心情写他的回信的:那个srl标记不是argument的开头,是中心词(head),至于末尾的数字,那是sense的编号。看了回信,急急忙忙去看官方网站的任务描述,dependencies这个词在文中到处都是,顿时想起很多年前考试,经常题目没有看清楚就匆忙答题的窘境,暴汗中。。。

    好在这个时候dp已经不准备做改进了,可以专心作srl。结果鬼使神差居然用nivre算法作了大半个月的依存srl。浪费了最最宝贵的一段时间后,5月初才发现名词述语predicate和argument是同一个词的情形依然无法有效识别,而且这种情形所在比例还不小,因而不能忽略。这个不幸的原因也很简单,我实现的nivre算法只能对root标注缺省label。推倒重来后,使用直接的词对分类,这样返璞归真反而作下来了。然而所剩时间也不多了,好在5月9日发布测试数据,5月16日才需要提交测试结果,而我居然在利用这段时间做特征工程。

    提交结果前,心里很没底,因为这种复合任务是第一次提出,根本没有往届的数据作指示,不知道什么范围的f-score是正常的。通过同事的关系,和哈工大的同行交换了下结果,才知道应该没事,所谓没事,就是不会垫底。我计划跑三个最终的model。第一个model在开发集上的系统总分和哈工大的结果差2个多百分点,好在他们友好的指出,我用的评估程序的版本过时了,因此实际差距没那么大。我的第二个model的差距已经在1%以下了,这也是我最终提交的model。第三个model很遗憾没有及时跑出来,它是在结果出来的那天才出来的,虽然其差距已经在0.5%以下。

    周五提交的测试结果,周一晚上系统排名就出来了,不得不佩服组织者的效率。结果很意外,以微弱的差距低于第三名的srl老将ciaramita(目前在yahoo,等待微软收购中?)而排名第四,和哈工大的结果的测试集总分差距是1.2%,基本上全部是由于srl导致的,可见他们在这个领域的确有一手。但在句法依存上,综合开发集上的成绩,我的结果实际上要好些。导致我的句法依存的正式成绩拖后的是那个out-of-domain的brown测试语料。不过,这是不是恰好说我的系统有点overfitting ?

    观察结果,发现了些有趣的现象。

    0. 50个人报名,最后仅有23个研究小组提交结果。其中18个提交closed, 2个提交open+closed,1个提交open,2个仅提交open的srl。很佩服那两个同时提交open+closed的队伍,至少我很羡慕他们的计算服务器。他们的共同点是:提交者都是中国人。

    1.关于句法依存分析:第一名的瑞典人的wsj结果总分的LAS高达90%,第二名及其之后的结果均小于88%,考虑到今年的数据需要标注复合词内部的依存,这导致句子的平均长度加大,90%这个结果很不容易。去年conll评估的英语上的最高成绩为89%(训练数据为今年的一半)。我猜测瑞典人的结果要么用了复杂的nivre组合模型,要么用到了二阶mcdonald特征,要么作了一个完美的syntactic+semantic的joint learning。无论哪种,惊人的计算量是不可少的。

    2.关于句法依存分析的20个closed结果中,有7个结果,包括我,LAS在86.60-86.69%之间(浮动范围为0.1%)。如果考虑浮动范围86.0-86.9%的LAS(1.0%的浮动范围),那么能覆盖10个也就是一半的结果!这强烈说明,当然属于我的继续猜测,86.5%左右的LAS代表了某种依存句法的性能瓶颈。

    3.如果我没有记错,本次的conll是首次成功引入open test的SRL,之所以是首次,是因为往届的SRL评测从未得到过响应。:( 不过,虽然理论上open性能应该高于closed性能,  本次open test的结果普遍差于closed test的结果,最好的open总分 的成绩排在closed第7名的位置,最好的单独的open的srl的成绩排在closed的srl第4名的位置(比我的closed srl的成绩恰好高0.01%, :-)) 。而且,完整的open test,包括dp+srl只有三个参与者,另外有两个参与者仅仅参加了srl部分的open test(可能他们无力开发依存句法分析器)。Open测试的语料和closed 不同的地方在于,它额外提供了命名实体标记,ciaramita的supersense标记,以及nivre的maltparser的依存句法输出。有两位选手,同时参与了open 和closed测试,其中dfki的open总分轻微好于closed总分,另外一个则是open总分<closed总分。有意思的是,他们的open dp成绩和closed dp成绩都是一样的, 不管是增长还是减少, open和closed总分差距均来自srl部分. 虽然组织者声称他们在用一个state-of-the-art的parser,考虑到srl的效果非常依赖于句法依存的输出,这个关于open test的负面结果让我怀疑这个用于open测试的maltparser其实不会好于大多数参赛者自己开发的依存句法分析器, 还有一个因素就是, 目前句法语义分析的联合学习还处于比较低的水平, 参加者普遍不能有效的综合两者的输出。

    4.前所未有地,这次有6个国内研究团队(包括我)参与了本次conll评估,如果我没记错,即使加上港澳台,最近4届参与的国内队伍从未超过3个。这次参加的国内队伍包括:哈工大、哈工大深圳研究院、北大,中科大,苏州大学,以及我。苏州大学参加的是open test,哈工大深圳研究院同时参加了open+closed,其他的都是只参加closed test。

    March 08

    以色列纪行-2月19日

    今天继续开会。议程平淡无奇。倒是我从30层的高楼上观察到海法天气的一个有趣的现象:天空经常非常厚重的乌云散布而不是密布,太阳在云层中穿行,结果就是经常出现一些光柱照向大地,形成一些地方阴暗,一些地方特别明亮的情形。从其他的地方看过去,似有神圣的天启之光照耀。这种情形我在去耶路撒冷的路上又看到多很多次,光柱从天空中照下,把山上的一些地方照得特别明亮。我冒昧的把这个地方的宗教起源和宗教热忱部分的归因于这种独特的天气现象。

    下午临近结束的时候,我们觉得无聊,和曹一起去大楼地下的一个名为Reuben and Edith Hecht的小博物馆参观了下。碰巧见到了John,他居然也在那里饶有兴致的参观。博物馆是由Dr. Reuben Hecht在1984年捐出他的考古文物藏品而建立的,博物馆名以他和他妻子的名字命名。主要的文物包括从红铜时代到罗马拜占庭时代的以色列土地上出土的一些文物。另外还有些Dr. Hecht收藏的一些名画,包括莫奈、毕加索等大师的作品。Dr. Hecht后来是一家位于海法的公司的创始人,还是海法大学董事会的创始成员。

    博物馆很小,仅有两层,但是文物都很精致漂亮。由于Dr. Hecht本人毫不掩饰自己的犹太复国主义者的立场,因此这些文物大都是关于犹太人的早期文化生活历史的。主要的藏品是一些生活器具以及艺术品。在一楼的一角甚至根据出土的状态,复制了关于腓尼基(Phoenician)人石刻的发掘现场。在一楼的另外一角,有一个出土的古代的黑色帆船的巨大展品。在二楼一角,通过类似卫星图片的风格,展示了从古至今,死海不断萎缩的历史。在旁边,精细的复制了一个古代风格的茅草屋。转过弯,就是画廊了,但是因为要赶回去的大巴,我们没有看就退了出来。

    晚上回到旅馆的时候,John建议出去找个地方吃饭,被一天冰冷的食品弄得很不舒服的我答应了。另外有三个老外一起去,其中一个白胡子老者不知道国籍,另外两个一个是腼腆的芬兰人,一个是豪爽的讲法语的比利时人(比利时现在正在闹分裂,据说讲法语的和荷兰语的居民互相看不惯)。餐馆是一家生意好得很的亚洲风味的小面馆,名为Giraffe,离旅馆不远,两个街区的样子。我第二次去的时候,甚至注意到两个厨师说的是某种中国南方方言。餐馆门口始终有一个保安,不时要求带有小包的客人开包检查。进去后我们找了个地方坐下。来了个法国风格的mm招待我们。我要了个海鲜炒饭和一杯热苹果汁,总共63.5谢克尔。
    味道还是不错的,特别是热的果汁在这个时候喝起来特别可口。大家在一起瞎聊。最开始大家都狠狠抱怨了一下以色列的入境安检如何变态,John提到他甚至被要求出示作报告的ppt文件,仅仅由于边防检查员手边没有合适的计算机作罢。最后大家总结,they are too nervous。大部分时间都在听豪爽的比利时人吹牛,以及john讲述他在北欧作交换学生的经历。最后结账的时候,除了john,他要单独结账用于报销,我收集了三个老外的谢克尔,用我的信用卡一次付掉。由于老外坚持,我们所有人支付了10%的小费。此外,饭店还要求每个人支付1.5谢克尔的保安费。算下来,4个人为了每个人的面条或者是米饭花掉了330谢克尔,大约660港币的样子。

    以色列纪行-2月18日-CICLing

    早晨吃饭的时候又一次碰到了老朋友,在日本nict工作的曹海龙,他们一行三人前天半夜就到了,已经参加了昨天白天的以色列北部之旅。餐厅的大玻璃正对地中海的东部海岸。因为旅馆在山顶上,虽然餐厅在一楼,但是视野很好,可以轻松看到海上的帆船。
    吃完早饭一起坐会务组提供的大巴去海法大学的会场。
    大巴在海边的山路上上下下,很快到了另外一个山头的海法大学校园。会场所在地是山上的一座高楼,我们在三十楼的一个小会议室开会,所以很容易俯瞰整个海法城。海法建立在一个北部和西部朝海的海边高地(Carmel山脉)上。
    大学在这座山的南部,由于城市发展,山脚东部和北部都已经发展为城区,就是我在旅馆能够看到的那个繁荣的港湾。

    整个会议只有一个session,既然工作的会期长达4天,除了少数poster,大家都有机会发言。最开始是Shuly Wintner发言,他致欢迎词。然后似乎是一个海法大学的某个重要人物,介绍了下海法大学的情况。最后是Alexander Gelbukh,大致介绍了会议的情况,同时鼓励大家多了解下以色列这个国家,如果你对它原来存有偏见的话。
    他的俄式英语听起来真得很痛苦,虽然他说得很清晰,速度很慢。从长相上看,Alexander是一个典型的俄国人长相,个个高高,稍微有点发福,一头卷发,大而浓密的络腮胡子。听到他这么发言,当时我就猜Alexander就是一个犹太人。后来周五晚上的宴会上恰好和我坐在一起,果然证实了这一点。

    三个组织者的发言完毕,马上开始一个keynote报告,报告者来自卡耐基梅隆大学的Alon Lavie,我还是觉得这也是一个犹太名字,不过没有机会证实。他的报告是关于机器翻译的,依据我这个外行的水准判断,我认为他们的方法的新意有限,而且结果一般。
    coffee break提供的咖啡粉有两种,而且都要自己调配,加牛奶和糖,所以居然每次都要排队才能拿到。我尝了下,味道很不错。午餐由会务组提供,包括一些蔬菜和水果沙拉,主食是一块金枪鱼三明治,冰冷并且不好吃。在会场我还碰到了在MIT读博士的John Lee,原来在MSRA就认识的,他也抱怨这个三明治很难吃。

    会场提供wifi,只要随便填写一个email地址就能登录使用。唯一的麻烦是插电口不足,我数了下,会场内总共只有三个取电口,而且很快就被捷足先登者占用了,其他人只好用自己的电池(后来的几天就出现很多人抢着上楼来抢取电口的情况了)。由于我昨天来的时候待机耗尽了电力,所以必须充电才能用。幸运的是,我在会场门外的走廊发现了一个插口。我一个人坐在那里用机器的时候,Shuly很兴奋得跑过来,问我的机器是不是华硕的eeePC,还说他给他儿子买了一台,不知道什么时候能够送到。然后说这台机器太可爱了云云。真没想到华硕的这个产品的知名度这么高。

    由于楼层很高,三面走廊外侧的玻璃的视野很不错。很多人,自然包括我都纷纷掏出相机,到处拍照。临近中午的时候,突然起了大雾,我在休息时间出来的时候,惊讶的发现,早上来的时候阳光明媚,现在居然在30楼的空中,看不到任何东西了。浓密的大雾遮盖了一切。又过了段时间,能够看到雾气飘过地面,才开始慢慢显现出远处地面风光。直到下午3点的样子雾气才消散得差不多。

    下午4点开始poster session,会场在另外一个大楼的6层。出门过马路的时候,猛然发现气温很低,而且略微有点小雨,风也很大。顿时觉得凉飕飕的。Poster session和一个非正式的招待会同时举行,大家可以边喝饮料,吃点心,边观看各个poster。会场我发现了这次Conll share task的组织者Mihai Surdeanu,他也是一个poster作者。我问了些他的SRL工作上的一些问题,同时顺便跟他抱怨我的注册申请迄今为止没有收到确认。他拿笔记下我的名字,说会马上给我回复的。

    在北京时间2月19日凌晨一点(当地时间2月18日晚上7点),Alon主持的special event结束后我们得以坐车回到旅馆。由于北京时间今天早上6点才到,我实在困得不行,回到旅馆后几乎是倒头就睡。

    以色列纪行-2月17日-从香港到海法

    以色列纪行-2月17日
    我的航班是下午将近4点,以色列航空的直达航班到特拉维夫。因为目的地海法没有机场,给一个30万人口的小城市配备一个国际机场当然比较奢侈。
    本来我提前了两个半小时到达香港机场,结果办理登机前,以色列人居然要求飞机起飞前1个半小时到达登机口。我立即手忙脚乱起来。作为非以色列公民的待遇,护照机票都要被复印。两个以色列航空的保安在登机手续办理点前面搭起两张桌子,专门负责给非以色列公民问话,确认行李无恙才能让你办理登机手续。轮到我的是一个以色列小mm,问了堆诸如行李在哪里打包的,谁打包的,路上来的时候有没有其他人给你塞东西,有没有匕首枪支等等。还有你去以色列干吗这样甚至被以色列领事馆的保安问了好几遍的问题。我自然不是心怀不轨的恐怖分子,所以顺利过关。 mm还特意叮嘱,办完登机手续后直接去登机口,不要接受任何其他人的东西。办完手续,出境,安检,然后急急忙忙往登机口跑。居然赶在要求的时间到达45号登机口了。

    我坐了会,然后那个在登机台前问话的mm又过来了,告诉我去登机口另外一边坐着等待接受检查。一个帅哥和另外一个mm拿着类似金属探测器之类的东西把我抱里面的手机,笔记本仔仔细细摸了个遍。然后放行。这时候我才注意到以色列公民已经排了长长的一队在登机了。不过外国人比较少,虽然被特别照顾,还是比大多数以色列人先上飞机。

    12小时的飞行虽然很累,但一路无话。空勤的帅哥美女各占一半吧。飞机上的主食是一种很软的面包,蛮好吃的。唯一奇怪的是飞行路线。飞机先在中国境内往北飞到甘肃,绕过青藏高原,然后新疆出境,在中亚的哈萨克斯坦的中部飞行,越过里海中部,翻越高加索山脉,开始转向南,进入土耳其,在土耳其的中部进入地中海,然后从地中海由西向东进入以色列。这样显然绕了个圈。实际上12小时足以从日本飞到法国,如果不绕圈的话。以色列航空的这个飞行路线绕开了所有不喜欢以色列的国家,包括7个海湾阿拉伯国家,约旦,还有以色列的死敌,伊朗,这些都是直线联结香港和以色列路线上的国家。后来听说,这些国家压根不允许以色列飞机飞越它们的领空。

    飞机在当地时间晚上10点,北京时间18日4点,降落于特拉维夫的本古里安国际机场(对我来说,今天是今年最长的一天)。该机场以以色列的首任总理命名。特拉维夫有两个机场,另外一个机场主要负责国内航线,据说有合并两个机场的功能到这个国际机场的计划。
    虽然我没有机场地图,直觉上我觉得整个建筑的结构比较简单,应该是两个过道连接两个大楼。穿过长长的一个过道通往入境检查点(以色列人的英文标识是passport control),这个国道是向上的,和向下的登机过道正好相邻。如果从侧面看,这两个走廊应该凑成一个扁扁长长的X型。

    可能是出于安全方面的考虑,不像其他国家,特拉维夫机场的边检处是大厅里面一排哨岗式样的小屋,大约有10来个。每个小屋占一个三角形的地面,斜对前方的长边的那一侧呈阶梯形露出3-4个办理窗口。给我办理的又是一个女士,可以想见以色列的妇女就业率还是很高的。继续问了堆来干嘛,住哪里,呆多久的问题,遂放我过关。

    略过海关,第一件事情是兑换以色列货币谢克尔。我问过深圳香港的好几个银行以及兑换点,都没有这种货币,所以只好到这里来接受机场的不友好价格了。给我办理兑换的还是个mm(继续验证关于妇女就业率很高的理论),很快就按照1500港币兑640谢克尔的不友好价格给我进行了兑换。

    离开机场大厅的时候,我看到一个彪形大汉站在门口,问我要不要出租车,我说不要,往门外走去,他还在后边喊,很便宜的。出去后是一排排的车道,我拿出打印的CICLing会务组发给我们的本地信息,跟一个到处招人的司机谈了谈,说我要去海法,他把我拉到一个小巴旁边,原来这就是所谓的shared taxi,以色列人叫sherut。不过我不是很放心,我从车前方探头看了下,发现没有开车灯的车内已经默默坐了7-8个人了。我问了下价格,司机说54谢克尔,然后又去拉人,看来是要凑齐人数才会开车。我最后还是上了车,坐下最后一排。我又找坐我前面的人确认了下。结果坐我坐前方的一位年轻女士插话说,她也是CICLing开会的,说这车没问题,原来她看到我拿的那张纸上打印的CICLing标志了。

    很快凑齐10人,司机开车出发。司机同时负责收钱,以色列的司机同时是售票员,在驾驶座的右侧都有一个专门的打票机,同时也可以自动的找零钱。大约过了70分钟,车绕阿绕的似乎上了山,然后在一个明亮的门前停下。我们的目的地Dan Panorama Hotel, Haifa就到了,此时已经当地时间半夜,北京时间18日早上6点多。前台小姐在完成登记后把CICLing发的包同时也交给我们。这似乎是我经历过的最有效率的会议登记方式了。我的房间在13楼,推开窗户正好看到海法半夜的海湾。到处灯火,景色还是很好的。



    February 13

    基于字标注的语料学习:最大熵方法回顾

    摘要:最大熵方法,特别是最大熵Markov模型,很大程度上启发了流行的串标注框架CRF。然而在一个一致的环境中比较这两种方法的性能差异还是一个有趣的工作。特别是在中文标注语料学习中,这种比较还未见报道。在两个领域,分词和命名实体识别上,本文的经验比较说明在适当的解码条件下,最大熵方法可以取得和crf接近的性能。

    1。背景
    在字标注的中文语料学习中, 最大熵和CRF获得了广泛的应用. 由于追求更高的性能的需求, 最近有利用CRF取代MaxEnt的趋势. 然而, MaxEnt方法在训练效能上的优势始终存在. 因此,标注学习领域依然有MaxEnt方法存在的空间.本文考察并比较了最大熵及其变体以及CRF在字标注学习上的性能.

    最大熵(maxent)是一个分类器。原则上说,不适合结构化学习。因此,一般要用两个技巧来使其适应结构化学习的需要。以串标注为例。
    1.1规则空间解码
    考虑maxent对于一个未知串中的第k个样本c_k给出分类预测的概率分布p_ki, i=1,2,...,n,分别对应于标记L_i。且
    \sum_i{p_ki}=1
    同时,我们考虑两类规则约束。
    第一类是词典约束,例如,对于c_k,{L_i}的某个子集才是可以考虑的标记空间。在这种情形,对于c_k的标注,我们选取L_i,其p_ki在可选的标记空间是最大的。在这种约束下的解码本质上还是分类问题,因为没有考虑上下文。
    第二类约束是状态转移约束。这种约束,可以表达为c_{k-n},c_{k-n+1},...,c_{k-1}标注为L_{k-n},...,L_{k-1},则c_k必须标注为L_k。因此这种类型的解码是要寻求
    max_{状态转移约束}\pi_k p_{ki}
    通常这个最大联合概率可以通过标准的viterbi解码算法获得解码序列。

    这两类约束条件均可通过搜集训练语料中的信息获得。

    1.2 最大熵Markov模型(MEMM)[1]
    将最大熵和HMM结合起来是一个直观的想法。MEMM在训练和MaxEnt一致,区别仅仅在于解码的时候需要考虑激活特征所包含的状态转移条件约束。解码算法也类似于状态转移约束下的MaxEnt解码。

    2。实验
    2.1 语料
    分词:bakeoff-4的CTB切分语料
         Bakeoff-1和Bakeoff-2的CityU切分语料
    选择bakeoff-4的CTB语料的原因是Xue Nianwen在[2]中用的也是ctb语料进行评估.我们假定同样来源的语料保持一致的统计机器学习特性.选择两个CityU语料的原因是它们是唯一一种在bakeoff-1,2上都出现,并且训练集发生改变的语料.此外,Xue在CityU-2003上报告了结果[3]. Low et al.在CityU-2005上报告了结果[4].
    NER: Bakeoff-3的MSRA语料

    2.2实验设置
    实验表明,抽取自训练语料的词典约束对于性能没有帮助.因此不在这个设置下进行比较.
    对于状态转移规则,只考虑一阶状态转移.同时额外考虑两种串开始和结束约束.第一种,串起始限制,包含所有那些出现在串头的标记.第二种,串结束限制,包含所有那些出现在串尾的标记.所有这些规则均自动地收集自相应的训练语料.

    标注集
    分词,分别使用4词位和6词位标注集
         ngram特征模板
         5字窗口模板:C_i,i=-2,-1,0,1,2; C_iC_{i+1},i=-2,-1,0,1,以及C_{-1}C_1
         3字窗口模板:C_i,i=-1,0,1; C_iC_{i+1},i=-1,0,以及C_{-1}C_1
    NER 6词位标注集
         ngram特征模板仅使用3字窗口模板
    在MEMM中,状态转移特征将分别考虑1阶和2阶特征,即,t_{-1}和t_{-2}t_{-1}.

    性能评估一律为f-score.

    2.3实验结果

    ================================================================================================
    分词:
    ------------------------------------------------------------------------------------------------
    CTB4
    MaxEnt
    4-tag+5字窗口 0.9386(字分类) 0.9496(状态转移约束下解码)
    4-tag+3字窗口 0.9288(字分类) 0.9507(状态转移约束下解码)
    6-tag+5字窗口 0.9396(字分类) 0.9496(状态转移约束下解码)
    6-tag+3字窗口 0.9291(字分类) 0.9505(状态转移约束下解码)

    MEMM
    4-tag+5字窗口 0.9386(+1阶状态转移特征) 0.9391(+2阶状态转移特征)
    4-tag+3字窗口 0.9231(+1阶状态转移特征) 0.9241(+2阶状态转移特征)
    6-tag+5字窗口 0.9384(+1阶状态转移特征) 0.9384(+2阶状态转移特征)
    6-tag+3字窗口 0.9236(+1阶状态转移特征) 0.9235(+2阶状态转移特征)

    MEMM 下面附加状态转移约束解码不会导致性能发生改变.

    使用CRF,6-tag+3字窗口,1阶状态转移特征,性能0.953.MaxEnt下面给出的最优结果大致差0.002

    ------------------------------------------------------------------------------------------------
    CityU-2003
    4-tag+5字窗口 0.9278(MaxEnt字分类) 0.9423(MaxEnt字分类+状态转移约束下解码)
                  0.9255(MEMM,order-1) 0.9263(MEMM,order-2)
    6-tag+3字窗口 0.9189(MaxEnt字分类) 0.9456(MaxEnt字分类+状态转移约束下解码)
                  0.9147(MEMM,order-1) 0.9143(MEMM,order-2)

    Xue在[3]中使用 4-tag+5字窗口的order-2 MEMM给出的结果0.9143.需要说明的是,[3]中Xue使用了两个MEMM分别完成正向和逆向的串解码.同时他使用一个TBL方法来校正非法的标注序列。和CRF一样,MEMM其实不会给出非法的标记串序列,除非训练集本身包含错误。至于Xue的结果比我差的原因,我认为可能是他的训练参数未达到最优。
    使用CRF,6-tag+3字窗口,1阶状态转移特征,性能0.9473.MaxEnt下面给出的最优结果大致差0.002.


    ------------------------------------------------------------------------------------------------
    CityU-2005
    4-tag+5字窗口 0.9318(MaxEnt字分类)
                  0.9466(MaxEnt字分类+状态转移约束下解码)
                  0.9333(MEMM,order-1) 0.9322(MEMM,order-2)
                  +字符类别特征            
                       0.9422(MaxEnt字分类)
                       0.9550(MaxEnt字分类+状态转移约束下解码)
                 
    6-tag+3字窗口 0.9168(MaxEnt字分类)
                  0.9469(MaxEnt字分类+状态转移约束下解码)
                  0.9132(MEMM,order-1) 0.9154(MEMM,order-2)
                  +字符类别特征
                       0.9281(MaxEnt字分类)
                       0.9520(MaxEnt字分类+状态转移约束下解码)
                 
    Low et al.在[4]中使用 4-tag+5字窗口的(MaxEnt字分类+状态转移约束下解码+字符类别特征)给出的结果0.950.
    使用CRF,6-tag+3字窗口,1阶状态转移特征,性能0.9476,加入字符类别特征后,0.9563。


    ================================================================================================
    NER

    MSRA-2005
    6-tag+3字窗口 0.6617(MaxEnt字分类) 0.8313(MaxEnt字分类+状态转移约束下解码)
                  0.7170(MEMM,order-1) 0.7186(MEMM,order-1,+状态转移约束下解码)
                  0.7234(MEMM,order-2)
    使用CRF,6-tag+3字窗口,1阶状态转移特征,性能0.8528.   

    ================================================================================================

    3.结论
    3.1
    和期望的一样,MEMM优于完全基于分类器思想的MaxEnt,高阶的MEMM由于较低阶的MEMM. 然而,在字标注学习中(我谨慎的把下面的结论放在这个前提下),MEMM不敌MaxEnt+状态转移约束解码. MaxEnt+状态转移约束解码相比纯粹的MaxEnt算法, 性能上带来戏剧性的增长. 注意到由于2阶MEMM有时候轻微的好于1阶MEMM. Xue最开始可能被2阶MEMM的性能所误导. 这导致他虽然第一个吃到苹果,但不是吃得最多的人.
    3.2
    MaxEnt+状态转移约束解码轻微的弱于CRF(f-score性能差在分词上是0.002,在NER上0.02).但是,通常,前者的训练时间是后者的1/5-1/10.


    参考文献
    [1] Andrew Mccallum, Dayne Freitag, Fernando Pereira, Maximum Entropy Markov Models for Information Extraction and Segmentation, In Proceedings of the 7th International Conference on Machine Learning (ICML 2000): 591--598.
    [2] Nianwen Xue. 2003. Chinese Word Segmentation as Character Tagging. International Journal of Computational Linguistics and Chinese Language Processing, 8(1):29-48.
    [3] Nianwen Xue and Libin Shen. 2003. Chinese Word Segmentation as LMR Tagging, In  Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL'03. Sapporo, Japan.
    [4] Low, Jin Kiat, & Ng, Hwee Tou, & Guo, Wenyuan (2005). A Maximum Entropy Approach to Chinese Word Segmentation. Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing. (pp. 161-164). Jeju Island, Korea.

    本文的增强版本已经投杂志.

    February 01

    Stallman征婚了-zt

    Craigslist是全球最大和最早的分类广告网站,近日有人发现开源软件运动的领军人物Richard Stallman在其上发布了一则征婚启事

    “本人是单身白人无神论者,54岁,众所周知地聪明,非同寻常地热衷于政治、科学、音乐和跳舞。

    希望寻找一位兴趣广泛、对世界充满好奇、性格直爽爱憎分明(我讨厌猜来猜去)的温柔女性,能把乐趣、真理、美和正义看得比“成就”更重要......我花费很多时间在欧洲、亚洲和拉美演讲,如果能有时间与我一同旅行就最好不过了。”

    同时RMS还附上了自己的照片。

    本贴来源
    http://news.mydrivers.com/1/99/99243.htm

    评论:Stallman还是蛮谦虚的。

    January 29

    Encoding unsupervised segmentation features into CRF learning

    i found somebody is not clear how to integrate word-level information discovered by unsupervised segmentation in a character-level supervised learning system, even though i try my best to give a detailed description in my bakeoff-4 report. To explain how my method works actually, i copy a segmentation from the input file for crf++ training and test.

    上    11-S    8-B    0    5-B    0    0    0    B
    海    10-S    8-E    0    5-D    0    0    0    E
    浦    6-S    6-B    4-B    5-F    0    0    0    B
    东    9-S    6-E    4-D    5-E    0    0    0    E
    开    10-S    8-B    4-E    4-F    0    0    0    B
    发    10-S    8-E    4-D    4-E    0    0    0    E
    与    11-S    3-E    4-E    0    3-B    0    0    S
    法    10-S    5-B    0    4-B    3-D    0    0    B
    制    10-S    5-E    3-B    4-D    3-F    0    0    E
    建    9-S    9-B    3-D    4-F    3-M    0    0    B
    设    9-S    9-E    3-E    4-E    3-E    0    0    E
    同    10-S    5-B    3-E    0    0    0    0    B
    步    8-S    5-E    0    0    0    0    0    E


    each column between the first column and the last one is av feature with word candidate length 1-7, respectively.
    as for values, for example, 10-B, this means av value of this substring with the character as head is between 2^9-2^10.
    the maximal value will be chosen as what i described in our paper. for example,  the character 制 may get 3-B and 5-E among the context, but 5>3, so 5-E tag as feature is chosen.

    More details can be found in
    Hai Zhao and Chunyu Kit, Unsupervised Segmentation Helps Supervised Learning of Character Tagging for Word Segmentation and Named Entity Recognition, The Sixth SIGHAN Workshop on Chinese Language Processing (SIGHAN-6), pp.106-111, Hyderabad, India, January 11-12, 2008
    url: http://bcmi.sjtu.edu.cn/~zhaohai/pubs/WSNER-SIGHAN-6-zh.pdf


    January 28

    印度之行小结

    论文总是要写个conclusion的,所以想了想,还是写下前面流水账想说没有合适的地方说的话。
    印度人:总的来说,印度人是友好的,至少,对于能让他们赚钱的外国人是友好的。我所见到的大多数印度人天性乐观,性格平和,以至于有人说他们的男人都已经女性化了。不知道是不是非暴力运动的传统过头了,但是我想关键因素可能是因为印度的宗教传统。这使得印度人并不崇尚暴力,当然也许极端宗教主义者我没有遇到。印度我是我曾经去过的安全感最为强烈的地方。一路上从南到北看不到斗殴,甚至看不到吵架。整个社会平静而安宁。某种意义上说,印度现在已经是和谐社会了。:)但印度人肯定不属于纯朴的或者坦率的谈判对手,恰好相反,他们享受于赚快钱的乐趣。这种实用主义使得他们在面对外国人的时候经常一时侥幸而获益,也使得他们缺乏战略眼光而失去更多的机会。好在印度人大多表现得知足常乐,男女老少可以无所顾忌并且不分场合的向你乞讨,但你要是坚持不给,他们也不会烦恼更多。印度人大多黝黑,肤色似乎介于黑人和白人之间,我相信他们应该是早期的白人和印度黑人土著长期混血形成的。这种典型的印度人北部更多些。在印度南部,皮肤几乎完全黑色,但是又具有某些东南亚土著的脸部特征的人明显比北部多。印度人内部的种族和宗教之间的差异恐怕很容易从衣着上看出来。简单来说,在印度,你穿任何衣服,都不会有人惊讶。锡克教的头巾,印地人的纱丽,穆斯林的黑衣长袍可以和自然的混合在大街上川流不息。总的来说,由于印度常年气温很高,使得印度人的传统穿着显得飘逸洒脱,无论男女,很多人喜欢裹着围巾毛毯或是长袍。我去的时候算是冬季,但是即使是印度人觉得寒冷的北印度,我并不觉得比香港冷多少,至于海得拉巴这样的中南部地区,在我看来,它的冬季完全是一种夏天的架势。然而,正是这种长年高温,恐怕也使得印度人抵抗严寒的能力大大降低了吧。
    印度国家:自由散漫的民族天性导致的印度国家是一个无序的社会,尽管今天的印度中央政府可能是有史以来最为强大,统治面积史无前例的。虽然和低水平的经济发展关联,但印度的基础建设的无序以及公共设施以及配套服务的缺乏还是让人震惊。如果要用一句话来说,整个印度就像一个巨大的连绵的乡村。尽管像任何其他国家一样,印度也存在高端的服务设施,但是性价比非常低。每个社会,无论穷富,都多少有些高端低端的链条,富裕的发达的社会对于落后的社会的优势仅仅在于,它能够让更多的人享受更加高端的服务。整个印度的发展从整体上讲,不幸的,大都处于一种低水平上自娱自乐。最糟糕的是,政府的管制和规划作用无法感受到。从城市建设布局和交通管制,印度人大都满足于无政府状态的快乐。IJCNLP发给参会者的指南上就明确说,海得拉巴的公共交通是靠不住的,大家应该选择出租车(问题是非常昂贵,无论以印度价格还是国际价格)去会场。唯一的强力部门可能表现在一些关键的旅游景点甚至商场的安检上,滑稽的是,这些安检措施的确通常非常严格,可以媲美机场的安全检查,但是它的负责人员往往很晚才来上班,而且通常仅仅守住众多入口中的一个。
    语言:英语自然是印度的骄傲,也是它的优势,当然前提是地球上最强大的国家的官方语言永远是英语。但是英语的优势似乎有南北的差异。印度南部的英语明显比北部差很多,比如,我很难听懂海得拉巴人的英语,但是印度北部的英语就好很多,他们的发音规范得多,口音少得多。我们在海得拉巴的出租车司机经常要找人翻译我们的英语和当地的泰卢固语,但是北印度,无论是德里还是阿格拉这样的小镇,无论是刚上学的儿童,还是一个普通的auto司机,用英语的交流不存在任何障碍。不过滑稽的是,在北部印度,印地语的广告招牌非常多,也非常明显,几乎有超过英语告示牌的趋势,特别是在德里。然而在海得拉巴这样的印度中南部,几乎所有的室外广告都是英语的,甚至连当地的官方语言泰卢固语的广告都非常罕见,至于印地语的招牌则几乎没有。这多少反映了印度持续的南北差异的事实。英语某种意义上成了维护国家统一的一种纽带。尽管印地语是一半的印度人口(大多在北部)的母语,它可能还是在被南印度所持续抵制。印地语和英语作为印度的国家语言本来是印度独立后的临时安排,稍后英语应该是退出,但是现在看来印度南部的反对使得这一临时性安排几乎永久化了。


    January 26

    基于字分类的分词:最大熵方法

    今天写了一个最大熵标注工具.当然也可以说是在别人的内核上改写了下接口.我使用的参数估计代码来自
    http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/maxent/
    不过我把它嫁接了一个类似crf++风格的输入输出接口. 这样我就不用改写我的任何数据直接跑结果了.不过状态转移特征还没有写,因此只能做本地特征的试验了.
    继续用bakeoff-4的ctb语料,根据我和钱线讨论的结果,它在6tag+6ngram下的一阶crf的学习性能的正常数据应该是0.953.
    去掉状态转移特征,也就是马尔科夫特性都被忽略,那么实际上我就在用一种字分类的方法了.crf++给出的成绩是0.9313,我的最大熵的结果是0.9296.结果很接近.但是crf++训练大约跑了2个小时,而最大熵仅仅15分钟.全部使用优化的高斯先验值.
    尽管薛念文用最大熵启动了基于字标注的分词方法的里程碑,但迄今为止似乎还没有严格的数据在完全一致的环境下比较到底crf比me高多少.虽然大家都相信crf要好些.
    我目前的结果显示这个差距似乎仅有0.2%,但是训练代价不可同日而语.



    January 25

    印度纪行-1月15日-重回德里

    早晨的火车是6点开车,估计正点10点到达新德里火车站。因此我又一次被迫5点不到就早起。交还了钥匙就算check-out了,看到街上黑乎乎的,一个人影也没有。我因此很担心找不到车去火车站了。在街上晃了晃,一个早起的路人告诉我要到6点才能有auto。我不禁暗叫ringo误我,他昨天说即使这么早,找辆车不会是个问题。我在一个路口站了会,正在想怎么办,一个auto飞奔而来。我急忙招手,驾车的是一个jack船长打扮的当地人。在无人的街头,他带着我飞奔坎特火车站而去。

    火车站倒是有几个人,灯光虽然灰黄但是还算明亮。我坐的是车是Intercity Express。Ringo说这是辆不错的车,至少票价71卢比倒的确不错。不过我找到脏兮兮的车厢的时候,就知道它就只有票价还不错。和我来的车厢不同,这次我坐的是国内意义上的那种硬座车厢。唯一不同的是,国内的车厢是一边2人座,一边3人座,而印度这里的车厢是过道两侧都是3个人坐。车厢的顶上密密麻麻的安装着电风扇,粗略估计一节车厢有30个。我对面的是一对肥胖的富态母子,我的右侧是一个胖乎乎的白领mm,左边靠窗的是另外一个矮胖的白领男人。之所以说他们是白领,是因为我观察到他们衣着不凡,而且都在用高档崭新的智能手机。

    列车准时启动,和来阿格拉的A.P.Express一站到达不同(当时晚点半小时),这趟车会沿途停靠。胖mm下车前,告诉我next to next stop我就可以下车了,但是实际情况是next to next至少3-4遍,我才确信回到了新德里火车站。火车在临近德里的时候,不断走走停停,以至于我根本不知道算不算严格的停车,而且印度的车厢门不是由列车员控制的,实际上,并不存在列车员这个职位,而是由任何一个乘客自由打开的,所以列车缓慢停下的时候,很多人都在铁轨旁跳下车,左右观望,一发现列车缓慢启动,大家又急匆匆爬上车。

    Intercity Express晚点了近2个小时,总算负责任的到达了新德里。这时候已经快中午12点了。

    新德里和德里其实是一个城市的两个部分。德里是印度的传统首都,莫卧儿帝国的大部分时间定都于此(少数时间在阿格拉)。英国政府印度后的首都长期以来是加尔各答(靠近孟加拉)。在1911年,英国人在德里以南建立新城:新德里,将印度总督驻地迁于此。印度独立后,沿用这个城市作为首都。说起来,新德里作为首都的历史不超过100年。今天的德里和新德里在地理上没有明显的界限,城区连为一体。有时候为了区分,将原来的那个德里称之为旧德里。对比新旧德里,我只能通过坐车的观感粗略比较。新德里的城市更加现代化一些,而旧德里的街道更加狭窄,很多地方保持了阿格拉那样的小镇的拥挤风格。

    民以食为天,我是民,自然要找地方吃午饭。步行到老地方,康诺特广场。在看中央草地的两层楼房前站了会,和一个搭讪的年轻人聊了会天。自然是老问题,从哪里来,要到哪里去,到印度多久了。我告诉他我在找一个餐馆。他一指我身后,赫然有一个chinese restaurant。见我要进去,那人急忙说,很贵的哦。进去后,觉得装修得不错,比我昨晚去的Zee餐厅还要好。里面只有一对印度情侣和一对貌似韩国情侣在吃饭。我放下两个包,轻松的看了看菜单,果然价格不菲。我要了一盘红烧鱼块(3块鱼),一碗饭,一杯咖啡,539卢比(后面他们要小费,又签了50 卢比)。不过的确是中餐馆,鱼的调味酱味道很好,某种意义上已经捕捉到中餐的神韵了。期间,我打开我的e pc,删除了一下相机存储卡中一些多余的文件。给我服务的服务生(估计40-50岁)了表现出很感兴趣的样子,跑来问是不是笔记本,要花多少钱买之类的,还问什么配置之类的。因为卢比不足,因此我第一次在印度使用了信用卡。

    我的航班是将近半夜的,所以我有半天时间去我想去的地方看看,然后从容去机场。我曾经问了那个在去阿格拉的火车上认识的小伙子和Ringo,他们一致认为在德里如果有两个地方一定要去的话,应该是红堡和Qutb Minar.这里说的红堡是德里红堡,和阿格拉红堡一样,它原来也是皇宫.我看了看地图,发现红堡靠近德里的贾玛清真寺,因此,决定坐车先去清真寺.吸取在海得拉巴和阿格拉的教训,精明的印度司机既然决不肯吃亏,我就不包车了,一段段的找司机还价好了. 第一段,40卢比的auto从康诺特广场到贾玛清真寺.

    德里的贾玛清真寺要热闹得多.最重要的表现在,它的正门口是一个很大的当街农贸市场,我下车的地方就是一排排的鸡笼叫卖嘎嘎叫的禽类.本来我想进去,但是看门的警察认为我的包要存,我实在没有时间.于是在门口照了下巨大台阶上的人群以及后方的白色圆顶就离开了.
    由于正门朝南,我不得绕着整个清真寺走了一圈,穿过旧德里的一堆天空密布凌乱的电线的小巷子才来到大街上.

    路过一个具有独特风格的尖顶的耆那教神庙,还没有过马路,就能看到远处红堡的尖顶了.绕过一个朝西的广场,红堡的拉合尔门很奇怪的贴着墙朝北开.门口的安检居然要过x光机. 监视机器的中年妇女发现了我的笔记本. 这时候一个ppmm警察过来, 跟我说,笔记本必须存包. 我解释说, 我正在赶路,穿过红堡后我想从另外一个门离开(其实后来知道并不存在另外一个门). mm嫣然一笑说,那你一定要保证在里面不打开这个笔记本哦.我自然乐意承诺. 在高大的院墙下拐了个弯,要穿过一条城门风格的略显阴暗的步行商业街, 才能到达红堡的正门.

    不过到了正门,我傻眼了,一个管理员正在一个警察的配合下查门票,我上前去问,这才知道,在拉合尔门那里卖门票.虽然我知道无数印度的景点的卖票处和入口通常多少有段距离(很多时候甚至分别在马路对面),但像这次这么远也太离谱了吧.查门票的看到了我的窘境,马上威严但是低声说100卢比.旁边的警察重复了遍.我慌忙摸出100卢比上前靠近交给管理员.他快速收好,递给我半截撕过的票让我进去了. 下了台阶,我正走向正前方的大殿,那里过去是放皇帝宝座的地方. 忽然听到后边那个警察的喊声,我本来吓了跳,以为当众行贿印度官员被人揭发了. 结果是那个警察追上来又递给我一张半截子票.虽然不知道是什么,收下总是没有坏处的.

    德里红堡不同于阿格拉红堡的地方,我觉得是德里红堡的希腊式风格更加浓郁一些.而阿格拉红堡更多的是伊斯兰教风格的建筑.另外有一点就是后者可能还有军事要塞的功能,而德里红堡可能自始自终是作为皇宫.因此,德里红堡里面多是希腊风格的大殿和花园水榭.几乎所有的建筑都是一层的.除了正中间的那个大殿.那里的楼上是一个军事博物馆.文物的风格和海得拉巴的萨尔江博物馆差不多.军刀,军服,步枪等武器陈列其中.在红堡的东南角也有另外一个类似风格的博物馆. 两个博物馆都需要刚才那个警察后来追上来递给我的小票.这使得我对印度式的负责精神有了更加深入的认识.

    尽管时间紧迫,由于没有其他的出口,我不得不再次原路从拉合尔门出来.找了个auto,答应100卢比送我去Qutb Minar.按照我的要求,顺路在印度门停了下,本来以为可以靠近的.结果看门的士兵说,下午两点半关门了.我只好远远拍了张逆光的照片走人.

    一路无话,倒是发现印度人很善于宣传,可以看到路边长长的干道被不断重复的带有德里地铁字样的白色围墙所隔开的工地,但是地铁并不稀奇阿.Qutb Minar在新德里南部郊外,离机场并不远.门票在景区马路对面购买,外国人300卢比.虽然整个景区叫Qutb Minar,其实应该是一个以Qutb Minar为中心的宗教建筑群. 比如Minar旁边有一个荒废了的清真寺.

    据传Qutb Minar是12世纪的印度的穆斯林征服者,奴隶王朝的第一位苏丹,Qutb-ud-din,为了纪念击败印度教徒而修建的尖尖塔,它现在矗立于景区中央, 基部直径14.5米,底下三层由赤砂岩建成,上边两层由赤砂岩和大理石混筑而成。塔身上镌刻着古老阿拉伯文的《古兰经》经文和花纹图案,每层花纹相异且精致。现在塔大约有70多米高的样子,本来这个塔比现在我们能看到的更高,据说原来有100米,但是由于飞机失事,撞毁了顶部, 所以只有现在这么矮了.我第一次知道由于飞机失事可以导致一个千年的古塔截枝,感觉印度式幽默真的无处不在.塔的顶部原来是可以上去的,因为经常有人从上面往下跳(想想海得拉巴的charminar那么高根本没有防护措施,我宁愿相信过去在Qutb Minar顶上,应该是游客经常失足掉下), 所以上世纪70年代就关闭了,只开放第一层. 80年代的时候又不幸发生了学生践踏事故,从那以后大家就只能外观,不能入内了. 如果把这些事情送进MBA教材, 肯定是一个疏于管理而导致服务品质和内容不断下降的典型案例. 我不禁胡思乱想, 如果在中国, 会是怎样, 说不定后人接着重建被撞毁的塔顶, 进一步把塔加高到120米, 还可能极其富有创意的扩大顶部的天台, 租出个塔顶餐厅或者辛巴克也不是不可能. 然后在塔下再收取一次上塔的门票进一步增加营收. 可惜这里是印度, 仅博一笑.

    塔的东北紧挨着一个清真寺,但是已经破败.只留下一些希腊式的长廊供人凭吊.清真寺中央广场围着一个栅栏,中间供着一个竖立的铁棒.这个铁棒的历史远远高于它周围的陪衬,据说是公元4世纪的作品.可以依稀看到铁棒上1600年前的梵文.根据资料,铁棒高7米,重6吨,直径0.41米,成分中98%是熟铁。立于印度教笈多(Gupta)王朝时期。根据铭刻,此铁棒是为了纪念印度教庇护神毗斯努以及一位笈多王朝国王,同时用于天文观测.最开始,这里有一个印度教神庙。Qutb-ud-din建塔时拆了印度庙,建起清真寺,但留下了这根铁棒在其中。考古学者以及冶金学专家,对铁柱1600年以来高度的耐腐蚀能力颇感兴趣。他们将这种能力归因于铁棒其中高溶度的磷,进而由此产生的由氧化铁和磷酸盐组成的坚固的钝化层,对铁棒起到了关键性的保护作用。

    在清真寺的北部还有一个巨大的基座,称之为Alai Minar.既然只有一个基座,但又称之为Minar,看来就是一个未完工的塔了.根据资料.奴隶王朝另一位统治者Ala-ud-din曾经雄心勃勃的计划建一个两倍于Qutb Minar高度的尖塔,但是估计由于技术或者财政原因在这位苏丹去世后没有完成.
    Qutb Minar的南部的坡后是一大片带有坡度的草坪,不时有当地的儿童在上面追打嬉戏.

    全部逛完,我坐在Qutb Minar不远处的一个椅子上休息.夕阳这时候照过来,把尖塔照的略微有点发黄,断壁残垣也拉出来长长的阴影.周围很安静.我一直坐到快要天黑,这才离开.

    出乎我的意料,尽管红堡到Minar的距离是Minar到国际机场的距离的两倍,但是每一个auto司机都至少要200卢比.我对这种沾了国际机场高贵的仙气的现象无可奈何.最后终于找到一个150卢比的司机愿意送我去.
    由于离我起飞还有4个小时,本来我担心不让进机场的,但是居然还是被门卫批准进去了.机场的出发大厅倒是很整洁的很崭新的, 地板和天花板白得发亮, 比起到达大厅要好多了. 和我去Qutb的路上铺天盖地的德里地铁的广告一样,大厅的墙上也是不断重复写着两种标语,一种是,我们正在升级,以便更好地为您服务.另外一种是,一个世界级的机场等着您! 我对此深表怀疑. 按照中国的标准,印度人把机场当火车站来经营,把火车站当汽车站经营,至于汽车站,我怀疑他们根本就不经营. 这样怎么能有世界级.

    我坐的印度航空的登机办理点单独的在大厅的一角,和所有其他公司的办理点不在一起,显示了印度政府对于自己的航空公司毫不掩饰的偏爱. 办登机手续的时候,我的机票被改了航班, 从310改成了314.而后者是去日本大阪的.后来才知道,这个飞机会在香港停下,把我们扔下后继续飞大阪. 这让我想起,上次从香港过来的印航航班也是,先在德里把我们扔下,然后继续飞孟买.印度式的规划倒是精明得很.不过从侧面也能说明印度和国外的交流的程度还不够深入.

    机场大厅有好几个收费的打包机,上面都写着,每个旅客只能带一个手提行李. 我其实就两个小包,一个背包,另外一个IJCNLP发的提包有两件衣服. 办理托运实在没有意思, 我于是尝试着跟办登机的小伙子说,我还有个包,但是个空包,不知道可否带上.他让我提给他看了看, 立即准许了.

    由于大厅里面没什么商店,我准备到安检区区看看能买点什么.结果证明这是一个大大的失策. 离境手续办完后,没有进入安检区之前(这一点很奇怪的,我知道的通常机场的离境办理点和安检过道连在一起的).我发现了一排商店,当然也就是这一排而已. 在那里把剩下的600鲁比买了两包茶叶,后来回去一看,有一包居然是中国产的,然后给老婆买了条106美元的Cashmere围巾.过了安检,就进入了一个拥挤的大厅.遗憾的是,里面除了一两个咖啡店,就没什么店铺了.我的临时采购计划到此为止, 剩下的时候只能静候半夜的登机了. :(

    January 24

    印度纪行-1月14日:阿格拉

    由于硬邦邦的床板,睡眠并不好,所以7点多就起来了。到楼下的餐厅用早餐,点了份吞拉鱼沙拉套餐,花去了150卢比,外加10卢比的小费。而且真个餐厅就我一个人。尽管老板以他的餐厅自豪,但是和床板一样硬邦邦的面包让我无法恭维。我晃悠晃悠出来,跟坐前台的老板聊了会天。这时候那个服务的伙计突然从老板后面的餐厅里面冲出来,问我的钥匙在哪,天哪,我猛然想起,我似乎把钥匙放在餐桌上了。我急忙跑去,钥匙找不到了,急忙回到前台左右看。这时候那个伙计变魔术一样的从身后掏出了我的钥匙。我这才知道他跟我开了个玩笑,我应该是把钥匙拉在餐桌上了。作为感谢,我又掏了20卢比给你。
    吃完早餐第一件事情,就是要去兑换美元。我问了下老板,兑换点要街道拐弯才能找到。我慢悠悠走过清晨的阿格拉街道,感觉就像一个破败的国内小镇。印度人似乎起床都很晚,尽管已近8点,街上基本没什么人也没有什么车,甚至连auto都没有几个。在兑换点,拥有两名店员,也许是两名老板,的兑换店按照1美元37卢比的价格跟我进行了兑换,这比官方价格低了3卢比,最后交给我的时候,又得意洋洋的宣布扣去100卢比的手续费,真是ft。遵循陆老师的建议,我找了个auto,要他们带我去阿格拉红堡,路过maya旅馆的时候捎带停下让我把明天的房费交掉。在去红堡的路上,两位司机(不知道为什么司机旁边还要坐个伙计)建议我雇他们一整天,收费300卢比,最后我还价到200卢比成交。我到达红堡的时候还很早,早到负责安检的警察还没有上班,好在卖票的上班了,门票300卢比。

    跨过两重很高的城门,再走过长长的一段斜坡,就进入红堡前的一个广场了。但是我没有停留,继续穿过第三重城门,进入正式的广场,这个广场有点像故宫前的广场,只是规模小很多。红堡是阿格拉作为莫卧儿帝国首都期间的皇宫。红堡,顾名思义,几乎所有的主体建筑都是红色的。例外也有,红堡北部清真寺风格的圆顶就是白色的,估计那里应该是红堡的核心地带。但是在这个内广场的北部,一个铁栅栏封锁了去那里的路口。一群工人在那里进进出出,印度人宣布里面在施工,所以现在处于关闭状态。唯一值得一提的是红堡的东部靠近亚穆拉河的建筑群。

    亚穆拉河流经德里和阿格拉两个城市。由于一代雄主阿克巴没有儿子,最后在阿格拉找到了他宣布为继承人的那个男孩,他迁都阿格拉作为庆贺。那个男孩,就是建立了泰姬陵的沙贾汗的父亲贾汗吉尔。阿格拉红堡很大程度上记录了这三个著名的莫卧儿皇帝的历史。贾汗吉尔一度背叛阿克巴,但终获原谅。沙贾汗重复了他父亲的历史并进一步登峰造极,经历了若干场宫廷战争才击败他父亲娶的那位野心勃勃的皇后而获得帝位。沙贾汗显然是一个建筑艺术爱好者。红砂岩(作为城墙)和大理石(作为主要的宫殿)构成了红堡的主要建筑材料。

    著名的八角堡楼在红堡的东部。沙贾汗晚年重病后,四个儿子为了皇位发动内战。野心勃勃富有才干的三儿子奥朗则布最终获胜。他杀光了自己的兄弟,把自己的父亲囚禁在八角堡楼里。在红堡东部任何一个可以东望的平台或者窗口,都可以看到泰姬陵。由于是早上逆光,只能看到熟悉的泰姬陵的黑影。可以想象,老皇帝就是在这里,在遥望泰姬陵的孤独中度过9年,然后黯然去世的。

    离开红堡,我转向贾玛清真寺。我在清真寺门口下面的台阶徘徊的时候,被一个老者看到,他热情地跟我招手,要我上去。我上去后脱鞋,就走入一个广场,三面环绕着很高的红墙,清真寺里面应该是不能进去的。老者带着我在广场走了圈。介绍了清真寺大致的情景,特别让我留意进入祈祷的大门的穹顶上密密麻麻的蜂巢。自然,问了我从哪里来,我说中国,然后他就提到中印两国人民的友谊。我很感动这里还有中印友好人士。于是他顺势掏出一张纸,上面写着这个名义那个名义,但是英文语法不通,没看明白,后面我看懂了,是一堆卢比的数量。看来不破财不行了。那张纸上最小的是300卢比。虽然我不知道我为什么要付钱,我还是糊里糊涂的问,50卢比如何,老者居然很愉快地答应了。我递给他,他利索的塞入自己的衣服内层,熟练的说了句谢谢。我继续往前走,发现老者已经没有跟来了,一个人在后边的穹顶下面抬头仰望。出来的时候,给看鞋的,也许只是恰好在我出来的时候赶到我鞋子旁边的那个人,10卢比,旁边的乞丐10卢比。

    放血出来,我跟司机说,我要去阿格拉坎特火车站买明天的车票。阿格拉有两个火车站,一个叫红堡,一个叫坎特,昨天我就是从坎特火车站抵达阿格拉的。相对来说,坎特也是一个更大些,车更多的火车站。两位司机极力怂恿我就在贾玛清真寺旁边的红堡火车站买票。我想了想,就同意了。红堡火车站也有一个外国人窗口。而且即使包括印度人,买票的人很少。我前面那个买票的是个日本人,轮到我的时候,卖票的大叔又习惯的用日语问了下好,我不得不纠正说我来自中国。不过他很遗憾的告诉我,这里没有我要求的在早晨到德里的车次,如果我坚持的话,必须去坎特火车站买。

    我出来后告诉司机。两位司机比较沮丧,不过很快他们又出了个主意,劝说我去一个附近的火车票代理处。也不管我同意不同意,他们直接拉我到那里。没有办法,我告诉他们,如果手续费太贵,我还是要去坎特火车站的。果然,141卢比的车票居然要100卢比的手续费。我自然拒绝了。现在才11点不到,我有的是时间。没有办法,两位司机只好把我拉到坎特火车站。这个火车站离红堡和泰姬陵都很远。我估计司机们的心,不,钱包,在流血。

    坎特火车站乱糟糟的。在专门的外国人售票窗口一群老印们也在那里凑热闹,全然不顾国际友好。我注意到一对日本情侣排在我前面买票回德里,不过他们是今天晚上的车,不像我是明天早上。搭上话后,我知道,男生叫Ringo,女生叫Mary。Ringo似乎很熟悉这里,他友好的帮我选好了车次座位等级。他家就住在德里,我们互相留下了电话email(可惜后来没到德里就丢了),他让我明天到了德里跟他联系。出来后,我让他们两人坐我的auto回他们住的Khema旅馆,
    Khema和我的Maya一样,都在泰姬陵附近,而且非常便宜,只要150卢比。刚要上车的时候,突然跑来一个大汉握住我的肩膀, 我吓了跳, 仔细看清楚, 才发现就是昨晚送我来的那个司机, 他问我怎么没有和他联系, 我答应要租他的车的, 我很圆滑地说, 你看, 我碰我的朋友了, 所以我的计划改变了.

    到了Khema旅馆,本来我安排司机继续等我,没想到司机突然向我要钱,我很惊讶。司机信口雌黄地说,200卢比只能管一个上午,如果要全天,是500卢比。我气坏了。Ringo更加生气,他告诉我,这里包车的正常价格是150卢比一天。考虑到泰姬陵就在我住的旅馆不远处,所有要远去的地方我早上已经去过了,下午我也就去看看泰姬陵了,我于是干脆给了司机200卢比让他走人。
    尽管发生了这个不快,好在没有影响大家的兴致,Ringo邀请我到他们旅馆的顶楼去看泰姬陵,他说下午也要陪Mary去看泰姬陵。到了顶楼,也就是三层楼高的样子,我发现阿格拉得几乎所有房子都是在这个高度或者更矮,而白色泰姬陵就正好地平线上赫然耸立。Ringo跑下楼办事情的时候,我跟Mary聊了聊,才知道Ringo其实是印度人,不过来自和缅甸交界的曼尼普尔邦,那里居住的是和我们东方人一样的黄种人,而不像印度本土居住的那些“正常的”黝黑的印度人。Mary倒的确是一个日本人,她应该是在德里旅游的时候和Ringo结识的。难怪我会把Ringo当作日本人,他长发外加一个小帽,在长相和打扮上和典型的日本青年根本无法区别。不过,他懂六种印度语言外加英语,倒是让我叹为观止。下了楼顶,我们喝了点咖啡,我吃了碗印度式炒面,Ringo告诉我他的爱好是搜集硬币,我于是搜罗了我的包半天,但也只找到5毛人民币硬币,就很不好意思地给他了。然后我们三人就出发去泰姬陵了。

    泰姬陵的外围的关键路口用铁架子围了几个安全检查的岗哨,但是警察们通常都坐在那里聊天,一般不会过问普通游客。泰姬陵的门票印度人似乎是30卢比,外国人是750卢比(饱含了500卢比的ADA票,该票用于赞助印度考古研究,当然,前提是印度的地下真的还有文物需要挖掘的话)。在买票的时候,Ringo果然遇到了麻烦,卖票的老印毫不犹豫得让他去外国人窗口去买。我看着他和卖票的用印地语争吵,把印度身份证甩到桌子上。最后,他成功的帮自己和Mary买到了印度价格的票。我自己当然只能到隔壁老老实实买外国人票了。本来我以为相机还要收费的,但是他们说相机免费,只有录像机要收费。我对这个规定感到很滑稽,难道印度人不知道现在很多相机都有录像功能。不过,倒也真的有可能,我在海得拉巴的报纸上看到的广告都是卖的廉价数码相机。在旅游景点能够看到使用相机的印度人很少。相比之下,手机的普及率倒是客观。

    进门安检的时候,又遇到了麻烦,警察说我们的包太多太大,要我们去存包,我不得不把一堆纸币信用卡证件掏出来鼓鼓囊囊的塞了两个裤子口袋,然后让Ringo帮忙去存包。进入后,首先是一条横着的街道通往一道红色砂岩铸就的大门,只有那道大门才通往泰姬陵的广场。所以,泰姬陵实际上两个院落。游客只能先进入前院,才能进入正院。虽然门建设得很大,但红门的门口并不宽,所以那里的人群总是很密集。穿过那道门,就能正对白色的泰姬陵主建筑了。泰姬陵之前,有一道长长的水池用来映照白色宏伟的建筑。据说如果天气好的话,似乎能看到两个泰姬陵。不过今天显然不属于这样的好天气。

    我们徐徐向前。在距离泰姬陵一半的路上,一个大约1米高的水泥台把那个长长的水池隔断,上面放了一个椅子。自然,无数的游客挤在那里合影。泰姬陵建在一个几米高的基座上,基座的四角是四个细柱拱卫。在基座前面正下面,是大家脱鞋的地方。脱鞋后,无数的光脚和袜子通过两边的台阶走上去。这时候仰望泰姬陵发觉它的确宏伟壮观,最重要的是,有一种独特的优雅的风格在里面,尽管一眼能够看出这是一个伊斯兰教风格的圆顶建筑。沙贾汗在这里把他对大理石的热爱表现得淋漓尽致,硕大而白色的大理石让人有一种纯洁无瑕的轻松感。遗憾的是,可能是大气污染的缘故,我发觉泰姬陵的白墙已经隐隐有点发黄。人群涌入泰姬陵的大殿,可以瞻仰泰姬的陵墓,按照火车上那位阿格拉小伙子的说法,这个算是衣冠冢,不能当真的。但是门口的牌子上还是可以严肃的文字:内部严禁拍照。不过这个自然难不住那些跃跃欲试的投机分子了。我就看到了数起闪光灯在里面闪耀。

    泰姬陵后正好能看到蜿蜒的亚穆拉河,河的正对岸有一片荒芜的树林,在树林边上的河岸上,有一个和这边的角亭类似的亭子,孤零零的矗立在对岸的一堵没有完成的墙上。据说沙贾汗计划为自己盖一个黑色的泰姬陵。然而不孝儿子奥朗则布破坏了他的计划,只留下那个孤零零的亭子。退一步说,泰姬陵耗费当时的百万卢比,无数建筑工人设计师20多年。当时再建一个泰姬陵恐怕也超出了莫卧儿帝国的国力。

    逛完了泰姬陵的主建筑。我们三人向一边的baby mahal走去。baby mahal似乎只是Ringo的说法,它们一边一个,拱卫在白色的泰姬陵基座两侧不远处,高度略小于主建筑,是一个红色的大殿式建筑。这个大殿在靠近河边的方向顶部是一个很高的平台,平台尽头立有一个八角亭。我们在下边浏览了一下。突然发现左侧有一个虚掩的门后有个楼梯,似乎通向楼顶,我们推了下,正想上去,一个扛着步枪的警察(或者是士兵,反正我分不清楚)从上面的平台探头向我们看来。我们急忙后退,表示不会上去。没想到那个士兵友好的一笑,示意我们上去。自然我们不会拒绝。上去后,士兵在楼梯口接应我们。他告诉我们,千万不要让对面的游客或者巡逻的士兵看到了。所以我们都弓着腰跑到亭子那里的柱子后边。在那里从高处俯望河边。不过说实话,尽管看得更远,视野更开阔,作为一个除了泰姬陵就什么也没有的小城,阿格拉的高处其实也没有什么特别可看的。难怪这个地方会被关闭起来。我们感激地在士兵的带领下重新猫腰回到楼梯下去。正要出那个门。士兵把Ringo拦住了,原来他要100卢比。讨价还价,Ringo给了他50卢比,我已经掏出了50卢比,在路过士兵身边的时候,干脆也给他了。年轻的士兵兴奋的把我的手狠狠握了下。出了门,Ringo气愤地跟我说,“do you know,in india, money bribe is everywhere.”我哈哈一笑。

    出了泰姬陵大门,我和Ringo握手道别。然后就步行回到Maya旅馆。在阿格拉的小巷走过,一路上不断被Japanese,korean的招呼所骚扰。而且印度人特别喜欢照相,即使他们收不到相片,也总是请你给他照。特别是小孩子,他们带有更多的好奇。不过稍不留神,他们也会央求你要些巧克力或者10卢比之类的。我路过maya门口的那条街道的时候,居然走过头了,当时不知道,但是越走越不对劲,遇事问了路边两个少年,他们拿着我给他们的maya的名片,说了声跟我来,就一直领着我到maya旅馆的门口。我自然是非常感谢。

    回到旅馆,收拾了一下,喝了刚买的瓶装水,我决定再出去逛逛,同时找个新的餐厅吃晚饭。在我刚才回来的路上,我发现了几个餐厅,外观看起来还不错,但是我跑去看了看他们的菜谱,都很单调。最后我决定去旅游指南上提到的一家名为Zee的旅馆地下一层的餐厅。因为旅游指南上说这家餐厅饭菜出名的好,只是价格不菲。我决定去试试。租了个人力脚踏车,很快就到了那里,Zee这个旅馆在另外一个大型的豪华旅馆Taj View的不远处。我在找它的时候,遇到了一个黑乎乎的小女孩,她按照印度人通常的习惯向我要10卢比。我急匆匆走过,没有给她。钻到Zee下面的那个餐厅,发现餐厅的布置很整洁也很有情调,先看了看它的菜单,发现居然有鱼这种标志性的食品,于是我决定就在这里吃了。整个餐厅始终只有我一人,这多少让我有点不自在。不过,的确,它的菜蛮贵的,一盘鱼块(不超过6块)加一个米饭,居然要400卢比。不过我尝了尝,作的味道的确不错。离开后,我继续在华灯初上的街上闲逛。碰巧,又碰上那个女孩了,她自我介绍说我叫Sonia。居然和国大党主席一个名字,有志气。我只好讪讪的说我的名字叫hi。于是我问她,你怎么不去上学呢,出乎意料,她说正在一年级。我给了她10卢比,勉励她好好学习,就跟她再见了。


    印度纪行-1月13日:从德里到阿格拉

    早晨坐kingfisher的航班大约9点就到了德里的国内机场。在找预付费的出租车的时候,发生了一点不快。本来我找到的是一个机场内最靠近出口的一 个旅游代理,一个中年男子友好的跟我打招呼,按照惯例,认为我是日本人,听到说是中国人后,多少表示下惊讶,当然,这个不妨碍他开出700卢比的价格支付 先到国际机场,再到新德里火车站的费用。我表示太高,他拿着计算机算阿算,然后告诉我,作为友谊的代价,500卢比。我觉得实在太贵,于是出去逛了圈,发 现没有合适的车可以坐。于是重新进入机场,找到一个排了长队的出租车付费点。价格还算公道,但是他们不支持到达两个地方的预付费,175卢比只能到达新德 里火车站。我于是准备上车后跟司机私下交易,让他带我去国际机场停下。上车后,我跟司机谈起这个打算,他最开始坚持再收200卢比,最后还价到150成 交。但是快到新德里国际机场的时候,司机突然把付费的那张条子要去(司机凭条从付费中心领取费用),递过去后我觉得不对劲,但是晚了。我再向他要回条子, 他说什么也不肯了,而且,突然之间,他宣布不懂得英语了,总是说,Hindi speaking, Hindi speaking。我提建议说,我可以给他一部分卢比,他要保证等我,我逗留下确认下机票就会继续去火车站的,我还给他机票看是14号出发的。但他就反复 重复那句话。我被这个不可理喻的家伙气得没辙,于是不抱希望地说,好吧,我下去了,你可一定要等我。我刚下车,如我所料,这个猪头就开车跑了。真不明白这家伙 怎么想的。

    我在德里国际机场旁边的一个小房子上的小窗口确认了机票改签到15号了。于是放心找车去新德里火车站。国际机场的预付费出租车中心开出了250卢比的价格 到达火车站(后来我发现了,只要是和这个国际机场沾边的交通费,都会不同寻常的贵)。而且,可惜的是,我没有看清付费的条子,上了车才发现,单子上写的居 然是到康诺特广场。简直气坏我了,我一直在说我要去火车站,从来没有说过到这个广场,虽然火车站在广场北部不远处。
    司机继续是一个滑头的家伙,中途他还停车买了点小吃,音乐开得老大。不知道在什么地方,我估计在康诺特广场的南端还有些距离,他就宣布到了,要我下车,我 拒绝了,拿出旅游指南,指着一个标志性建筑的照片,说必须到那里。他没有办法,又开了好一会才到。然后又要钱,说要50卢比小费。我不理他,本来找10卢 比的,只找到个20卢比的,于是说了句“便宜你了”,愤愤下车。

    既然到了,就在广场逛了逛,很快,就有友好人士上来搭话。好在我已经被旅游指南训练得百毒不侵,倒也无所畏惧。好几个小伙子轮番上来搭讪,通常问我从哪 来,来了多久,我说来自中国的时候,他们立即都表示那是一个让他们神往的地方,然后问我来了多久,我胡诌说,来了半个月了。这时候,他们多半有点失落。但 是他们多半还是努力的保持了神采奕奕的样子,继续友好的给我指出“官方的”旅游代理处的位置。他们会接着问我要去哪里,我跟一个小伙子说要去火车站,他就 立即企图阻止我说,今天是星期日,火车站关门了。我解释说,我只是去那里会见我的朋友,不是去坐火车。跟另外一个小伙子,我说我有一个印度航空通票,马上 会到机场继续赶飞机的,他自然失落得说不出话来,只好悻悻离开了。再跟另外一个小伙子说我要去康诺特广场的中央草坪的时候,他也是习惯性的睁眼说瞎话,说 那里今天不开放,问题是滔天的军乐声正在从那里传来。

    我穿过马路,越过一个栅栏门,很容易就进入了圆形的康诺特中央广场。那里有一个草坪洼地。一群中学生样子的军乐队正在那里列队演奏。周围的一侧聚满了围观 的印度人。扛着步枪的警察还来回巡逻。根据跟我搭讪的某个年轻人的说法,这是学生为了10天后的共和国日游行做的排练。逛了一圈,发现广场周围只有些2层建筑,也没有特别显著的可看之处。于是就起身去火车站。

    问了下路,绕来绕去,居然绕进了火车站站台。印度火车站没有任何管理,没有围墙,以至于鸽子都在大厅里面飞来飞去。我直奔二楼
    的外国游客服务中心。那里倒是蛮好的。一排排的售票电脑和搭配的卖票大叔在兢兢业业工作。门口还有一个友好的问讯处。只看到一些韩国mm和几个西方人在哪 里买票咨询,基本不用排队。本来我想买11点出发到阿格拉的车票的。结果门口问讯处的大叔说这趟车已经不能买票了。他推荐一个A.B.Express。居 然是下午5点出发的。我去看了看贴在旁边的时刻表,分明只有A.P.Express。我去核对,问他是B还是P,他似乎很生气的大声说就是B,我只好按照 他说的在火车票申购表(印度买火车票都必须填表)上填写A.B.Express。由于车厢等级太多,我不明白,所以没有填写。卖票的大叔问我坐什么等级的 车厢,我说只要有位子就行,他大笔一挥,添了个lower berth。200公里的历程,收费141卢比,还算物美价廉,我给了他150卢比,自然9卢比有去无回。我看了看车票,分明打印写着 A.P.Express。于是对于印度式英语又有了更深入的认识。

    买完票,发觉还有大半天不知道怎么打发。于是跟几个买票的韩国mm和韩国帅哥搭了搭话,本来期待他们中有人也去阿格拉的,但是一个也没有。大多去很远的诸 如班加罗尔,加尔各达之类的。于是只好出来,到处逛逛。离开外国人中心的时候,和一个胖乎乎的白人老外聊了聊坐火车的常识,他告诉我最好半小时前就到自己 的车厢前面待命。下楼梯到一楼大厅的时候,他和我都被黑压压的人群震惊住了。他说了声“too busy,god”,和我好不容易绕出人群到了火车站前的广场。那里一样也是人挤人。

    我和他分手后,就决定去Pahar Ganj(主集市),本来我没什么概念,但是等我进入后,才发现这里多少相当于国内的步行街。不同的是,这里有很多廉价旅馆。当然,旅馆我是不需要的。狭 窄的过道上,很多auto还频频过来跟我招揽生意。店铺的人也跟我这个“日本人”打招呼。让我惊讶的是,很多人居然能够说一句日语的问候语。店铺大多卖些 纪念品,衣物,印度手工艺品,香料之类的。我基本上没什么兴趣。偶尔也有一些小吃卖。按照旅游指南上的说法,本来我直奔上面说的很好吃的饭店。结果过去一 看,不过是一个黑乎乎的,卫生状态让人不敢亲近的小铺子。最后,逛完了整个集市,也没有找到一个像样的吃饭的地方。没有办法,临近当地时间下午2点,我决 定去一个“中餐,西餐,印度餐,做什么都好吃”(旅游指南上的原话)的饭店。到了一看,是一个坐落于半地下的一个小店。一个冷冰冰的服务生在那里慢腾腾忙 活。我坐下去好久,他才把菜单拿来。只有一张纸。一张纸能够覆盖这么多的菜系,我不禁佩服得五体投地。招来找去,我点了个番茄饭和一杯冻咖啡。上来后,发 现番茄饭就是一碗干巴巴的米饭(根据我在海得拉巴的经验,所有的印度米饭都如此干硬)外加一点点番茄末,咖啡味道倒是马马虎虎。快速吃完,也没有觉得好吃 不好吃。

    重新走回车站,跟各种各样的人搭讪,聊天。熬到4点多。就开始进站了。新德里火车站只有两个天桥用来跨越各个站台。入站口有个地方坐着两个人悠闲的执行着 安检的工作,但是只是有一茬没一茬的随机察看。而且进入天桥或者进入火车站的路线有好多条,最明显的,旁边有电梯的那个入口就是没有任何人看着的。所以我 严重怀疑安检存在的必要性。整个火车站唯一的管理措施是大厅中的电子显示屏显示的以及广播中播报的车次站台信息。站台上一样人挤人。我坐的车本来宣布是5 站台的,结果我下去后,才发现停在4站台了。
    我上了车,才发觉这是一列到海得拉巴的长途客车,至于我的车厢,是一个卧铺车厢。车厢中人很少,比如,我对面就只有一个年轻人。

    不断有些像乘务员样的人喊着印地语“chayi,chayi”的来来回回卖。直到从阿格拉回来,我才明白,原来他们卖的是茶水,实在太像汉语普通话中的茶 叶的发音了。当然,这些人其实也不可能是乘务员。坐了两次后,我发觉,至少我坐的这种等级的车厢是没有国内意义上的那种乘务员的。可能整列火车也就配备1 -2个查票的人员。这就是全部的列车服务了。

    后来,我和对面的小伙子聊起来。原来他居然是IIT计算机专业毕业的,在新德里的一家外包软件公司工作。这次是回到阿格拉父母家。我和他聊了聊泰姬陵的话 题。当他听说泰姬陵在汉语中的意思是tomb的时候显得很惊讶。印地语泰姬陵是Taj Mahal,本来我以为Mahal是陵墓的意思,他这么一说,加上我后来参观了其他的一些景点,才意识到Mahal这个词应该是大殿,宫殿之类的意思,反 而不大可能是陵墓的意思。我跟他解释说,陵,一般是庄严的,美丽的,很宏伟的陵墓,在汉语中是一个很好的词。

    下车后已经当地时间9点多,我的印度朋友很帮我找到了站内的一个旅游代理,又找到了一个出租车司机,说好了150卢比的价格到我要去Taj Khema旅馆,这才友好的跟我告别。司机是一个英语非常流利的高个大汉,深更半夜的,就我一个人,我多少有点担心。不过这个司机还是蛮爽快的,本来他拉 我去他的auto,我说要去坐出租车,于是他又带我去找他的出租车,路上路过停车场的一个牌子,上面写着到达我要去的Taj Khema旅馆的车费标准,他还专门指给我看。让我惊讶的是,他的车居然用帆布包裹了起来,他揭开后,我才发现是一辆新车。难怪这么爱惜。在车上,他演示 了他的DVD播放系统,还问我喜不喜欢印度音乐,我投其所好的告诉他,我从小就喜欢。
    他还把他的一个名片给我,我一看,居然是另外一个旅游指南上推荐的maya旅馆的名片。他说这是他的旅馆。然后又说了些Taj Khema旅馆的坏话。车停下后,我下车,居然发现就是他的maya旅馆,我不干了,他也不坚持,重新上车,去Taj Khema。但是在一个横杠前停下了,因为他的车开不过去。我和他步行了150米的样子,在漆黑,没有路灯,只有狗儿偶尔叫叫的阿格拉街头走了一遭。到达 了位于洼地的一个小庭院式的旅馆Taj Khema。我们推门进去的时候,发现没有人坐在前台,喊了几声,才有两个人,一老一少跑来。不过按照它们挂在墙上的收费标准,最便宜的房费高达960卢 比。远远高于我的旅游指南上的推荐价。看着这么小的旅馆,我觉得实在不划算。于是离开去maya看看。司机当然很高兴。进入Maya,老板,前台,收银都 是一个人,让人赞赏的是,这么晚了,他还在勤奋的工作,和Taj Khema的怠工成了鲜明对比。老板带我去了2楼的一个房间。我注意到这明显是一个双人间的大床,我问房费如何,老板很严肃的开价1000卢比,我几乎晕 倒,我问有没有其他的,他说没有。想想旅游指南上说maya最贵的房间才350卢比,这简直是抢劫。于是开始还价,我开价500卢比。老板妥协了,700 卢比。我还是坚持500卢比。老板继续妥协,600卢比。我还是坚持我的价格,老板宣布不干了。司机在旁边也很着急,明显的,我即将要付的房费也包含他的 辛苦费。司机跑来打圆场说,这样子,取一个谁也不吃亏的价格,550。我还说要加入早餐,老板坚决拒绝了,而且拿来一张写着菜单的纸,说明他的餐厅如何的 奢侈。最后550卢比成交。由于我身上卢比不够,我支付了一天的费用。司机满意离去,走之前还跟我说明天去玩一定要打电话找他坐他的新车,我当然热情的答 应了他。

    小伙计带我进入房间,本来我问电话怎么打进来,结果他支支吾吾。进房间才知道,这里根本没有房间电话。热水器也极其不稳定。至于空调,不知道遥控器偷偷放 在哪里了。自来水的味道比在海得拉巴还差。一本旅游指南上曾说这个旅馆的被子太软是他们唯一的缺点,我觉得事实完全相反,感觉他们压根就没有垫被子在床 上,睡着觉得床板特别硬。好在被子盖着还算暖和。另外一本旅游指南上对于这个旅馆的介绍时这样的:“老板Raju人很爽,会告诉你很多信息。对印度之旅已 经疲惫了的旅客推荐来这里。”事实上是,第二天早上我问老板他是不是Raju,他告诉我,他不是,Raju已经在另外一个旅馆爽去了。



    印度纪行-1月12日

    SIGHAN持续一天半,所以今天还有半天。我是所有报告的最后一个,Olivia解释说,因为我的名字按照拼写顺序排在最后。我这一场报告的主席是Richard Sproat,昨天我就发现他频频出现了,但是一直不认识,后来问了Olivia才知道的。这么一说,我记起我在主会上的那个Session的主席也是他。我快速讲完,之所以快速,是因为Sproat提醒还有5分钟的时候,我只讲了一半。遗憾的是没有人提问题。看来我的系统地重现特性还是蛮好的。也说明我的方法是深入浅出的。:)

    昨晚林教授回去了。今天陈文亮也要回去,所以今天中午我和毛新年就到陈爱涛的best western旅馆去吃饭。中午去他那里的时候,发现那个旅馆的确是一个很好的地方,它由一个古堡改建,或者说,它建成了一个古堡的式样。因而别具特色。另外,消费比QIR还要便宜。餐厅很大,当然,和我们的旅馆以及陈文亮的旅馆一样,进餐的人总是稀稀拉拉的,无处不在地显示印度高端消费的不振。

    吃完午饭,我们三人决定去侯赛因湖看看。由资料显示这是一个人工湖。由于它位于海德拉巴城去的中心,可能稍微偏北点,面积很大,所以应该值得一看。IJCNLP提供的宣传材料上就是以这个湖中心的佛像作为题头照片。我们租了个车,说好两小时绕湖游览一周。我们先到一个游艇码头区逛了逛,有点意外的是,这里也有安检,开包检查,金属探测器一一领教。滑稽的是,就在安检入口旁边,有一个无人看守的两格的栅栏,一个向我这么样的成年人可以在那里轻松的匍匐着溜进这个湖边娱乐区。进去后,看到了一些快餐店,冷饮店之类的店铺。在湖边的凉亭下,年轻人们三三两两的聊天喝饮料。不过,唯一的问题是,湖水的味道不好闻,有一股轻微的臭味隐隐约约传来。我们大致在湖的北侧的样子,所以那个标志性的佛像看起来很远。岸边有一个很小的码头,停着一艘船。据说这艘船就是专门负责把大家送到那个佛像那里的。海德拉巴的居民应该是北部印度教徒,南部穆斯林,佛教徒的人数应该忽略不计吧。我总是猜想是谁提出来在这里建立一个佛像的。真是太有才了。印度教的确有偶像崇拜,但是伊斯兰教没有,所以在湖中放一个毗斯努之类的塑像在海德拉巴这个敏感的地方实在不是个好主意。佛像就没这问题了,不是你的,也不是我的,外来的佛像会念经嘛。

    除了湖对岸普遍3-4层楼高的房子,码头娱乐区实在没什么可看的。我们很快回头重新上车。让司机沿着湖边继续走。司机在路上又推荐了一个湖边公园,不过我们在车上扫了眼,感觉没什么看头,而且据说门票还要250卢比之多,简直抢钱。司机继续推荐其他的逗留点。我们也没什么兴趣。于是沿着湖边公路走了会,可能还没到湖周长的一半,司机二话不说,把我们拉回了旅馆。快要到旅馆了,才故作姿态的问,还有什么可看的。我们私下揣摩着,可能司机寄希望于我们在湖边绿地能“流连忘返”,而压根就没有让我们在车上真的跑两个小时的想法。毕竟,连续跑两个小时的汽油费可不便宜。

    January 23

    印度纪行-1月11日

    今天开始IJCNLP后续的workshop,我参加的自然是SIGHAN。早晨去的时候接我们的出租车晚了,所以到了workshop的会场IIIT-Hyderabad也迟到了。上午是正式论文的报告会。分别由Olivia和苏简主持。感觉提问还是蛮踊跃的。让我们惊喜的是,SIGHAN居然提供了硬拷贝的论文集。想想IJCNLP主会的论文集还要1700卢比额外购买呢。

    中午吃饭在IIIT一个似乎位于角落的楼房的二楼进行。由于有人没来报告,我们得以提前结束去吃午饭。午饭和ISB那里的主会的午餐大同小异。在那里,我认识了香港理工大学的陆晴老师,她已经去过阿格拉了,所以告诉了我好多关于去那里的经验,比如在新德里可以去外国人窗口买票,泰姬陵要下午才能看清楚,因为中午有雾之类的。她还把她买的一本旅游指南给我用,后来这本书的确发挥了很大的作用。:)

    下午开始本届bakeoff的报告,由朱靖波老师主持。感觉本届SIGHAN任期略显不足,国内大学中,仅有朱老师代表的东北大学有代表过来,其他的就只有法国电信和诺基亚两个跨国公司的代表了。本次workshop很大程度上还是香港台湾代表为主,甚至日本代表都不少。至于人数较少的原因,可能是由于在印度开会的缘故吧。
    毛新年在最后一个讲,所以我们很有耐心地等到他的最后一场报告。然后集体坐车到陈文亮的旅馆继续吃晚饭。


    印度纪行-1月10日


    今天实在没什么可说的。流水账如下:
    上午认识了来自Yahoo的陈爱涛。他专程过来参加明天开始的SIGHAN。在他现场注册后,我们在一边聊了会天,顺便问了下他怎么做这次的pos tagging的。下午他和聂建云,张瑞强租了个auto去看Golconda fort去了。打发完最后一场报告,就举行闭幕式了。下届ijcnlp将和acl合办。地点在新加坡,因此来自新加坡的李海舟作了个举办地简介,放了两段据说由新加坡旅游局提供的录像。

    晚上,我们相约到陈文亮的旅馆吃晚饭,据说那里有印度罕见的荤菜。毛新年在那里发现了鸡,我发现了鱼。倒是皆大欢喜。

    January 22

    印度纪行-1月9日-Golconda Fort and Charminar

    早上定下的出租车本来说去接周强老师,但是到他的旅馆的时候,他已经离开了。于是我们三人决定翘会去看看海德拉巴有什么像 样的景点。根据林教授的研究,列出了一个长达8个景点的清单。不过最重要的就是Golconda Fort和Charminar了。某种意义上来说,这两个景点之间以及它们和海德拉巴的历史都是密切关联的。

    海德拉巴(Hyderabad)作为安得拉邦(Andhra Pradesh)的首府,印度第五大城市,充满了伊斯兰氛围,特别在Musi河 的南岸,明显看到更多的蒙着面纱和黑衣长袍的女性增多。大海德拉巴市区分为旧市区和新市区Secunderabad。我们住的地方在侯赛因湖 (Hussein Sagar)的南部不远处,属于旧市区,新市区在湖更靠北的位置。海德拉巴旧市区按照国内的城市化标准来说,实际上很难说是一个城市,确切说,更像一个人口密集的超级大村寨。AUTO排出的浓郁尾气,无处不在的小摊小贩,摩托,汽车,乃至马车共享的车道,公共设施缺乏使得整个城市处于严重的无序状 态。我们坐车的时候路过可能属于新市区的区域,根据街道的外观,也许只有那里才算一个像样的城市。我发现印度好多城市的名字的末尾都带 有-rabad的词尾,我没有问过印地语的来历,大致猜测可能这个词尾就代表着城市,堡垒的意思。Hyderabad的词头Hyder-听起来像水的词根 Hydro演化而来,所以我本来猜测这个城市的名字就是“水城”的意思(后来查了下资料,并非如此)。不过这个至少符合一些事实,海德拉巴市区范围就有一 个比较大的侯赛因湖(有资料称这是一个人工湖),郊区的湖泊也有若干个。水肯定是不少的。作为海德拉巴的孪生城,Secunderabad,可能就是“第二城”的意思吧。

    印度人天性散漫而不善于记载他们的历史。号称文明古国,但是明确记载的历史文献并不多,以至于要依赖于外国人的记载,比如,玄奘的游记。海德拉巴作为一个 非印地语邦(泰卢固语)的首府,大致是历史上统一的印度王朝(多来自北方)往南部扩张的终点,至少也是不断处于独立和被北印度的中央王朝政府的拉锯中。实 际上,印度历史上从未获得过一个从南致北的统一。次大陆的南端,绝大多数的历史时光都是被许多小国统治着。印度的统一是英国人留下的礼物(但同时他们又狡猾地分割出了巴基斯坦)。根据我这个外来人的观察对比(后面几天我将去北印度),印度南北的文化差异是明显的。

    海德拉巴位于德干高原,只是这个高原似乎不高,根据Kingfisher航空的海拔读数,似乎仅仅只有500米的海拔。德干高原在经历了安得拉王朝,阿育王的统治后,在15世纪,统治这一地区的是巴赫马尼苏丹国(Bahmani Sultanate),1463年,Quli Qutb-ul-Mulk 被派到这里来镇压叛乱。叛乱被平息后,他受命统治这里,1518年,Quli宣布独立为苏丹国,并自称Sultan Quli Qutub Shah。这是位于Golconda的Qutb Shahi 王朝的开始。Golconda来自泰卢固语,意为“牧羊人之山”。巴赫马尼苏丹国此时已分裂成了5个王国。Golconda城堡的建设大致是在Qutb Shahi王朝的前三位苏丹在位期间完成的。尽管它的历史可以上溯到卡卡提亚时期。

    1589年,苏丹Muhammad Quli Qutb Shah下令建立了海德拉巴城,它位于Golconda东部8公里处。海德拉巴这个名字来自Muhammad的当地人妻子的名字Bhagyamathi,她嫁给苏丹后,改宗伊斯兰教,名字相应的改为 Hyder Mahal.因此hyderabad因此得名.在Muhammad的 命令下,Charminar也建立了起来,作为一个印度式凯旋门位于这个城市的中心。char的意思是四的意思,minar作为很多印度建筑的词尾,意思 是尖尖塔,所以char-minar可以翻译为四柱塔。这个塔的顶部是一个清真寺,不过我们过去的时候,似乎已经关闭了。至于为什么是四柱,好像不是出于美学的原因,某些人考证说是因为代表伊斯兰教兴起的时候的4位哈里发。

    1686年,那位建立了泰姬陵(我将在14日拜访那里)的沙贾汗(Shah Jahan)的儿子,奥朗则布(Aurangzeb),一位长寿(我一直怀疑教科书上说他活了90岁的记录是否可靠)而且野心勃勃,一生致力于把占据印度北部的统治扩展到南部的莫卧儿帝国皇帝,把他的眼光投入了首当其冲的就是Quli 建立的小王国.海德拉巴此时是一个重要的钻石贸易中心,历届的苏丹作为波斯,伊斯兰教,乃至当地的泰卢固文化的保护人,也使得这个城市获得了极大的繁荣. 持续到1687年的对于Golconda的8-9月的围困最终由于一个被奥朗则布收买的叛徒打开城门而陷落.奥朗则布的征服导致了海德拉巴持续数十年的衰 落.1707年,奥朗则布去世,海德拉巴的统治者获得更多的自治权,1724, Asaf Jah I,被帝国皇帝授予Nizam-ul-Mulk(总督)称号.这开启了Asaf Jahi王朝的时代.这一王朝统治海德拉巴附近的广阔地区直到印度独立的一年之后.Asaf王朝的统治者和法国,以及后继的英国人保持了良好的盟友关系.Secundarabad就是为了驻扎法国军队,继而是英国军队而建立的城市. 历任Nizam的统治重新给海德拉巴带来了文化和经济上的繁荣。在印度独立前,Nizam统治下的海德拉巴是印度最大的土邦。领土面积甚至大于不列颠岛。第7位Nizam建立了现代意义下的医院和大学。1947年印度独立的时候,Nizam希望能继续保持独立。很大的原因,我猜,是因为海德拉巴统治者及其大部人民都属于穆斯林,对于加入印度教的印度心怀恐怖。但是,作为一个被新独立的印度环抱的土邦,保持独立终于只能是一个空想,因为海德拉巴不是克什米尔。支持总督和要求加入印度联邦的势力很快发生骚乱,刚独立的印度政府借口平息骚乱,于1948年9月16日以警察行动(如果印度真的在海德拉巴拥有警察权的话)的名义攻入海德拉巴,4天后,海德拉巴军队投降,Nizam最终同意投降,将海德拉巴并入印度。1956年,印度根据语言重新划分了邦,海德拉巴土邦被分成了三块,海德拉巴城及其周边划入了泰卢固语的安得拉邦,其他的划入了马哈拉斯特拉邦和喀拉拉邦。

    (以上描述的年份和人名的具体拼写参考了维基百科英文版)

    根据我住的QIR提供的早报的消息,最新变动是,印度由国大党控制的国会正在考虑成立一个委员会,计划将安得拉邦一分为二。当然,抗议是免不了的。我在第三天的报纸上就读到了本地的抗议示威的消息。抗议者说这是国大党企图在选举中占优的一种策略。或许是真的?

    我们的出租车的第一站自然就是Golconda了,其实,它就在我们每天从旅馆到会场的半路的花岗岩山上。稍加留心,我们每天都能看到这个古堡。严格来说,这个古堡已经不能算是古堡了。我宁可叫它一个圆明园式的废墟。门票价格,外国人是150卢比,本国人似乎10卢比的样子。进去后,一个老者很友好的给我们三人带路了一会,但是很快,他就要求我们接受他350卢比的导游服务。我们友好的拒绝了。他在后边喊,你们不会知道你看到的是什么的!进去的第一个地方就是一个稍微有点突出的过道,姑且称之为“中庭”,在其中心击掌就能听到很好的回响,据说在山顶上也能同步听到。但是我们没有机会验证了。我们的路线其实很简单,就是一路向左,也就是朝南的方向,穿越了一个大的宫殿(中间间或有蝙蝠的味道),然后寻找路线上山。到处是断壁残垣,甚至还有几个杂草丛生的院子。一直到最高处,有一个微型的清真寺。我们可以俯视整个古堡,同时也能鸟瞰没什么高楼大厦的海德拉巴市区。

    整个古迹看不到任何维护措施,虽然在山下的一个区域看到角架和几个工人在慢吞吞施工。不像中国的旅游景点,故宫里面可以放星巴克,但我发现我去过的印度景点内部没有任何的商业设施。完全是单纯地把历史上最后留下的废墟展现给你看。当然,这里的游客也很少,而且我估计至少有一半是外国人,偶尔也能见到几个当地人情侣。跑了一圈后,我估计整个古堡大约2-3公里的样子,并不能算大,很多旅游指南上说它几十公里完全是胡编乱造。古堡从山脚修到山顶,至于山顶的高度,一个明显不负责任的旅游指南中的说法是200米,我们实际攀爬的感觉绝对应该在100米以下。

    我一直很奇怪谁破坏了古堡,按照历史看来,奥朗则布的莫卧儿帝国要承担最大的责任。当海德拉巴被莫卧儿帝国政府后,这个古堡应该是被废弃了。因为这里不再需要军事上的防守了。我在路上问过一个当地人,他说,各种原因,地震,风化,战争等等毁坏了这个古堡。

    本来我期待下一步到Golconda旁边的Qutb Shahi王朝历任苏丹的陵园去看看的。但是司机显然有他的考虑,临近中午的时候,按照清单,他把我们拉到了Salar Jung博物馆。司机解释说,所有的景点都会去的,由他来安排顺序。这个博物馆严格禁止任何照相,因此需要把相机存包。这多少让我们有点沮丧。Nawab Salar Jung是海德拉巴土邦的第三位Nizam,热爱艺术,终生不娶,从而造就这一博物馆。进去的时候,还要像飞机场安检那样搜身查包。好在我们已经习惯了这种印度式检查。但是,同样的,由于我们来自中国,这个博物馆没什么特别打动我们(至少是我)的地方,至少很多中国人已经习惯了用1000年为单位来记录历史。我注意到这个博物馆最早的一些文物仅在公元8世纪左右。好吧,我承认,由于走马观花,我对于这个印度人的博物馆实在不感冒。这个博物馆所反映的印度土王的生活水准也不是我所感兴趣的。

    临近中午,我们就在博物馆中的餐厅匆匆吃了午饭。出来后,我们强烈要求司机马上去Charminar。到了Charminar下面,我才知道IJCNLP-08的主页上那张Charminar的照片多么误导世界人民了。无数的水果摊和autos把charminar周边的地域淹没了。为了拍张完整的charminar的照片,我们不得不往南走,远离这个高大的建筑。历经艰险,我们终于过了马路,总算拍下了张照片。拍照片的同时,我们发现了一个清真寺,回来才知道,我们刚刚拜访了有名的麦加清真寺。清真寺前有一个巨大的广场水池,鸽子铺天盖地。不过要进入清真寺需要脱鞋。我们三个人都不习惯。所以继续匆匆拍了些照片就走人了。回来后看了报道,2007年5月8月这个地方两次被炸弹袭击。算起来,4个月一次,我们差点赶上。后怕中。回到charminar底下,发现它是可以登顶的,照例,100卢比的门票。这次只有我和林教授上去了。经过单行的,仅容一人过的螺旋楼梯,我们爬了上去。离开楼梯踏入第一层的那段,30厘米的旁边就是20米的地面,但是没有任何栏杆保护。真是佩服印度人的胆量阿。除了看看低矮的房子和无尽的水果摊加auto,charminar上的风景乏善可陈。我们匆匆下来。赶往下一个地方,Chowmohala宫殿。

    在宫殿门口,我们找到一个椰子摊,买了6个椰子喝。喝完,摊主坚持要60卢比,但是我们坚持刚开始说的20卢比3个。最后,考虑到印度人总是宰老外的恶劣传统,给了50卢比不理会摊主的喊叫走人。进去宫殿的时候顺便问了看守Chowmohala的警察,椰子多少一个,答10卢比。天哪,这才发现我们居然还占了一回印度人便宜(而不是相反)。整个宫殿的布局中规中据。除此之外真的就没什么可以说的了。整个宫殿群的布局基本是成长方形的,在边上是走廊或者宫殿,中间是水池或者花圃。内中的陈设大都是土王的生活用品,从卧室到办公桌不一而足。

     
    从宫殿出来后,我们三人都累坏了, 剩下的4个景点我们宣布放弃,要求司机快点送我们回旅馆休息。于是一天的游览结束。我们在下午4点当地时间回到各自房间睡觉。

    January 20

    印度纪行-1月8日

    入住的quality inn residency号称三星级旅馆,收取标准单人间90美元(大约700港币)的费用,但是显然没有达到国内同样收费的服务水准。首先就是自来水有股味道,以至于刷牙的时候很难受。其次,QIR很小,就是拥有一个封闭天井的5层小楼房,可能总共也就几十个房间。无线网络是收费的,每24小时250卢比(折合大约50港币)。QIR的餐厅是一个素食餐厅,尽管号称是能做印度菜,中国菜等等的multi-cuisine餐厅,但是,显然的,他们只能做印度菜。在丰富的印度调料的帮助下,各种不知道什么成份的浆糊糊吃起来味道似乎也不错。菜单上的印度名字,尽管宣布是英语的,但是显然类似masa之类的罕见英语词我是从未学过的。开会最后一天我问从yahoo来的chen aitao是否认识那些菜旁边的英文名字,他也是说否。我猜测由于印度教徒不吃牛肉,穆斯林不吃猪肉,导致绝大多数印度餐馆只好办成素食的。据说在印度还有更加极端的素食主义者,耆那教徒,奶制品和地底下生长的蔬菜和水果都不能吃。如果印度菜一定要出现肉,通常就是鸡肉了。据我观察,甚至鱼也是罕见的。

     

    今天是ijcnlp主会第一天,吸取昨天的教训,毛新年定了一个往返出租车去isb开会,除了我,还搭了来自台湾科技大学的林教授。isb的建设得倒是很好的。虽然建筑面积其实不算大,基本上一个很大的主楼就涵盖完了,但是校区面积挺大的。而且能够看出,校园绿化工作是经过细心处理的。由于ppt还没有写完,我整个早上一直到轮到我讲之前都在写ppt。因为早晨起床后核对了下program,才赫然发现我是上午的第二个,而不是我一直理解的下午的第二个,狂晕。上午讲完后只有两个人提问,一个是老外问分词对后续处理由多大影响,我谨慎的回答这需要严格的实验结果验证,根据我们目前的结果,影响是有限的。但是对于张瑞强的问题,我一直没有搞明白,后来根据猜测大致回答了下。后来中午吃饭的时候,才知道他想说的是合并不同的非监督切分判据而不是合并不同的结果。不过我对此导致的结果并不看好。

     

    中午是提供午餐的,午餐就在isb主楼一楼的中央空地摆上桌子,按照QIR的标准,还算丰盛。但是就是要排很长的队。吃饭结束,我们步行出了主楼,穿过一片精心修剪的草地花圃,看了看isb旁边的一个楼房。发现建设得一样很漂亮,唯一的奇怪的是一样看不到学生出入,可能使放假的缘故吧。但是在山坡上回望整个isb校园,主要的建筑只有几个,然后就是一个个大片的荒山。可能整个学校还没有完全建设完毕吧。

     

    晚上回来的时候,毛新年的车上挤上了清华大学的周强老师以及陈文亮,所以15人到了我们住的QIR。然后享受了下QIR所属的另外一个可以点菜的餐厅。总的来说,印度饮食的根本特征就是masa,也就是用一团团糊糊,无论素食还是荤食还是汤类。所谓的印度式中餐牙根不是中餐。不过奇怪的是,我们5个人基本上分享了5种糊糊,谨慎的试验了两种汤,居然不约而同就宣布饱了。

     

    吃完后,不知道谁提议去超市看看。问了问travel desk,说有一个big bazar的超市,而且不远,大约1公里的样子,于是我们就决定步行前途,正好看看海德拉巴的街道如何。出了门问了大致的方向。我们就在昏暗并且坑坑洼洼的街道上前进了。路灯断断续续有几个。各种小店,主要是卖衣服的倒是挺多的。再问了三个人后,终于到达了big bazar的对面,街道中央有一个尼赫鲁雕像,可惜黑灯瞎火的,而且没有红绿灯,我们冒险分批过了马路。Big bazar位于一个具有三面围起的天井式的商业街中。让我们诧异的是,进入这个地方,居然需要过一道金属检测门,外加被开包检查一下。由于来得晚,很多商家都关门了,不过依然可以看出,珠宝,手工艺品以及其他的一些类似手表的轻工业品的店铺居多,二楼还有几家餐馆。Big bazar占据了整整一侧的大楼,从一层到第5层,我猜这应该是海德拉巴老城区最大最全的超市了,如果海德拉巴还有第二个类似的超市的话。因为要求存包,但是我们几乎每个人都带了笔记本,因此我们分了两批进去参观。大致浏览了下,这个超市还是很全面的,从食品,衣物到电器,书籍音像制品无所不包。采购的人的衣着也都不错。但是因为中国已经成为世界工厂的缘故,显然的,除了一些印度本地的调料之类的,这里没有什么东西能够引起我们的兴趣了。回旅馆的时候,我们设法找到了一个能够说英语的auto司机。他开价50卢比。我们最终放弃了像印度人那样5个人坐一个车,而是分成两辆车回来。因为发票的问题,我们把司机召到旅馆前台,毛新年注意到前台接待一听到我们坐车回来花了50卢比就发笑,马上断定我们给的路费实在太高了。后来我在阿格拉的经历的确也说明了这点。

    January 18

    印度纪行-1月7日

    印航的班机终于在7日2时30分宣布起飞。很奇怪的是,登机前,就在机舱门口,尽管我们已经经过了结结实实的香港机场安检,但是还是又被开包检查了一遍,然后两个ppmm拿着金属探测器摸了一遍。飞机起飞平稳后,大叔大嫂们开始张罗半夜饭,至少过了一个小时才熄灯睡觉。为了加速睡眠,我跑去要了一小瓶红葡萄酒。看了看产地,居然还是法国的。不到4小时,飞机的灯又亮了,大叔大嫂们开始要求大家喝茶或者咖啡。
    飞机降落,走过长长的过道七拐八拐,到了入境检查的闸口。我看了看,偌大的德里国际机场的入境检查闸口居然只有不超过10个人处理所有印度非印度居民的入境问题。可能本来出入境的人就不多吧。找海关的路上,经过领行李的转盘的时候,居然闻到一股烟味,抬头一看,整个大厅烟雾缭绕,不知道有谁在这里烧什么。把入境卡交给一个懒洋洋的海关人员,我问他还有没什么事情,他说ok,可能看到我东西太少吧,我跨过一个小门,发现已经过关了。接着就看到两边各一排商店,兑换,电话,副食之类的。兑换了211美元,忍受了印度兑换点的惊人手续费,只得到7400卢比。我开始找去德里国内机场的路线。正好看到三两个背着步枪的军警,就问他们。他们嘻嘻哈哈地指了下旁边的一个玻璃门。

    我走过门,看到一个空旷的停车场,地面灰尘老厚。玻璃门边有个站台,一个打扮得像加勒比海盗中的jack的人士坐在那里,在寒风中略微有点发抖。我问去国内机场的大巴怎么买票。jack说要20美元。我晕死,于是还价,问50卢比如何。jack拼命摇头。我又跑到另外一边的出租车队列中找人问,一个边喝着咖啡边答话的司机一口咬定要20美元甚至更多。我又跑到一个正在上车的大巴前,问排在队伍末尾的一个人,可以到哪里买票,他转手指了指那个站台。我不得已回到那个站台,这时又来了一个辛格先生(锡克式头巾+大胡子),由他来跟我谈判。我问他能否便宜些,他最开始也是咬定20美元,或者转口说800卢比。我坚持50卢比。辛格于是慷慨的妥协,10美元。我还是坚持50卢比。最后,辛格先生语气坚定并且严肃地说,200卢比,不能再少了。我还是50卢比。辛格于是宣布100卢比,绝对不能再少了。否则一切免谈。我越发觉得50卢比没错。最后最后,辛格先生说,好吧,50卢比,把它给我。我突然有点怀疑,这个站台上面什么也没有,就jack和辛格两个活人。于是我说,你先把车票给我。辛格用奇怪的眼神看了看我,突然说,跟我来,他跑到那个正在上车的大巴前,把所有老印的行李挪开,跟我说,上去吧,我想也许其实是上车买票吧。于是就上去了。车厢没有开灯,黑得一塌糊涂。我在黑暗中跟隔壁的老印聊天,我问,该不会这个车是免费的吧,他说是的,这是从国际机场到国内机场的免费传送巴士。原来如此!

    大巴在老印们的嚷嚷中,终于把他们无数的大包小包塞了上来后,出发了。这时候还是当地时间早上6点的样子,德里大雾弥漫,根本看不到什么,只是觉得空气很不好。在穿过了一个停了很多飞机的地方后,大巴停在国内机场的入口处。我看了看,觉得就像是一个火车站。我把昨天离开家打印的登机牌交给 kingfisher航空的小姐,她核对了我的信用卡,本来我还有点担心她拿走,结果她只是扫了眼,可能看出了我的紧张,还给我的时候优雅的一笑。安检后进入候机室,觉得像是在一个国内的火车站中。整个候机室可能不到1/3个足球场那么大。边上拥有4-5家很小店铺,包括一个占地几平方米的mini麦当劳。不过我乘坐的kingfisher倒的确是一家不错的航空公司,尽管它只经营印度国内航空业务(不知道和伦敦那个kingfisher有什么关系?)。至少它允许我在深圳进行网上订票乃至办理登机手续,相比之下,印度航空据说居然还没有采用电子客票。kingfisher的颜色是一溜的鲜红色,非常引人注目。和印航的大树大嫂的乘务组相比,kingfisher的乘务组全是ppmm。只是由于飞行时间比较短,仅有两个小时,所以饮食要简单很多。

    中午飞机在海德拉巴降落的时候,由于能见度好,我观察了下海德拉巴市区,没有发现高楼,4-5层楼房都非常罕见,似乎整个城市就是3-4层以下的平房构成的。而且房子大都是白色的。出了机场,看到一片乱糟糟的auto(三轮出租车,当地人叫auto)停得到处都是。皮肤黝黑的当地司机跟每个人急急忙忙搭讪。我张望了会,没找到ijcnlp会务组说的akbar旅行社,这时候,一个年纪比较大的司机跟我说上了话,我说我找akbar坐预付费出租车。他带我到一个机场边的破了块玻璃的窗口上,原来那就是服务窗口。我说要去isb(印度商业学校),他们说要370卢比,我很奇怪,会务组上写的要440卢比的。但我还是愉快地给了他们370。上了出租车(不是auto),我把打印的会务组提供的会场交通指南给司机看,让他确认是去isb的gachibowli校区。他说没问题。于是汽车在尘土满天的海德拉巴街道上飞奔郊外。
    结果到了isb的门口,才知道今天注册根本不在这里,而在iiit(海德拉巴国际信息技术学院)。于是司机又拉我到不远处的iiit。但是下车的时候,司机又伸手要钱,说,我提供的文件上说要440卢比的。而且我到达的地方不是isb,天地良心,根据地图,其实从飞机场到iiit反而比isb更近些。何况两个地方之间其实完全可以步行到达。我不想跟这个司机纠缠,就说只要你能提供收据,我就付钱,司机开心地拿出一个本子,快速的签字。我当时严重怀疑会务组说要440卢比的动机,分明是给他们的印度同胞更多敲诈外国人的机会。

    印度人浪漫地把ijcnlp-08的第一天的注册地点设置在iiit的一片草地上,一个大帐篷临时地搭了起来,放了几排桌子。我领到了材料后,顺便和国内来的几个人聊了聊。在tutorial会场,恰好碰上了毛新年。于是约好他听完报告就一起回去,我去和他合租。
    但是到了校门口才发现出租车是个问题,因为根本不会有正规的出租车路过这里,这里可是距离市区20公里的荒郊野外。门口倒是停了很多的auto,问题是那些黝黑的本地泰卢固司机根本看不懂也听不懂英语!毛新年找到了一个本地学生,帮助我们打了电话,总算预约了一个出租车,他们倒是答应过来接我们,但是就是不知道什么时候。最后的结果就是过了将近2个小时才来了辆车把我们送回旅馆。郊外路上的路灯稀稀拉拉,我们一直庆幸没有坐那一个个疯狂的auto。万一翻车可就惨了。