8．质疑_数字生命by(格子里的夜晚)

　　 8．质疑 (第2/2页)

造出的句子在语法上都没有任何问题，但有时候含义却很搞笑。这种造句，很想有些人喜欢玩的一个游戏，几个人，每人写一个句子的一个部分，然后随机组合起来，变成一堆搞笑材料之类的。

但是，方治强和路音，还有均儿则兴致勃勃地一遍又一遍地输入各种词汇，看下面的框里变幻出非常有趣的句子。

“这个东西要使真的让小学生拿到手，那就麻烦了，糊弄语文老师应该是没问题了。”方治强评论道。

“这个小程序的作用仅仅是检验一下我的阶段性成果而已，不会再有副本了。”

“其实，你能做到这个地步，已经是非常厉害了，你觉得我在什么地方能帮上你的忙？”

“伯父，市面上也有不少语音输入和语言输出的软件。语音输出就不提了，基本上是按照每个字的发音，连续生成而已，比较好的软件或许还有虚词的轻读，但语气语调方面都没有什么变化。而语音输入的问题更加复杂，一方面是对于语音的识别率，目前最好的还是几年前开发的viavoice，而且对于输入装置的要求也不低，而且，语音输入后，即时字词方面都没问题，断句，标点也都一塌糊涂，基本上，语音输入之后，还要靠人工改写一遍，效率比手打还要差。原来我觉得，通过了解一些语言学，可以找到解决这个问题的办法，但是，语言学实在是个很怪的学说，看的资料越多，反而越不知道该怎么下手了。”吕振羽说。

“这样说吧，从语言学的角度要解决这个识别的问题，这个大家都明白，我也参与过一个叫‘言语的产生、识别与编码’的项目。目前，所有的机器识别，都是基于字词和语音的，语法是一个从属的地位，因为汉语的语法和其他语种区别太大了，规律性并不明显，虽然按照西方的语法范式，能够总结出现代汉语使用的大部分规律，但是这并不足够。字词的语音识别，产生的素材，被语法模块排列组合起来。而标点符号，机器自己是无法添加的，因为没有断句的功能。这也就是基于语音的机器语言学。”

“那又没有什么解决方法呢？”吕振羽问。

“索绪尔在里有一句话，声音脱离了书写符号，就只是一些模模糊糊的概念。但又有另外一句话，文字越是不表示它所应该表现的语言，人们把它当作基础的倾向就越是增强。……这两句话有同一个核心，那就是文字，而位于文字两边的则是语音和语义。我想，现在主要的瓶颈在于，语言的识别智能停留在语音到文字的阶段，而从文字到语义，则需要一个人自己去进行cao作。语义是一个很复杂的东西，凭着你现在掌握的这个人工智能，你肯定可以做出能比较好的理解语义，从而对文本进行修正的软件，你刚才也说了，你的这个造句程序，缺乏的就是常识层面的东西。如果加上这一块，对于语音辨识的判读是不是就完整了呢？也不是，因为这个常识本身就是有弹性的东西，很多不合乎常识的表达方式平时我们一直在用，你说那是修辞手法也可以，但我们平时都是能理解的，为什么？因为我们使用语言，无论文字形式还是语音形式，都是基于一个基本的使用环境，也就是所谓的语用。在语用的前提下，语义才会完整。”方治强的说法已经非常非常浅显，大部分的概念都没有解释，但中文的强大适应性也从这些名词上体现了出来，不需要解释，相信吕振羽也能够理解大致的含义，而在这个局面下，大致理解也就足够了。

吕振羽回味着方治强的话，反反复复地想着，突然说：“那是不是说，如果这样一个引擎能基于语义学和语用学来进行开发，然后结合语音识别现有的成果，就能够比较完善了？”

方治强赞赏地说：“说得对，只要你能做到。这并不容易。但只要你能将语用和语义的层面形成程序，语音方面的问题就是小问题了，什么语音流变什么的根本不用太当回事。”

8.质疑在线