"代笔门"引出鉴别方法 学者称人人有"语言指纹"
作家“代笔门”让业内开始关注欧美各国一个方兴未艾的边缘学科,叫做“司法语言学”(Forensi c Li ngui sti cs),其主要工作之一便是通过语言分析、文本鉴别,确定文本的作者身份。
时下讨论的作家“代笔门”是个热点,看客各执一词。那么,对于写作者的真伪来说,究竟有没有一个科学的分析推理标准呢?日前,复旦大学语言学副教授苏杰博士在新浪微博抛出一篇从语言学角度分析的文章,文章通过比对作家争议作品(16万字)和搜集到的“代笔者”的作品(11万字),发现“不幸”、“这人”、副词“光”等几个词语在争议作品中用得很多甚至很滥,但在所谓代笔者的作品中,几乎未曾出现,从而认为可以排除这个代笔的最大嫌疑人。
这篇论证文章在几天之内被数以万计的网友转发,得到近2500名网友的评论。有人大呼“有些道理”,也有人说“它的严谨性值得商榷”。一时间,论证文章中提及的“司法语言学”、“语言指纹”等稍显生涩的学术概念被推向寻常百姓的视野。
人人都有“语言指纹”
文本的作者身份到底有没有办法证明?苏杰给出的答案是肯定的。这位本科毕业于北大法律系的语言学研究者指出,近几十年,欧美各国有一个方兴未艾的边缘学科,叫做“司法语言学”(Forensic Linguistics),其主要工作之一便是通过语言分析、文本鉴别,确定文本的作者身份。他援引英国语言学家马尔科姆·库尔撒德的说法向记者解释:“虽然从理论上讲,任意说话者或书写者在任意时间可以使用任意的词语,但实际上会有典型性的个人化偏好选择,以至于每个人的语言都有其独一无二的特点,被形象地称之为‘语言指纹’。这意味着应该有可能设计出一种‘语言指纹’的识别方法。换句话说,特定说话者或书写者在语言上所形成的印象是可以用来进行身份辨认的,就像签名一样。”苏杰以大卖场里可供选择的商品打比方说,单一的选择偏好如“雀巢咖啡”可能构成的区分度并不明显,可如果“雀巢咖啡”与“涪陵榨菜”、“中华牙膏”、“绍兴黄酒”、“猕猴桃”、“喜跃猫粮”等多种商品构成一个选择偏好集合时,区分度就相当大,甚至可能独一无二。华东师范大学中文系副教授徐默凡也告诉记者,对用词风格量化统计来比较作品的文体文风,从理论上来说是可行的,学术界也在进行这方面的尝试,比如就有学者通过特定词汇和词量来比较《红楼梦》前后部分的文体差异。
至于选择什么样的词语调查确定一个人的特殊偏好,苏杰坦言:“文本样本的规模要尽量大;常用基本词如‘你我他’、‘红白黑’、‘高兴’、‘尴尬’等不存在个人选择措辞的余地,一般不能成为个性词语;词语使用频率的个人差异要显著;特殊性仅适用于所比对的对象之间。”
细节拨开事实迷雾
据苏杰透露,尽管“语言指纹”还不能像“生理指纹”那样建立指纹库,但一般需要比对的对象只有几个,因而西方司法实践中不乏运用个人语言特点认定作者身份的成功案例。“UNA炸弹客案”就是其中的一个典型例子。1978年至1995年间,有人一年一度向美国各个地方邮寄炸弹。1995年,6家报刊机构同时收到自称是UNA炸弹客寄来的一篇共计有35000个词的文章,题目是《工业社会及其未来》。作者提出,文章如能发表,便停止邮寄炸弹。结果,正是刊发的文章让犯罪嫌疑人落入法网:FBI专家发现这篇文章与10多年就同一主题见诸报端的一篇大约300字的文章存在语言上的重大相似性,有着相同的常用实词、虚词以及固定短语共12个。
2009年,英国一位语言学研究者曾利用一款名为“剽窃”的软件,破解莎翁存疑剧本《爱德华三世》的身世。通过对该剧本和同时期莎士比亚其它作品的对比,研究者发现它与1596年前的莎士比亚作品出现相同短语200处,但这些匹配情况只出现在4场,即40%的剧本中。而研究者经过进一步研究发现,剩余部分剧本的写作风格与当时另一位剧作家托马斯·基德相同,因为其中包含约200处与基德作品中相同的短语,这表明该剧有60%是基德所作。
能否作为直接证据
“语言指纹”是否能作为具有法律效力的直接证据,这一点在国内尚无先例,更因学科前沿性而存在一定争议。徐默凡认为,语言学的分析方式毕竟不像DNA等科学鉴定那样确凿。语言项目的选择、文本的采样、写作主体自身语言能力的变化以及写作题材的差异等,不仅给具体操作带来困难,也会在一定程度上对结论造成影响。另一些中文研究学者则更加强调该“证据”的诸多“前提”:如“选项范围必须是熟知的、封闭的”;“所选话语或作品表现出的语言特点必须是话语主体无意识运用语言时具有的,而不是刻意表现特别是模仿出来的,如果语言模仿能力极强的人模仿他人表达,其作品中留下的将是别人的‘语言指纹’”。因此,语言证据分析只能看作是一个参考、提供一条线索,而没法用作直接证据。