用数学方法研究《红楼梦》的作者的思路 有更新!

  cheney

    《红楼梦》后四十回,神奇的丢失,现在的后四十回也作者不详。本文通过软件[ReplacePioneer](#软件Replace Pioneer)来统计虚词在文中各部分出现在的次数,希望通过比较出现频率来区分不同作者。由于多种客观原因,不能得出任何有效的结论,仅是一个思路,以供参考。

    《红楼梦》后四十回在艺术水准一向被认为上远不及前八十回,但高鄂的名字却“尾随”曹雪芹之后给人们留下了很深的印象。新版电视连续剧《红楼梦》在沪上热播之后,有细心的观众却发现字幕上“后四十回”作者变成了“无名氏”。2010年7月4日,在亚运村图书大厦举行的人民文学出版社版《红楼梦》校注本发行400万套庆典活动上,人民文学出版社首次对作者之变作出了正式回应。该社古典部主任周绚隆接受记者采访时说:“没有可靠的材料证实高鄂就是后四十回的续者,因而吸取冯其庸等红楼梦研究学家的意见,把作者改为无名氏。”

    其实,这一改动发生在3年前,2007年第三次修订后推出的《红楼梦》校注版就已经是“曹雪芹著无名氏续,下面还有两行字:程伟元、高鄂整理”。只是由于李少红导演的新版《红楼梦》电视剧的片尾字幕完全依照人民文学出版社2007年第三次修订后的校本,使更多人注意到了这一新的重大变化。总之对于后四十回的作者尚无定论。

    我不是一个专心的文学研究者,对《红楼梦》作者到底怎样也不甚关心。正如这篇文章一样,只是一种用数学方法研究文章作者的思路。用数学方法进行作者鉴定的主要依据是:每个人都有自己的特殊的写作习惯。这种特殊的写作习惯突出地表现在对虚词的使用上。这不是可以完全模仿的。所以文中无意识的虚词就像指纹一样给我们提供了鉴定作者的重大依据。

    虚词是在汉语中没有实际意义的字,不能独立成句,只有配合实词来完成语法结构。虚词对实词有协助作用,这类词包含介、连、助、叹、副、象声六大类。虚词在联句中的作用非同小可,有的联只因一虚词之差,便谬之千里。巧妙运用虚词,可使联句增色,情趣斐然。常见的虚词有:之、乎、者、也、则、与、于、因、以、焉、为、所、若、且、其、乃、何、而。本文也已这些虚词作为研究对象。

    我们需要借用软件ReplacePioneer来做,步骤很简单:

    1.打开 Tools->PatternCounter 菜单

    2.选中 File/http 选项,并在右边选择待处理文件名

    3.点击 Clear 按钮

    5.点击 Add 按钮,在 Name 中输入关键字.

    6.重复第5步

    7.点击 Count 即可得出关键字出现次数

    软件界面

    《红楼梦》前80回(共计约580797个字)






































































































    《红楼梦》前80回(共计约580797个字)



    关键字



    出现次数(次)



    所占比率(%)



    Pattern1     之



    1801



    0.31009113339



    Pattern2     乎



    35



    0.006026201926



    Pattern3     者



    301



    0.051825336563



    Pattern4     也



    4048



    0.69697329704



    Pattern5     则



    259



    0.044593894252



    Pattern6     与



    848



    0.14600626381



    Pattern7     于



    448



    0.077135384652



    Pattern8     因



    1551



    0.26704683392



    Pattern9     以



    743



    0.12792765803



    Pattern10 焉



    18



    0.0030991895619



    Pattern11 为



    0



    0



    Pattern12 所



    595



    0.10244543274



    Pattern13 若



    690



    0.11880226654



    Pattern14 且



    715



    0.12310669649



    Pattern15 其



    361



    0.062155968436



    Pattern16 乃



    152



    0.026170934079



    Pattern17 何



    868



    0.14944980776



    Pattern18 而



    393



    0.067665638769


    《红楼梦》后40回(共计约273542个字)

    关键字

    出现次数(次)

    所占比率(%)

    Pattern1 之

    324

    0.11844616183

    Pattern2 乎

    36

    0.013160684648

    Pattern3 者

    109

    0.039847628518

    Pattern4 也

    2032

    0.74284753347

    Pattern5 则

    71

    0.025955794723

    Pattern6 与

    202

    0.073846063859

    Pattern7 于

    116

    0.042406650533

    Pattern8 因

    416

    0.1520790226

    Pattern9 以

    388

    0.14184293454

    Pattern10 焉

    8

    0.0029245965885

    Pattern11 为

    0

    0

    Pattern12 所

    345

    0.12612322788

    Pattern13 若

    338

    0.12356420586

    Pattern14 且

    274

    0.10016743315

    Pattern15 其

    57

    0.020837750693

    Pattern16 乃

    11

    0.0040213203091

    Pattern17 何

    244

    0.089200195948

    Pattern18 而

    115

    0.042041075959

    前80回频率

    后40回频率

    频率比

    0.31009113339

    0.11844616183

    2.6179922473

    0.006026201926

    0.013160684648

    0.45789425757

    0.051825336563

    0.039847628518

    1.3005877261

    0.69697329704

    0.74284753347

    0.93824542135

    0.044593894252

    0.025955794723

    1.7180708481

    0.14600626381

    0.073846063859

    1.9771705651

    0.077135384652

    0.042406650533

    1.8189454645

    0.26704683392

    0.1520790226

    1.7559741597

    0.12792765803

    0.14184293454

    0.90189658332

    0.0030991895619

    0.0029245965885

    1.0596981389

    0

    0

    1

    0.10244543274

    0.12612322788

    0.812264596

    0.11880226654

    0.12356420586

    0.96146182232

    0.12310669649

    0.10016743315

    1.2290091961

    0.062155968436

    0.020837750693

    2.9828540207

    0.026170934079

    0.0040213203091

    6.5080451363

    0.14944980776

    0.089200195948

    1.6754425948

    0.067665638769

    0.042041075959

    1.6095125357

           从频率比可以看出,大部分是很接近的(越靠近1,越接近),但还是出现了个别差距特别大的,两倍、接近三倍、甚至六倍。会不会是因为剧情的不同导致虚词使用方法的改变呢?我们再来对比一下前四十回和中间四十回的频率,方法相同。

    前四十回

     

    关键字

    出现次数(次)

    所占比率(%)

    Pattern1       

    896

    0.33357905004

    Pattern2    

    14

    0.0052121726569

    Pattern3

    162

    0.060312283602

    Pattern4

    1721

    0.64072493876

    Pattern5

    155

    0.057706197273

    Pattern6

    383

    0.14259015197

    Pattern7

    235

    0.087490041027

    Pattern8

    722

    0.26879918988

    Pattern9

    302

    0.11243401017

    Pattern10

    5

    0.0018614902346

    Pattern11

    0

    0

    Pattern12

    255

    0.094936001966

    Pattern13

    299

    0.11131711603

    Pattern14

    260

    0.0967974922

    Pattern15

    212

    0.078927185948

    Pattern16

    97

    0.036112910552

    Pattern17

    433

    0.16120505432

    Pattern18

    218

    0.08116097423

     

    中间四十回

     

    关键字

    出现次数(次)

    所占比率(%)

    Pattern1

    905

    0.29165417871

    Pattern2

    21

    0.0067676660253

    Pattern3

    139

    0.044795503692

    Pattern4

    2327

    0.74992184957

    Pattern5

    104

    0.033516060316

    Pattern6

    465

    0.14985546199

    Pattern7

    213

    0.068643469686

    Pattern8

    829

    0.2671616731

    Pattern9

    441

    0.14212098653

    Pattern10

    13

    0.0041895075395

    Pattern11

    0

    0

    Pattern12

    340

    0.10957173565

    Pattern13

    391

    0.126007496

    Pattern14

    455

    0.14663276388

    Pattern15

    149

    0.048018201799

    Pattern16

    55

    0.01772483959

    Pattern17

    435

    0.14018736767

    Pattern18

    175

    0.056397216878

     

    前四十回回频率

    中四十回频率

    频率比

    0.33357905004

    0.29165417871

    1.1437485707

    0.0052121726569

    0.0067676660253

    0.77015807775

    0.060312283602

    0.044795503692

    1.3463914597

    0.64072493876

    0.74992184957

    0.85438894616

    0.057706197273

    0.033516060316

    1.7217476257

    0.14259015197

    0.14985546199

    0.95151788314

    0.087490041027

    0.068643469686

    1.2745573822

    0.26879918988

    0.2671616731

    1.0061293102

    0.11243401017

    0.14212098653

    0.79111476014

    0.0018614902346

    0.0041895075395

    0.44432196793

    0

    0

    #DIV/0!

    0.094936001966

    0.10957173565

    0.86642783746

    0.11131711603

    0.126007496

    0.88341661856

    0.0967974922

    0.14663276388

    0.66013549522

    0.078927185948

    0.048018201799

    1.6436930787

    0.036112910552

    0.01772483959

    2.0374181875

    0.16120505432

    0.14018736767

    1.1499256816

    0.08116097423

    0.056397216878

    1.4390953796

    除了一个为2之外,绝大部分都很接近1.看来剧情发展对虚词使用影响不是很大。现在可以得出的结论是:第一,使用虚词出现频率这种研究方法是可行的;第二,前八十回和后四十回不是同一人所写,这个大部分人都认同。

    至于更多的结论需要更细致的对比,本文以四十回为单位过于粗糙,还需要更多的材料,如果有高鹗的其他作品就能够进行更为广泛的对比。需要更科学的研究方法,更加专业的统计学知识;需要更先进的软件,以防止出现本文中“为”字无法统计的错误。正如前文所说,本文只是一个思路。本文所用资源下载:http://dl.dbank.com/c0stpeddmg#