页次 1
這篇是小說 巨龍戰紀的文字概率圖 因為這個我看過所以 從中標出了幾個我認為重要的幾個關鍵字
然後接下來兩個分別是幼龍和尖牙與利爪 不過這兩篇沒有看完 所以沒有多加分析了
幼龍
尖牙與利爪
不過從中最明顯的就是看出一篇小說中文字的使用情況吧,可以看出某些字概率比較固定
最后修改: 帝锁结晶 (2012-10-19 18:47:44)
微博放一些平時的坑和不是很重要的東西http://weibo.com/u/2266185830
創作坑http://shenmifangke.deviantart.com/
离线
一目瞭然
不過,對於中文小說來說以詞為單位的統計更有意義吧
先做一下分詞呢?
嗯 本來想過 這個程序也是由英文改寫的 英文的特性也決定了它很容易被處理(本來想拿英文小說測試的,正好磁碟裡沒找到……英文效果更好)
但是中文的處理就很麻煩了,如果用詞的話,首先詞庫會成問題,畢竟小說的詞是很多的…
中文詞的分析也很困難,不像英文一樣有空格,研究起來有壓力…
詞頻分析嗎 :supr:
字頻更確切
微博放一些平時的坑和不是很重要的東西http://weibo.com/u/2266185830
創作坑http://shenmifangke.deviantart.com/
离线
有開源的中文分詞工具
我在舊版首頁的搜索引擎裡裝了一個這樣的分詞工具,效果還可以
嗯 原來這個也有開源工具啊 以前只知道有這個理論……
這裡更新了詞的 用的是開源的IKAnalyzer 對一般文章效果還不錯 對於小說可能是作者用詞與技術性文字不一樣 所以有些瑣碎 但是比以前那個純字的好多了
最后修改: 帝锁结晶 (2012-10-19 19:07:13)
微博放一些平時的坑和不是很重要的東西http://weibo.com/u/2266185830
創作坑http://shenmifangke.deviantart.com/
离线
页次 1