鱗目界域-龍論壇

游態龍的錫安山。龍的力量、智慧、野性、與優雅

您尚未登录。 (登录 | 注册)

公告

mb 爪機版     |    論壇指南     |    Discord     |    QQ群

《龙魂志》第一期
《龙魂志》第二期

Tips:龙的梦想 龙的故乡

#1 2012-10-17 20:35:33  |  显示全部楼层

帝锁结晶
角龍
来自 中国江苏
Registered: 2010-10-01
Posts: 604
网站

視覺化分析幾篇關於龍的小說(更新詞分析)

這裡的視覺化就是把幾篇小說文字統計用圖來表示

因為最近學習視覺化 所以發現小說的圖還是挺有意思的
尖牙與利爪

巨龍戰紀

幼龍

很想拿英文的測試,但是暫時找不到合適的……

最后修改: 帝锁结晶 (2012-10-19 19:03:12)


微博放一些平時的坑和不是很重要的東西http://weibo.com/u/2266185830
創作坑http://shenmifangke.deviantart.com/

离线

#2 2012-10-17 20:39:08  |  显示全部楼层

帝锁结晶
角龍
来自 中国江苏
Registered: 2010-10-01
Posts: 604
网站

回应: 視覺化分析幾篇關於龍的小說(更新詞分析)

這篇是小說 巨龍戰紀的文字概率圖 因為這個我看過所以 從中標出了幾個我認為重要的幾個關鍵字

然後接下來兩個分別是幼龍和尖牙與利爪 不過這兩篇沒有看完 所以沒有多加分析了
幼龍

尖牙與利爪

不過從中最明顯的就是看出一篇小說中文字的使用情況吧,可以看出某些字概率比較固定

最后修改: 帝锁结晶 (2012-10-19 18:47:44)


微博放一些平時的坑和不是很重要的東西http://weibo.com/u/2266185830
創作坑http://shenmifangke.deviantart.com/

离线

#3 2012-10-18 13:27:22  |  显示全部楼层

帝锁结晶
角龍
来自 中国江苏
Registered: 2010-10-01
Posts: 604
网站

回应: 視覺化分析幾篇關於龍的小說(更新詞分析)

shiningdracon

一目瞭然
不過,對於中文小說來說以詞為單位的統計更有意義吧
先做一下分詞呢?

嗯 本來想過 這個程序也是由英文改寫的 英文的特性也決定了它很容易被處理(本來想拿英文小說測試的,正好磁碟裡沒找到……英文效果更好)

但是中文的處理就很麻煩了,如果用詞的話,首先詞庫會成問題,畢竟小說的詞是很多的…
中文詞的分析也很困難,不像英文一樣有空格,研究起來有壓力…

quad

詞頻分析嗎 :supr:

字頻更確切 [傻笑]


微博放一些平時的坑和不是很重要的東西http://weibo.com/u/2266185830
創作坑http://shenmifangke.deviantart.com/

离线

#4 2012-10-19 18:57:19  |  显示全部楼层

帝锁结晶
角龍
来自 中国江苏
Registered: 2010-10-01
Posts: 604
网站

回应: 視覺化分析幾篇關於龍的小說(更新詞分析)

shiningdracon

有開源的中文分詞工具
我在舊版首頁的搜索引擎裡裝了一個這樣的分詞工具,效果還可以

嗯 原來這個也有開源工具啊 以前只知道有這個理論……

這裡更新了詞的 用的是開源的IKAnalyzer 對一般文章效果還不錯 對於小說可能是作者用詞與技術性文字不一樣 所以有些瑣碎 但是比以前那個純字的好多了

最后修改: 帝锁结晶 (2012-10-19 19:07:13)


微博放一些平時的坑和不是很重要的東西http://weibo.com/u/2266185830
創作坑http://shenmifangke.deviantart.com/

离线

#5 2012-10-19 21:31:52  |  显示全部楼层

帝锁结晶
角龍
来自 中国江苏
Registered: 2010-10-01
Posts: 604
网站

回应: 視覺化分析幾篇關於龍的小說(更新詞分析)

shiningdracon

嗯……顯然,出現最多的是名字
《尖牙與利爪》中認出了希爾和佩恩,沒認出莎琳達、達瓦克、莎貝弗、艾凡等,被當成單字拆開了
需要自定義詞庫

嗯 名字之類確實還是要自定義庫的,不過那裡也挺方便

後來試了試其他科技文  感覺內部的詞庫也很強大了


微博放一些平時的坑和不是很重要的東西http://weibo.com/u/2266185830
創作坑http://shenmifangke.deviantart.com/

离线

论坛页尾