互联网时代的社会语言学:基于SNS的文本数据挖掘 ...
分析人民日报,我这种编程菜鸟,不苛求时间,我也能捏造个程序,把词全部抓对,抓出来!
拜网络审查所赐,我修成了谐音大法!泥马,谐音,你程序,能智能到这份上?
伟大,伪大,光荣,官荣,正确,挣券,机器如何判断意思?
如果你说机器连语气都能猜出来!我服了你!
我没有攻击你的意思啊!我快归位了!我能攻击谁?
还有一高手,机器学习的!人家去美国麻省理工了!
别分析什么汉语,搞事情,挑个多快好省的!
指不定哪天,英语成了大陆,官方语言,哪你是何苦来哉呢?这到让我想起之前,想做过一个地区新闻的数据库,比如爆炸,强奸,这样的新闻和地点相关起来,最初这样想是因为某一天走到中石化的大楼,想诶前两天有一个1800万吊灯的新闻就是在这个大厅里,不知道能不能看到呢。当然没看到,隔很远。
不过现在想来,如果能做地区性的这样的一个新闻统计,也可以结合当地警察部门的数据,看看某些地区是不是频发某一类事情,那么这类事情肯定在这这里有一定的根源,然后就可以解决这个问题了。
当然细想来说,当地的人很多都知道是出了什么问题,只是他们不想解决罢了。公式是从香农那里来的。为什么用对数就不说了,为什么用2为底,因为香农用的是bit来衡量详细量,而bit只有1和0, 所有用了2为底的对数。“大二”、“教务”、“一生”、“作工”、“学说”、“导出”、“生成”这些词,用你的凝固程度公式计算,结果凝固程度会很低,我这边算得的结果低于1,这些类似缩略语的词,也许是无监督的方法无法解决的问题“大二”、“教务”、“学报”、“一生”、“作工”、“学说”、“导出”、“生成”这些词,用你的凝固程度公式计算,结果凝固程度会很低,我这边算得的结果低于1,这些类似缩略语的词,也许是无监督的方法无法解决的问题赞一个,曾经参与过两个项目,是关于安全登录后根据用户操作电脑的习惯重新验证用户是否合法的算法,还有在网络社区中通过数据挖掘用户文章筛法识别出哪个用户是哪个用户马甲的算法,都是基于贝叶斯学习的。lz谈到的领域涉及了一些人工智能机械学习,建议可以参考一下现在的垃圾邮件过滤算法。提个简单的问题:
“在整个 2400 万字的数据中,“电影”一共出现了 2774 次,出现的概率约为 0.000113 。”
概率真的是2774/24000000??? 需要考虑“电影”是两个字吗?
我想了一下,好像这样是正确的。
问题是:我用windows xp自带的计数器算的,2774/24000000,为什么总是 0.000115?左右。感觉这个还是有差异的“电影”一共出现了 2774 次,出现的概率约为 0.000113 。“院”字则出现了 4797 次,出现的概率约为 0.0001969 。如果两者之间真的毫无关系,它们恰好拼在了一起的概率就应该是 0.000113 × 0.0001969 ,约为 2.223 × 10-8 次方。
这个概率并不是拼在一起的概率,而是两个字同时出现在一个文章中(并不一定相邻出现)的概率文中有这么一段:“对不同的语料进行抽词,并且按这些词的频数从高到低排序。你会发现,不同文本的用词特征是非常明显的。下面是对《西游记》上册的抽词结果:……”。请问这里在统计词的频数用的是什么方法?是直接用类似于字符串查找的方式查找这个词在文章中出现的次数?还是先用分词程序加词表进行分词,对分词结果进行统计?如果是前者,怎么解决切分歧义?如果是后者,怎么给分词程序提供这些词语的统计信息?看了你的文章,对于这段话“要想从一段文本中抽出词来,我们的第一个问题就是,怎样的文本片段才算一个词?大家想到的第一个标准或许是,看这个文本片段出现的次数是否足够多。”,我想问,你是如何把句子划分成一个个文本片段的,难道是用分词器,还是用什么方式?我是一个做数据分析的学生,但是对于计算机编程这方面有点欠缺。对于算法的实现有点模糊。希望可以分享你的思路,谢谢,邮箱243617521@qq.com。比如说:吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮。对于这个文本的分析,我觉得比“四是四十是十十四是十四四十是四十”更好作为例子。就是不懂文本逆序之后变成“皮萄葡吐倒萄葡吃不,皮萄葡吐不萄葡吃”后怎么分析出来类似葡萄皮的左邻字为“吐”。还有其他一些比较细致的问题希望可以解答,万分感谢。我是一个做数据分析的学生,但是对于计算机编程这方面有点欠缺。对于算法的实现有点模糊。希望可以分享你的思路,谢谢,邮箱243617521@qq.com。比如说:吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮。对于这个文本的分析,我觉得比“四是四十是十十四是十四四十是四十”更好作为例子。就是不懂文本逆序之后变成“皮萄葡吐倒萄葡吃不,皮萄葡吐不萄葡吃”后怎么分析出来类似葡萄皮的左邻字为“吐”。还有其他一些比较细致的问题希望可以解答,万分感谢。这个算法思路相当赞,不过通过该算法也会增加很多我们不需要的词汇,譬如“是吗”“是吧”“但是不如”这次词,他们的PMI和信息熵也够大,不知道各位有什么好的办法剔除这些词。不错的新词发现的方法,堪称教科书式
不知道,如果把新词扩展成文本片段是否仍然有有效?太短的词表意不完全,比如“看见”就没有太大表意能力,但“看见流星雨”就有相当的表意能力了如果一颗骰子的六个面分别是 1 、 1 、 1 、 2 、 2 、 3 ,那么你知道了投掷的结果是 1 时可能并不会那么吃惊,它给你带来的信息量是 – log(1/2) ,约为 0.693 。知道投掷结果是 2 ,给你带来的信息量则是 – log(1/3) ≈ 1.0986 。知道投掷结果是 3 ,给你带来的信息量则有 – log(1/6) ≈ 1.79 。
===================
这里的信息量计算为何用的是自然数为底数而不是 2 呢?
栏目导航
- 澳门永利娱乐网址
推荐产品
联系我们
- 电话:
- 手机:
- 地址: