百度笔试试题

[复制链接]
 楼主| dfsa 发表于 2012-4-23 18:11 | 显示全部楼层 |阅读模式
1. 如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿),比其他网页更值得展现给用户,请提出一种方案。
2. 假设有10亿网页已经被我们存下来,并提供如下信息:网页全文(即网页的源码)、全文长度、网页正文(即网页中提取的主体文字)、正文长度,以及其他网页提取物等,现在希望去掉其中的重复网页,请提出可行的方案,计算出每个网页对应的重复度,你可以自己对网页重复下定义,也可以提出需要哪些更多的网页提取物来实现更好的去重复方案。
hsbjb 发表于 2012-4-23 18:23 | 显示全部楼层
1,看入度多的就是好网页,搜索关键字在该网页所占权重大的也是好网页。
hsbjb 发表于 2012-4-23 18:24 | 显示全部楼层
2 先url去重,然后<title>相同的是重复,有某些<h>相同也可认为重复,主体内容做最小编辑距离之类的算法也可以去重,之后按照搜索引擎对该网页的关键字权重的求两个网页的距离,在一定值域内认为相同。
无冕之王 发表于 2012-4-23 18:31 | 显示全部楼层
LS分析的很有道理
czdo2008 发表于 2012-4-23 19:36 | 显示全部楼层
百度的面试题????没有搞过这个方面的东西
秋天落叶 发表于 2012-4-23 20:07 | 显示全部楼层
貌似与网页开发有关
shenmulzb1985 发表于 2012-4-23 20:52 | 显示全部楼层
先分割成小单元,利用中值滤波算法呗,将每个小单元的选选出做大值,然后再将得到的最大值排列组合下,再分割再筛选出最大值,肯定是可以得到答案的啊
shenmulzb1985 发表于 2012-4-23 21:05 | 显示全部楼层
哦,刚才有点答非所问的啊,不过处理的原理大同小异的啊,10亿里面取8亿,还是先分成小单元,中值滤波,滤除最小值,直到滤除掉2亿的最小值即可的啊
liutp880504 发表于 2012-4-24 08:27 | 显示全部楼层
没去过
您需要登录后才可以回帖 登录 | 注册

本版积分规则

282

主题

2404

帖子

2

粉丝
快速回复 在线客服 返回列表 返回顶部

282

主题

2404

帖子

2

粉丝
快速回复 在线客服 返回列表 返回顶部