打印

百度笔试试题

[复制链接]
1504|8
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
dfsa|  楼主 | 2012-4-23 18:11 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
1. 如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿),比其他网页更值得展现给用户,请提出一种方案。
2. 假设有10亿网页已经被我们存下来,并提供如下信息:网页全文(即网页的源码)、全文长度、网页正文(即网页中提取的主体文字)、正文长度,以及其他网页提取物等,现在希望去掉其中的重复网页,请提出可行的方案,计算出每个网页对应的重复度,你可以自己对网页重复下定义,也可以提出需要哪些更多的网页提取物来实现更好的去重复方案。

相关帖子

沙发
hsbjb| | 2012-4-23 18:23 | 只看该作者
1,看入度多的就是好网页,搜索关键字在该网页所占权重大的也是好网页。

使用特权

评论回复
板凳
hsbjb| | 2012-4-23 18:24 | 只看该作者
2 先url去重,然后<title>相同的是重复,有某些<h>相同也可认为重复,主体内容做最小编辑距离之类的算法也可以去重,之后按照搜索引擎对该网页的关键字权重的求两个网页的距离,在一定值域内认为相同。

使用特权

评论回复
地板
无冕之王| | 2012-4-23 18:31 | 只看该作者
LS分析的很有道理

使用特权

评论回复
5
czdo2008| | 2012-4-23 19:36 | 只看该作者
百度的面试题????没有搞过这个方面的东西

使用特权

评论回复
6
秋天落叶| | 2012-4-23 20:07 | 只看该作者
貌似与网页开发有关

使用特权

评论回复
7
shenmulzb1985| | 2012-4-23 20:52 | 只看该作者
先分割成小单元,利用中值滤波算法呗,将每个小单元的选选出做大值,然后再将得到的最大值排列组合下,再分割再筛选出最大值,肯定是可以得到答案的啊

使用特权

评论回复
8
shenmulzb1985| | 2012-4-23 21:05 | 只看该作者
哦,刚才有点答非所问的啊,不过处理的原理大同小异的啊,10亿里面取8亿,还是先分成小单元,中值滤波,滤除最小值,直到滤除掉2亿的最小值即可的啊

使用特权

评论回复
9
liutp880504| | 2012-4-24 08:27 | 只看该作者
没去过

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

282

主题

2404

帖子

2

粉丝