辨别商品的基本属性信息设计。在电商网页中对产品信息的描述中,包括产品的特点词,因此结合超文本标记语言与统计学规则,可以自动辨别商品的基本属性信息的所在地方,设计步骤为: 检索电商网页中商品的基本属性特点词典中的每个词语,若找到合适词语,则将该词语所在节点添加到候选集合中。再对后先集合中的每个节点中,查看与其距离近期的上一级别的节点,若未能成功找到则将该节点排除,若可以找到则从上一级别的节点集合中将是该节点的子节点删除。
借助统计学的规则,并结合提取规则,计算出节点中的表格子节点与文本内容的子节点,并通过计算获得其数目的所占比率,若比值大于75%,则将该节点加入到提取集合当中,若小于75%,则将该节点排除。