【摘要】請求保護的外觀設計包含色彩?!緦@愋汀客庥^設計【申請人】北京天冰冷飲有限公司【申請人類型】企業(yè)【申請人地址】102607北京市大興區(qū)安定鎮(zhèn)工業(yè)區(qū)638號【申請人地區(qū)】中國【申請人城市】北京市【申請人區(qū)縣】大興區(qū)【申請?zhí)枴緾N200
【摘要】 本發(fā)明涉及一種基于HTML特征的文本內容提取方法,該方法實現(xiàn)的步驟包括:1)使用標簽把輸入的HTML網(wǎng)頁進行分解成多個模塊;2)如果1)中分解的模塊還能繼續(xù)再分解而且沒有出現(xiàn)Table或Div標簽混雜的情況,那么再把它送到步驟1)繼續(xù)分解;3)把輸入的模塊根據(jù)在布局中的不同位置給與不同位置得分;4)計算每個模塊的鏈接文字長度和每個模塊超鏈接內文本的長度;5)根據(jù)公式:綜合得分=位置得分×文字長度/鏈接文字長度得出每個模塊得綜合得分。與現(xiàn)有技術相比,提高了網(wǎng)頁布局的解析效率;提高了文本聚類和文本分類、自動摘要的準確性。。關注公眾號馬 克 數(shù) 據(jù) 網(wǎng) 【專利類型】發(fā)明申請 【申請人】上海新納廣告?zhèn)髅接邢薰?【申請人類型】企業(yè) 【申請人地址】200050上海市長寧路1027號42F 【申請人地區(qū)】中國 【申請人城市】上海市 【申請人區(qū)縣】長寧區(qū) 【申請?zhí)枴緾N200610028064.8 【申請日】2006-06-22 【申請年份】2006 【公開公告號】CN101093487A 【公開公告日】2007-12-26 【公開公告年份】2007 【IPC分類號】G06F17/30 【發(fā)明人】金駿; 胡創(chuàng)義 【主權項內容】1.基于HTML特征的文本內容提取方法,其特征在于,該方法實現(xiàn)的步 驟包括: 1)使用標簽把輸入的HTML網(wǎng)頁進行分解成多個模塊; 2)如果1)中分解的模塊還能繼續(xù)再分解而且沒有出現(xiàn)Table或Div標簽 混雜的情況,那么再把它送到步驟1)繼續(xù)分解; 3)把輸入的模塊根據(jù)在布局中的不同位置給與不同位置得分; 4)計算每個模塊的鏈接文字長度和每個模塊超鏈接內文本的長度; 5)根據(jù)公式:綜合得分=位置得分×文字長度/鏈接文字長度得出每個模 塊得綜合得分,綜合得分最高的為內容模塊。 【當前權利人】上海新納廣告?zhèn)髅接邢薰?【當前專利權人地址】上海市長寧路1027號42F 【專利權人類型】有限責任公司 【被引證次數(shù)】23 【被他引次數(shù)】23.0 【家族被引證次數(shù)】23
未經(jīng)允許不得轉載:http://m.mhvdw.cn/1775442684.html
喜歡就贊一下






