【摘要】網絡多媒體中央控制器,集成了嵌入式PC、中 央控制器、無線路由器等設備,實現了多種設備的一體化無縫 連接。嵌入式PC具有LINUX和WINDOWS雙模式操作機制, 采用ARM9架構,具有閃存和硬盤存儲模塊,具有數碼處理、 串口通訊、
【摘要】 本發明公開了一種識別中文文本編碼形式的方法,包括:A.在各種編碼形式下分別對待識別文本進行整數ID序列轉換;B.判斷待識別中文文本是否只能按照某種編碼形式轉換為整數ID序列,如果是,則執行步驟D;否則,執行步驟C;C.對在各種編碼形式下得到的待識別中文文本整數ID序列分別進行分詞,判斷在某種編碼形式下得到的待識別中文文本整數ID序列是否包含詞典中一個或多個詞語,如果是,則執行步驟D;D.確定該待識別中文文本的編碼形式為該種編碼形式。利用本發明,大大提高了漢字字符編碼識別的速度和準確率,并能夠有效識別短文本的漢字字符編碼形式。 【專利類型】發明申請 【申請人】中國科學院計算技術研究所 【申請人類型】科研單位 【申請人地址】100080北京市海淀區中關村科學院南路6號 【申請人地區】中國 【申請人城市】北京市 【申請人區縣】海淀區 【申請號】CN200610171655.0 【申請日】2006-12-31 【申請年份】2006 【公開公告號】CN101013420A 【公開公告日】2007-08-08 【公開公告年份】2007 【IPC分類號】G06F17/27; G06F17/28 【發明人】龔才春 【主權項內容】1、一種識別中文文本編碼形式的方法,其特征在于,該方法包括: A、在各種編碼形式下分別對待識別文本進行整數ID序列轉換; B、判斷待識別中文文本是否只能按照某種編碼形式轉換為整數ID序 列,如果是,則執行步驟D;否則,執行步驟C; C、對在各種編碼形式下得到的待識別中文文本整數ID序列分別進行 分詞,判斷在某種編碼形式下得到的待識別中文文本整數ID序列是否包 含詞典中一個或多個詞語,如果是,則執行步驟D; D、確定該待識別中文文本的編碼形式為該種編碼形式。 【當前權利人】中國科學院計算技術研究所 【當前專利權人地址】北京市海淀區中關村科學院南路6號 【統一社會信用代碼】12100000400012342E 【被引證次數】15 【被他引次數】15.0 【家族被引證次數】15
未經允許不得轉載:http://m.mhvdw.cn/1776280888.html
喜歡就贊一下






