智能機器翻譯技術創業公司商業計劃書.pptx
下載文檔
上傳人:職z****i
編號:1135633
2024-09-08
20頁
5.47MB
1、XX智能技智能技術術XX是由微是由微軟資軟資深技深技術術人人員創辦員創辦的人工智能公司的人工智能公司XX科技(Atman)是一家人工智能創業公司,由來自微軟亞洲研究院(MSRA)和微軟搜索技術中心(Bing STC)的資深技術專家于2016年初創立,同年5月獲 北極光創投天使輪投資。公司愿景:以消弭人類跨語言溝通障礙為己任,聚焦世界領先機器翻譯技術的研 發和應用,追求語言轉換過程的極致自動化。當前產品和服務:領先機器翻譯技術結合譯后編輯重構高質量語言轉換服務 外媒內容全鏈條生產平臺:外媒選材、機器翻譯、在線編輯、自動分發、XxxXxx CEO清華大學畢業,曾供職微軟亞洲研究院、微軟互聯網技術中2、心專長機器智能(深度學習、強化學習、群體智能)發表論文和申請國際專利共計15+項主導項目:手寫識別、必應改錯語音識別、智能郵件、神經網絡對話等XxxXxx COO吉林大學法學院本科/碩士,中歐商學院EMBA弘毅投資早期員工;TCL創投執行董事、中興資本副總經理、貴州開開門投資管理有限公司總經理參與ZEPP、音樂筆記等多個創業項目的策劃、融資、運營管理超過10年的公司業務規劃和運營管理經驗。、XxxXxx CTO北京大學電子系本科,中國科學院自動化所碩士曾供職朗訊、摩托羅拉、諾基亞微軟互聯網搜索技術中心專長于大規模系統開發、移動應用開發、項目管理、研發團隊管理快速工程化機器翻譯先進技術創創始始團3、隊團隊機器翻機器翻譯譯加自然加自然語語言言處處理技理技術驅動產術驅動產品和服品和服務務落地落地NLP機器機器 翻翻譯譯搜索搜索Big Data語語音音圖圖像像用戶群體核 心 技 術領域產品形態語語言服言服務務翻翻譯譯系系統統 私有私有部署部署端到端端到端 翻翻譯譯業務業務以以 翻翻 譯譯 為為 核核 心心 需需 求求 的用的用戶戶內容生內容生產產內容內容 生生產產力平臺力平臺以以 內內 容容 為為 核核 心心 需需 求求 的用的用戶戶更多更多 細細分分領領域域細細分分領領域域 用用戶戶結結合合細細分分領領域域應應用用 持續提升核心翻譯能力 構建人工智能全棧技術 深耕優勢領域,打磨產品應用 探索4、更多領域,共贏現有產品里程碑:十月望生,完成核心技里程碑:十月望生,完成核心技術術研研發發,開展商,開展商業業模式探索模式探索06070809101112010203自主研發ANMT系統時政領域翻譯超越GBBANMT數據使用革命科技領域翻譯超越GBBANMT支持多機多卡計算醫療領域翻譯超越BB,與Google持平,國內最佳公司開始運營中標某世界500強醫藥企業機器翻譯項目啟動內容生產平臺項目,攜手科技領域著名媒體籌建翻譯服務項目,聚 焦醫藥領域翻譯服務探索:機器翻譯+廣告分發探索:機器翻譯+境外旅游20162017ANMT:Atman Neural Machine TranslationGBB5、:Google,Baidu,Bing(Microsoft)領先機器翻譯技術之養成100%自主研自主研發發、垂直、垂直領領域超越谷歌的域超越谷歌的NMT機器翻機器翻譯譯系系統統ANMT和GBB NMT系統對比ANMT技術優勢模型 引入正則化多層遞歸網絡,提升神經元利用率 引入覆蓋率模型,解決多譯、漏譯問題 數據驅動的詞元模型,解決超大詞表和組合詞表問題 多目標遷移學習,復用算力和訓練時間數據 課程表學習大規模提升單位數據利用率 半監督學習使用單邊數據改善數據稀疏性 強化學習,探索訓練數據之外的翻譯表達 基于知識圖譜構造訓練數據基基礎礎模型模型模型模型層層數數算力算力 (GPU)數據來源數據來源數6、據數據規規模模語語言言翻翻譯領譯領域域開開發團隊發團隊(人人)Atman多層RNN (GRU/LSTM)Attention824互聯網數據億級中英垂直領域8GBB 16100互聯網數據+企 業數據+UGC百億級 50全領域 50“More data beats clever algorithms,but better data beats more data”-Peter Norvig翻翻譯譯效果:政治效果:政治領領域域指指標標AtmanGoogleBaiduBing(MS)BLEU52.7050.9435.7341.91翻翻譯譯效果:科技效果:科技領領域域指指標標AtmanGoogleBai7、duBing(MS)BLEU29.2528.4527.9325.60翻翻譯譯效果:醫效果:醫療領療領域域指指標標AtmanGoogleBaiduBing(MS)BLEU32.8031.5631.7728.55某世某世界界500強強醫醫藥藥公司公司 機器翻機器翻譯譯技技術術 獨家獨家提供商提供商漏翻重要信息機器翻譯重構語言服務市場語語言服言服務務市市場場市市場規場規模模較較大并存在大并存在痛痛點點需需 求求 產能不高且有上限:每人每天5000字字翻譯 產能補充緩慢、并且優秀人才持續流出 專業領域翻譯難度大,收入有限:醫療專業名詞有幾十萬幾十萬之多 全球市場400億億美元,中國市場1000億億人民8、幣 國內醫療行業年翻譯需求量150億億字 醫療專業領域翻譯前三名市場份額之和10 痛痛 點點方案一:機器翻方案一:機器翻譯譯私有(云)部署私有(云)部署-某醫某醫藥藥企企業業解決方案解決方案該該客客戶戶部署部署結結構構圖圖某世界500 強醫藥企業18家投標企 業唯一中標2017年6月首期交付首個客首個客戶戶驗驗收收標標準準BLEU指 標 超 谷 歌 一 個百分點自動評測忠 實 度 和 流 暢 度 均 超谷歌人工評測2000人 同 時 在 線 翻 譯使用并發能力方案一:機器翻方案一:機器翻譯譯私有(云)部署私有(云)部署-未來完整解決方案未來完整解決方案全面覆蓋翻譯數據服務機器翻譯模型增量訓練翻9、譯項目管理翻譯輔助工具客戶端系統集成接口靈活使用私有部署私有云租用(SaaS)方案二:方案二:計計算算輔輔助翻助翻譯譯工具工具監監管數據和工作流程管數據和工作流程機器翻譯創新外媒內容生產過程外媒生外媒生產產有巨大市有巨大市場場需求,且有明需求,且有明顯顯提升空提升空間間大量活活躍躍小自媒體微信活躍280萬萬家微博頭V34萬萬家頭條活躍20萬萬家外媒外媒需量驚人日均產文150萬萬篇日翻譯字數6億億字字需需 求求選材、翻譯、校對、分發等內容生產各環節主要依賴人工對外媒內容覆蓋覆蓋程度低,遠小 于10生產成成本本高,4道工序需要專人,且翻譯按字計費生產流程耗耗時時長,大約2天時間痛痛 點點產產品原型已品原型已獲獲得良好的用得良好的用戶戶反反饋饋“從我們做科技媒體的 角度看,很多國外的消息,你們這里都有,而且是翻譯 好的,這一點很有價值”“我堅信,這個是未來巨大的內容源生產方式”“超級看好這個產品,解決 了我們想做信息分發的想 法”“幫大家減輕了大眾選 題的工作,能不能添加自己 的選題源呢?另外,翻譯和 英文都保留的方式很不錯,贊”通通過過在在線編輯線編輯功能收集用功能收集用戶標戶標注數據注數據