您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 在线教育专题_邓澍军_大数据时代的在线教育(PDF43页)
猿题库:大数据时代的在线教育邓澍军dengsj@yuantiku.com2015.07.17提纲概述拍照搜题分析预测总结概述90年代网校:远程教育在线教育00年代传统教育转战线上10年代互联网公司进军在线教育2012-移动互联网在线教育拍照搜题拍照搜题挑战每天千万级别的图片请求每天十亿级别的OCR识别数理化复杂公式手写识别图片问题:模糊/扭曲/光照解决方案DeepLearningGPU拍照搜题(续)拍照搜题技术框架插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY图片类别图片特征内容多样•语数英等10来个科目模糊图很多,占30%+•光照、扭曲、抖动等含有大量公式,数学占50%•上下标、分式、根号等插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY模糊图片插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY公式图片插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY图片预处理插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY印刷体手写分类(续)插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY手写图片示例印刷体手写分类插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNYCNN准确率高代价高Feature+规则准确率低速度快印刷体字符切分插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY复杂公式切分插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY卷积神经网络模型ConvolutionsMaxPoolingConvolutionsMaxPoolingConvolutionsMaxPoolingConvolutionsReLUDropoutFullConnectionSoftmax插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY手写体字符切分插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY特别处理去格子行检测切分•中文字间无空格•学生习惯斜着写手写体字符切分插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY递归神经网络(RNN)模型插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY隐层输出层输出层延迟DeepLearning加速插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY卷积计算耗时较大batch较大:cuda-convnet2卷积核较大:fbfftDeepLearning加速用GPUK40训练相比CPU模式速度能够提升5-6倍GPUK40线上预测速度能够提升2-4倍插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY辅助策略——NLP纠错利用语言模型进行纠错平行回边形平行四边形电灯炮电灯泡入人l1插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY如果题目中的插图匹配(SIFT等特征),则为加分项辅助策略——插图匹配插图匹配图片切分2RNNNLP纠错预处理返回题目搜索切分1手写?CNNNY搜索示例搜索示例猿题库统计分析与预测题目难度分布统计跳题率与平均做题时间统计正确率与平均做题时间统计相关预测跳题率预测推荐练习时需要评估题目质量可参考学生能力预测高考/中考分预测猿题库学生能力预测猿题库学生能力预测(续)项目反应理论(IRT)最简单的IRT模型题目难度b•标注学生能力𝜃•模型参数,优化得到传统教育模型机器学习模型Offlinemodel•LogisticRegressionOnlinemodel•Follow-the-Regularized-Leader机器学习模型统计分析生成训练数据OfflineIRTOfflineLROnlineFTRLOffline预测知识点映射树流程CorrectRate做题正确率预测评估预测分评估0102030405060708090100理数物理化学英语生物真实平均分预测平均分2014年广东省理科高考总结拍照搜题DeepLearningGPU分析与预测跳题率分析与预测题目难度分析与预测学生能力预测未来教育领域知识图谱学生的最优能力成长之路手写识别解答题自动判卷高考机器人机器自动出题机器自动做题智能芯片……Q&A?Thanks!dengsj@yuantiku.com
本文标题:在线教育专题_邓澍军_大数据时代的在线教育(PDF43页)
链接地址:https://www.777doc.com/doc-24997 .html