7.16周报

发布时间 2023-07-16 17:08:38作者: Spartaright

文献阅读

 (一)利用文本挖掘作为食品科学与营养的大数据分析工具:Utilization of text mining as a big data analysis tool for food science and nutrition - Tao - 2020 - Comprehensive Reviews in Food Science and Food Safety - Wiley Online Library

笔记地址:利用文本挖掘作为食品科学与营养的大数据分析工具 - Spartaright - 博客园 (cnblogs.com)

这篇综述简单介绍了文本挖掘在食品科学与营养方面的应用,并且介绍了文本数据分析的步骤框架。比较值得阅读的是第4部分,里面大量介绍了文本挖掘技术在各个领域使用的相关论文。根据这篇文章,我找到了一篇研究中国饮食偏好与糖尿病风险的论文Dietary preferences and diabetic risk in China: A large‐scale nationwide Internet data‐based study - Zhao - 2020 - Journal of Diabetes - Wiley Online Library,研究思路类似于以前阅读过的饮食口味热点分析的文章,目前正在阅读中,初步笔记如下

(二)FoodIE:一种基于规则的食品信息抽取NER方法:DOI: 10.5220/0007686309150922

笔记地址:FoodIE:一种基于规则的食品信息抽取NER方法 - Spartaright - 博客园 (cnblogs.com)

这篇文章介绍了自然语言处理中命名实体识别(NER)任务在提取非结构化食谱文本中的信息方面的应用,作者提出了一种基于规则的NER方法来识别并提取食谱文本中的食物实体,其中在第3节中,作者给出了判别文本中的分词是否为食物分词的详细规则,通过词性标注来分析一个词的上下文是否能和单词构成一个完整的食物实体。在第4节中分别使用人工手动提取和该方法对食谱文本进行提取,并通过精度和召回率等指标来评估该方法的可靠性,结果具有很高的精度。该方法虽然和embedding方法的联系不大,但可以作为一个信息提取的方法拓展学习。

其它

参照志坤师兄的核算方式粗略写了一点代码,但是感觉代码量远远达不到软著的申请要求,存在最大的问题是如果要写软件,软件的服务对象模糊,导致对于输入输出没有一个标准(供谁使用?使用者的数据输入要求?计算的输出?),用户使用手册的撰写也很困难。就算以上的问题能解决,代码量加上前端的代码,估计也只能到200-300行,远远达不到标准。