洛谷P1308统计单词数,strtok函数的使用以及对于单词分割的一些思考

发布时间 2023-04-08 12:36:53作者: 凪风sama

[NOIP2011 普及组] 统计单词数

题目描述

一般的文本编辑器都有查找单词的功能,该功能可以快速定位特定单词在文章中的位置,有的还能统计出特定单词在文章中出现的次数。

现在,请你编程实现这一功能,具体要求是:给定一个单词,请你输出它在给定的文章中出现的次数和第一次出现的位置。注意:匹配单词时,不区分大小写,但要求完全匹配,即给定单词必须与文章中的某一独立单词在不区分大小写的情况下完全相同(参见样例 1),如果给定单词仅是文章中某一单词的一部分则不算匹配(参见样例 2)。

输入格式

\(2\) 行。

\(1\) 行为一个字符串,其中只含字母,表示给定单词;

\(2\) 行为一个字符串,其中只可能包含字母和空格,表示给定的文章。

输出格式

一行,如果在文章中找到给定单词则输出两个整数,两个整数之间用一个空格隔开,分别是单词在文章中出现的次数和第一次出现的位置(即在文章中第一次出现时,单词首字母在文章中的位置,位置从 \(0\) 开始);如果单词在文章中没有出现,则直接输出一个整数 \(-1\)

样例 #1

样例输入 #1

To
to be or not to be is a question

样例输出 #1

2 0

样例 #2

样例输入 #2

to
Did the Ottoman Empire lose its power at that time

样例输出 #2

-1

提示

数据范围

$1\leq $ 第一行单词长度 \(\leq10\)

$1\leq $ 文章长度 \(\leq10^6\)

noip2011 普及组第 2 题

————————————————————————————————————————————————————以上为题目
这道题的恶心点在于如何比较以及如何记录当前单词的位置,可以知道题目要求不论大小写的比较,因此我们必须将模式串和比较串统一大写或者统一小写然后调用strcmp函数来比较两者是否完全一至。
然后就是如何分割出单词,这里使用string库里的strtok函数
其定义如下
char *strtok(char *str, const char *delim);
其中Str为要被分割的字符串,delim为作为分割符的字符串
strtok函数会根据delim里的每一个单字符作为分隔符,将Str分割
strtok在切割字符串的时间,实际上就是将分割符的字符delimiter替换为'\0'并且返回首地址。
例如

点击查看代码
#include<stdio.h>
#include<stdlib.h>
#include<math.h>
#include<string.h>
#include<stdbool.h>
int main()
{
	char S[50] = { "  ABC DEF GH   QEL" };
	char Del[2] = " ";
	char* K = strtok(S, Del);
	while (K != NULL)
	{
		printf("%s %d", K, K - S);
		K = strtok(NULL, Del);//第二次调用要传入NULL,用来定位下一次的切割
	}
	return 0;
}
strtok函数的作用原理是strtok会从传入的字符指针开始向后扫瞄直到找到第一个非Del字符里的字符并标记为初始位置不妨叫他为Str,他是一个字符指针,此位置即为最后返回值。然后继续向后扫瞄直到找到Del字符里的字符为止,strtok会将这个字符直接在原字符串里替换为\0,然后返回Str这个字符指针,因此调用strtok会将原字符串改变。当找到末尾时,strtok回返回NULL,若在模式串中找不到分隔符,则直接原地返回字符串的首地址。

注意第二次分割参数传入NULL
因此借用strtok,我们可以以空格为分隔符来将单词分割出来并且得知其首字母在原字符串中的指针位置K,我们只需要让K减去模式串的首地址即可得知这个单词在模式串中的位置

有如下代码

点击查看代码
#include<stdio.h>
#include<stdlib.h>
#include<math.h>
#include<string.h>
#include<stdbool.h>
bool MyStrcmp(char* S, char* Pattern)
{
	int i;
	for (i = 0; S[i] && Pattern[i]; i++)
	{
		if (S[i] == Pattern[i] || S[i] - 32 == Pattern[i] || S[i] + 32 == Pattern[i])
			continue;
		else
			break;
	}
	if (!S[i] && !Pattern[i])
		return 1;
	else
		return 0;
}
int main()
{
	char S[10];
	scanf("%s", S);
	char Pattern[1000000];
	getchar();
	gets(Pattern);
	int cnt = 0;
	int Position = -1;
	char Del[2] = " ";
	char* K = strtok(Pattern, Del);
	while (K != NULL)
	{
		if (MyStrcmp(S, K))
		{
			cnt++;
			if (Position == -1)
				Position = K - Pattern;
		}
		K=strtok(NULL, Del);
	}
	if (Position != -1)
		printf("%d %d", cnt, Position);
	else
		printf("-1");
	return 0;
}
这里使用的逐个字母枚举比较,当然也可以将字符串全部转换为大写或者小写然后strcmp 大小写转换可以使用函数toupper(char c)//将字符c转换为大写,tolower(char c)//将字符c转为小写,不过这是单字符的转换,可以使用循环将字符串里的字母统一大小写