在 C# 中,将字符串转换为 Unicode 字符(即每个字符的 Unicode 码点)可以通过遍历字符串中的每个字符并获取其 Unicode 值来实现。Unicode 值是一个整数,表示字符在 Unicode 标准中的唯一编号。
以下是实现方法:
1. 获取字符串中每个字符的 Unicode 值
使用 char
类型的隐式转换或 Convert.ToInt32
方法可以获取字符的 Unicode 值。
示例代码:
using System;
class Program
{
static void Main()
{
string input = "Hello 你好";
foreach (char c in input)
{
int unicodeValue = c; // 隐式转换为 Unicode 值
Console.WriteLine($"字符: {c}, Unicode 值: {unicodeValue}");
}
}
}
输出:
字符: H, Unicode 值: 72
字符: e, Unicode 值: 101
字符: l, Unicode 值: 108
字符: l, Unicode 值: 108
字符: o, Unicode 值: 111
字符: , Unicode 值: 32
字符: 你, Unicode 值: 20320
字符: 好, Unicode 值: 22909
2. 将 Unicode 值格式化为 \u
转义字符
如果需要将 Unicode 值格式化为 \u
开头的转义字符(例如 \u0041
表示字符 A
),可以使用 ToString("X4")
将 Unicode 值转换为 4 位十六进制字符串。
示例代码:
using System;
class Program
{
static void Main()
{
string input = "Hello 你好";
foreach (char c in input)
{
int unicodeValue = c;
string unicodeEscape = $"\\u{unicodeValue:X4}"; // 格式化为 \uHHHH
Console.WriteLine($"字符: {c}, Unicode 转义字符: {unicodeEscape}");
}
}
}
输出:
字符: H, Unicode 转义字符: \u0048
字符: e, Unicode 转义字符: \u0065
字符: l, Unicode 转义字符: \u006C
字符: l, Unicode 转义字符: \u006C
字符: o, Unicode 转义字符: \u006F
字符: , Unicode 转义字符: \u0020
字符: 你, Unicode 转义字符: \u4F60
字符: 好, Unicode 转义字符: \u597D
3. 将字符串整体转换为 Unicode 转义字符
如果需要将整个字符串转换为 Unicode 转义字符格式,可以遍历字符串并拼接结果。
示例代码:
using System;
using System.Text;
class Program
{
static void Main()
{
string input = "Hello 你好";
StringBuilder unicodeBuilder = new StringBuilder();
foreach (char c in input)
{
int unicodeValue = c;
unicodeBuilder.Append($"\\u{unicodeValue:X4}");
}
string unicodeString = unicodeBuilder.ToString();
Console.WriteLine(unicodeString); // 输出: \u0048\u0065\u006C\u006C\u006F\u0020\u4F60\u597D
}
}
4. 处理 Surrogate Pair(代理对)
对于某些 Unicode 字符(如表情符号或某些特殊字符),它们可能由两个 char
值(称为代理对)表示。需要使用 char.IsSurrogatePair
和 char.ConvertToUtf32
来处理。
示例代码:
using System;
using System.Text;
class Program
{
static void Main()
{
string input = "Hello 😊 你好";
StringBuilder unicodeBuilder = new StringBuilder();
for (int i = 0; i < input.Length; i++)
{
if (char.IsSurrogatePair(input, i))
{
// 处理代理对
int codePoint = char.ConvertToUtf32(input, i);
unicodeBuilder.Append($"\\U{codePoint:X8}"); // 使用 \U 表示 8 位十六进制
i++; // 跳过下一个 char
}
else
{
// 处理普通字符
int unicodeValue = input[i];
unicodeBuilder.Append($"\\u{unicodeValue:X4}");
}
}
string unicodeString = unicodeBuilder.ToString();
Console.WriteLine(unicodeString); // 输出: \u0048\u0065\u006C\u006C\u006F\u0020\U0001F60A\u0020\u4F60\u597D
}
}
5. 总结
- 使用
char
的隐式转换或Convert.ToInt32
获取字符的 Unicode 值。 - 使用
ToString("X4")
将 Unicode 值格式化为\uHHHH
转义字符。 - 对于代理对字符,使用
char.ConvertToUtf32
和\UHHHHHHHH
格式。 - 遍历字符串并拼接结果,可以将整个字符串转换为 Unicode 转义字符格式。
通过这些方法,你可以在 C# 中轻松地将字符串转换为 Unicode 字符或转义字符格式。