有没有办法将文本从Unicode转换为ASCII?

如何解决有没有办法将文本从Unicode转换为ASCII?

| 我需要的是,对于每个ASCII字符,一个等效的Unicode字符列表。 问题是,当人们在文档中键入内容时,诸如Microsoft Excel和Word之类的程序会插入非ASCII双引号,单引号,破折号等。我想将此文本存储在\“ varchar \”类型的数据库字段中,该字段需要单字节字符。 为了存储ASCII(单字节)文本,可以将其中一些Unicode字符视为与特定ASCII字符等效或足够相似,以将Unicode字符替换为等效ASCII字符就可以了。 我想要一个简单的函数,例如MapToASCII,它将Unicode文本转换为等效的ASCII,从而允许我为与任何ASCII字符都不相似的任何Unicode字符指定替换字符。     

解决方法

Win32 API WideCharToMultiByte可以用于此转换(Unicode到ANSI)。使用CP_ACP作为第一个参数。这样的事情可能比尝试构建自己的映射功能更好。 编辑冒着冒犯我试图将其作为解决OP愿望的解决方案的风险,似乎值得指出的是,此API可以完成所有(全部)要求的工作。目的是尽可能地将Unicode字符串映射到“ ANSI”(在这种情况下ANSI可能是移动目标)。另一个要求是能够为无法映射的字符指定一些替代字符。下面的示例执行此操作。它将Unicode字符串“转换”为“ 0”,并为那些无法转换的字符使用下划线(倒数第二个参数)。
ret = WideCharToMultiByte( CP_ACP,L\"abc個חあЖdef\",-1,ac,sizeof( ac ),\"_\",NULL );
for ( i = 0; i < strlen( ac ); i++ )
  printf( \"%c %02x\\n\",ac[i],ac[i] );
    ,一个高度相关的问题在这里:用ASCII近似值代替Unicode标点符号 尽管答案还不够,但这给了我一个主意。我可以将基本多语言平面(0)中的每个Unicode代码点映射到等效的ASCII字符(如果存在)。以下C#代码将通过创建HTML表单来提供帮助,您可以在其中键入每个值的替换字符。
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Globalization;
using System.IO;

namespace UnicodeCharacterCategorizer
{
    class Program
    {
        static void Main(string[] args)
        {
            string output_filename = \"output.htm\"; //set a filename if not specifying one through the command line
            Dictionary<UnicodeCategory,List<char>> category_character_sets = new Dictionary<UnicodeCategory,List<char>>();
            foreach (UnicodeCategory c in Enum.GetValues(typeof(UnicodeCategory)))
                category_character_sets.Add( c,new List<char>() );
            for (int i = 0; i <= 0xFFFF; i++)
            {
                if (i >= 0xD800 && i <= 0xDFFF) continue; //Skip ranges reserved for high/low surrogate pairs.
                char c = (char)i;
                UnicodeCategory category = char.GetUnicodeCategory( c );
                category_character_sets[category].Add( c );
            }
            StringBuilder file_data = new StringBuilder( @\"<!DOCTYPE html PUBLIC \"\"-//W3C//DTD XHTML 1.0 Transitional//EN\"\" \"\"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\"\"><html xmlns=\"\"http://www.w3.org/1999/xhtml\"\"><head><title>Unicode Category Character Sets</title><style>.categoryblock{border:3px solid black;margin-bottom:10px;padding:5px;} .characterblock{display:inline-block;border:1px solid grey;padding:5px;margin-right:5px;} .character{display:inline-block;font-weight:bold;background-color:#ffeeee} .numericvalue{color:blue;}</style></head><body><form id=\"\"charactermap\"\">\" );
            foreach (KeyValuePair<UnicodeCategory,List<char>> entry in category_character_sets)
            {
                file_data.Append( @\"<div class=\"\"categoryblock\"\"><h1>\" + entry.Key.ToString() + \":</h1><br />\" );
                foreach (char c in entry.Value)
                {
                    string hex_value = ((int)c).ToString( \"x\" );
                    file_data.Append( @\"<div class=\"\"characterblock\"\"><span class=\"\"character\"\">&#x\" + hex_value + @\";<br /><span class=\"\"numericvalue\"\">\" + hex_value + @\"</span><br /><input type=\"\"text\"\" name=\"\"r_\" + hex_value + @\"\"\" /></div>\" );
                }
                file_data.Append( \"</div>\" );
            }
            file_data.Append(\"</form></body></html>\" );
            File.WriteAllText( output_filename,file_data.ToString(),Encoding.Unicode );
        }
    }
}
具体来说,该代码将生成一个HTML表单,其中包含BMP中的所有字符,以及以前缀“ \ r _ \”(r表示\“替换值\”)的十六进制值命名的输入文本框。如果将其移植到ASP.NET页,则可以编写其他代码来尽可能多地预填充替换值: 具有自己的值(如果已经是ASCII),或者 使用Unicode规范化的FormD或FormKD分解的等效项,或者 整个类别的单个ASCII值(即带有ASCII双引号的所有\“标点符号\”字符) 然后,您可以手动进行调整,并且可能不需要您想的那么长。只有64512个代码点,整个类别的大块可能会被忽略为“甚至没有接近ASCII的字符”。因此,我将构建此映射和功能。     

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-