泰文旧称暹罗语,是泰国的官方语言,使用人口约5000万,有中部、北部、东北部和南部等4个方言区,其中曼谷话是其的标准语。泰文有元音17个,元音分长短,可以区别词义;有辅音44个、5个音标、10个数字和2个符号。
泰文是一种孤立型语言。基本词汇以单音节词居多,构词中广泛使用合成和重叠等手段。泰文中吸收了大量的梵语、巴利语和相当数量的孟语、高棉语、汉语、马来语和英语词汇。泰文词没有形态变化。词序和虚词是表达语法意义的主要手段。基本词序是:主语一谓语一宾语。定语在中心词之后。状语有的在中心词之前,有的在后。数词、量词和名词组合时,一般是名词在前,数词居中,量词在后。
泰文属于音位文字类型。现代泰文有辅音字符42个,元音字符和符号32个。元音字符可以在辅音字符的前后出现,还可以出现在辅音字符的上、下部位。有4个声调符号,标在辅音的右上方,第一声调不标符号。13世纪的兰甘亨碑文是目前发现的最早最完整的泰文文献。据该碑文记载,1283年素可泰王朝兰甘亨大帝创造了泰文字体。实际上泰文是将孟文和高棉文加以改造而成的,以后经过历代的改革形成现代泰文。
泰文字体由多个字符组合而成,文字结构中每个部位可以出现的字符种类是构字规则所确定的。它由圆圈和非封闭曲线组成,先写起始圆圈再写非封闭曲线,比英文字符复杂,比中文字符简单。泰文字体可以分割为三个部分: 顶部、中部和底部,字符的高度比是3:6:2。此外,泰文字体也可以分割为四个部分,分别是头、上、下、脚,即三部分中,把中间部分平分为上部和下部。泰文字体在其结构特征上存在很高的相似性,相似字符所构成的文字之间的相似性也很高。泰文字体的每行字符其构成几乎相同,字符之间的差别仅在于很小得部分。起笔、落笔处或中间笔顺的弧度的差别等。同时,泰文字体的这种相似性随着它所含字符数量的增多而增加。这给文字识别过程中的预处理、特征提取乃至分类处理带来很大困难,在
手写体文字识别情况下这一困难显得更为突出。因为泰文字体本身是复杂的二维结构,书写的时候,笔画的畸变、丢失、多余笔段的插入、字体的倾斜、部件间相对位置和大小变化等,这些都是经常发生的现象,所以形变后的文字结构更加复杂。
第一字体转换器还可以在线生成以下相关字体:
英文字体转换器
韩文转换器
金文在线转换器
日文毛笔字体转换器
甲骨文转换器 游明朝体