rust学习-string

介绍

A UTF-8–encoded, growable string(可增长字符串).
拥有string内容的所有权

A String is made up of three components: a pointer to some bytes, a length, and a capacity.
The length is the number of bytes currently stored in the buffer

pub fn as_bytes(&self) -> &[u8]

字符串的内容转为byte slice

fn main() {
   
	let s = String::from("我的世界123abc");
	print!("{:?}\n", s.as_bytes());
}

pub fn as_str(&self) -> &str

将 String 转换为一个不可变引用 &str

fn main() {
   
    let s = String::from("hello");

    let s_ref: &str = s.as_str();

    println!("{}", s_ref);
}

在上述示例中,定义一个字符串 s,然后使用 as_str() 方法将其转换为一个不可变引用 &str

注意
as_str() 方法返回的是对原始 String 中的数据的引用,并不会对字符串的所有权进行转移。
这意味着在转换后,原始的 String 对象仍然可以使用。
但是,要保证转换后的 &str 引用在原始 String 存在时有效,以防止访问无效的数据。

(这个名字起的真好,as,作为,他既是一个老师,也是一个舞蹈家)

pub fn into_boxed_str(self) -> Box<str, Global>

将 String 转换为 Box<str, Global> 类型。Box<str, Global> 是一个堆分配的 str 的智能指针。

fn main() {
   
    let s = String::from("hello");

    let boxed_str: Box<str> = s.into_boxed_str();

    println!("{}", boxed_str);
}

通过将 String 转换为 Box,将字符串的所有权转移到了堆上的一个固定大小的箱子(box)中。
注意,该转换可能会涉及堆分配的内存,因此请确保进行必要的内存管理和清理。

pub fn into_bytes(self) -> Vec<u8, Global>

String -> byte vector

会消耗字符串,因此不需要复制内

fn main() {
   
	// move occurs because `s` has type `String`, which does not implement the `Copy` trait
	let s = String::from("hello");
	// `s` moved due to this method call
	let bytes = s.into_bytes();

	assert_eq!(&[104, 101, 108, 108, 111][..], &bytes[..]);
	// 编译失败,value borrowed here after move
	print!("{}", s);
}

pub fn into_raw_parts(self) -> (*mut u8, usize, usize)

a nightly-only experimental API
将字符串分解为其原始组件,String -> raw components

返回指向基础数据的原始指针、字符串的长度(以字节为单位)以及数据的分配容量(以字节为单位)。
Returns the raw pointer to the underlying data, the length of the string (in bytes), and the allocated capacity of the data (in bytes)
这些参数与 from_raw_parts 的参数的顺序相同。

调用此函数后,调用者负责之前由 String 管理的内存。
执行此操作的唯一方法是使用 from_raw_parts 函数将原始指针、长度和容量转换回字符串,从而允许析构函数执行清理。
Decomposes a String into its raw components.

#![feature(vec_into_raw_parts)]
let s = String::from("hello");

let (ptr, len, cap) = s.into_raw_parts();

let rebuilt = unsafe {
    String::from_raw_parts(ptr, len, cap) };
assert_eq!(rebuilt, "hello");

pub fn len(&self) -> usize

返回此字符串的长度(以字节为单位),而不是字符或字素(not chars or graphemes)。
换句话说,它可能不是人类所认为的字符串长度。

let a = String::from("foo");
assert_eq!(a.len(), 3);

let fancy_f = String::from("ƒoo");
assert_eq!(fancy_f.len(), 4);
assert_eq!(fancy_f.chars().count(), 3);

pub fn from_utf8(vec: Vec<u8, Global>) -> Result<String, FromUtf8Error>

A string (String) is made of bytes (u8)
A vector of bytes (Vec) is made of bytes
Converts a vector of bytes to a String.

如果确定byte slice是有效的 UTF-8,并且不想承担有效性检查的开销
则该函数有一个不安全版本 from_utf8_unchecked,它具有相同的行为但跳过检查。

  • 该方法的逆方法是 into_bytes
  • 为了提高效率,from_utf8方法不复制向量。
  • 如果需要 &str 而不是 String,请考虑 str::from_utf8。

错误
如果切片不是 UTF-8,则返回 Err,并说明为什么提供的字节不是 UTF-8

注意:
String requires that it is valid UTF-8. from_utf8() checks to ensure that the bytes are valid UTF-8
And then does the conversion.

pub fn from_utf8_lossy(v: &[u8]) -> Cow<'_, str>

它接受一个 &[u8] 类型的字节数组 v,并尝试将其解析为一个 str 类型
内部使用了 Cow(Clone on Write)类型来处理不同的情况

fn main() {
   
    let bytes = b"Hello, \xF0\x9F\x8C\x8E";
    let s = String::from_utf8_lossy(bytes);
    println!("{}", s); // Hello, ?
}

有一个字节数组 bytes,其中包含一些 Unicode 字符。将该字节数组传递给 from_utf8_lossy

当字节数组包含有效的 UTF-8 字符时,from_utf8_lossy 函数会解析它们并返回一个具有借用/拥有(Owned)字符串的 Cow::Borrowed 或 Cow::Owned。它们是 Cow 类型的两个变体,允许在需要时选择最合适的字符串表示。

在处理非 UTF-8 数据时,from_utf8_lossy 函数会用 U+FFFD REPLACEMENT CHARACTER 替换不合法的 UTF-8 序列,并返回一个包含替代字符的字符串。

from_utf8_lossy 并不是一个严格的 UTF-8 解析器,它在不符合规范的情况下会进行一些补救措施
如果需要更严格的 UTF-8 解析,可以使用 std::str::from_utf8 函数文章来源地址https://uudwc.com/A/4rnx3

大小和索引问题

fn main() {
   
	use std::mem;

	// `s` is ASCII which represents each `char` as one byte
	let s = "hello";
	assert_eq!(s.len(), 

原文地址:https://blog.csdn.net/wangkai6666/article/details/133254854

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请联系站长进行投诉反馈,一经查实,立即删除!

上一篇 2023年09月26日 16:21
下一篇 2023年09月26日 16:22